中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

音頻處理方法、裝置、設備及介質(zhì)與流程

文檔序號:42427280發(fā)布日期:2025-07-11 19:22閱讀:65來源:國知局

本公開涉及音頻處理,尤其涉及一種音頻處理方法、裝置、設備及介質(zhì)。


背景技術(shù):

1、在音視頻會議、實時通訊設備等應用場景中,噪聲干擾都會對用戶體驗產(chǎn)生負面影響。音頻降噪是一種旨在減少或消除音頻中的背景噪音,以提高音頻質(zhì)量的技術(shù),尤其對嘈雜環(huán)境中提高語音清晰度起著非常重要的作用。


技術(shù)實現(xiàn)思路

1、有鑒于此,本公開提供了一種音頻處理方法、裝置、設備及介質(zhì)。

2、根據(jù)本公開的第一個方面,提供了一種音頻處理方法,包括:獲得第一音頻,第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音;基于第一音頻和音頻生成模型生成第二音頻,第二音頻包括與多個對象中目標對象對應的第二聲音,第二聲音的音頻特征與目標對象產(chǎn)生的第一聲音的音頻特征對應;根據(jù)第二音頻對第一音頻進行處理,得到目標音頻,目標音頻包括目標對象產(chǎn)生的第一聲音。

3、根據(jù)本公開的實施例,基于第一音頻和音頻生成模型生成第二音頻包括:從第一音頻中提取目標對象的音頻特征和文本內(nèi)容;通過音頻生成模型生成與目標對象的音頻特征對應的第二音頻,第二音頻的內(nèi)容包括文本內(nèi)容。

4、根據(jù)本公開的實施例,從第一音頻中提取目標對象的音頻特征和文本內(nèi)容之前,方法還包括:獲得位置信息,位置信息用于指示多個對象中每個對象所處的位置;根據(jù)每個對象所處的位置確定至少一個對象為目標對象。

5、根據(jù)本公開的實施例,基于第一音頻和音頻生成模型生成第二音頻包括:從第一音頻中提取與目標對象對應的文本內(nèi)容;通過音頻生成模型生成與目標音頻特征對應的第二音頻,第二音頻的內(nèi)容包括文本內(nèi)容,目標音頻特征與目標對象產(chǎn)生的第一聲音的音頻特征對應。

6、根據(jù)本公開的實施例,從第一音頻中提取與目標對象對應的文本內(nèi)容之前,方法還包括:獲得多個對象中每個對象的音頻特征;確定每個對象的音頻特征與目標音頻特征的相似度;根據(jù)相似度確定至少一個對象為目標對象。

7、根據(jù)本公開的實施例,根據(jù)第二音頻對第一音頻進行處理,得到目標音頻包括:根據(jù)第一音頻和第二音頻,確定第三音頻,第三音頻為第一音頻和第二音頻之間的差異部分;去除第一音頻中與第三音頻中相同的部分,得到目標音頻。

8、根據(jù)本公開的實施例,根據(jù)第二音頻對第一音頻進行處理,得到目標音頻包括:提取第一音頻中與第二音頻中相同的部分,得到目標音頻。

9、本公開的第二方面提供了一種音頻處理裝置,包括:獲得模塊,用于獲得第一音頻,第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音;生成模塊,用于基于第一音頻和音頻生成模型生成第二音頻,第二音頻包括與多個對象中目標對象對應的第二聲音,第二聲音的音頻特征與目標對象產(chǎn)生的第一聲音的音頻特征對應;處理模塊,用于根據(jù)第二音頻對第一音頻進行處理,得到目標音頻,目標音頻包括目標對象產(chǎn)生的第一聲音。

10、本公開的第三方面提供了一種電子設備,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序,所述一個或多個處理器執(zhí)行所述一個或多個計算機程序以實現(xiàn):獲得第一音頻,所述第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音;基于所述第一音頻和音頻生成模型生成第二音頻,所述第二音頻包括與所述多個對象中目標對象對應的第二聲音,所述第二聲音的音頻特征與所述目標對象產(chǎn)生的第一聲音的音頻特征對應;根據(jù)所述第二音頻對所述第一音頻進行處理,得到目標音頻,所述目標音頻包括所述目標對象產(chǎn)生的第一聲音。

11、本公開的第四方面還提供了一種計算機可讀存儲介質(zhì),其上存儲有可執(zhí)行指令,所述計算機程序或指令被處理器執(zhí)行時實現(xiàn):獲得第一音頻,所述第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音;基于所述第一音頻和音頻生成模型生成第二音頻,所述第二音頻包括與所述多個對象中目標對象對應的第二聲音,所述第二聲音的音頻特征與所述目標對象產(chǎn)生的第一聲音的音頻特征對應;根據(jù)所述第二音頻對所述第一音頻進行處理,得到目標音頻,所述目標音頻包括所述目標對象產(chǎn)生的第一聲音。

12、本公開的第五方面還提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述音頻處理方法。

13、應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。



技術(shù)特征:

1.一種音頻處理方法,包括:

2.根據(jù)權(quán)利要求1所述的方法,基于所述第一音頻和音頻生成模型生成第二音頻包括:

3.根據(jù)權(quán)利要求2所述的方法,從所述第一音頻中提取所述目標對象的音頻特征和文本內(nèi)容之前,所述方法還包括:

4.根據(jù)權(quán)利要求1所述的方法,基于所述第一音頻和音頻生成模型生成第二音頻包括:

5.根據(jù)權(quán)利要求4所述的方法,從第一音頻中提取與所述目標對象對應的文本內(nèi)容之前,所述方法還包括:

6.根據(jù)權(quán)利要求1-5中任一項所述的方法,根據(jù)所述第二音頻對所述第一音頻進行處理,得到目標音頻包括:

7.根據(jù)權(quán)利要求1-5中任一項所述的方法,根據(jù)所述第二音頻對所述第一音頻進行處理,得到目標音頻包括:

8.一種音頻處理裝置,包括:

9.一種電子設備,包括:

10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序或指令,其特征在于,所述計算機程序或指令被處理器執(zhí)行時實現(xiàn):獲得第一音頻,所述第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音;基于所述第一音頻和音頻生成模型生成第二音頻,所述第二音頻包括與所述多個對象中目標對象對應的第二聲音,所述第二聲音的音頻特征與所述目標對象產(chǎn)生的第一聲音的音頻特征對應;根據(jù)所述第二音頻對所述第一音頻進行處理,得到目標音頻,所述目標音頻包括所述目標對象產(chǎn)生的第一聲音。


技術(shù)總結(jié)
本公開提供了一種音頻處理方法、裝置、設備及介質(zhì),應用于音頻處理技術(shù)領(lǐng)域。該音頻處理方法,包括:獲得第一音頻,第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音;基于第一音頻和音頻生成模型生成第二音頻,第二音頻包括與多個對象中目標對象對應的第二聲音,第二聲音的音頻特征與目標對象產(chǎn)生的第一聲音的音頻特征對應;根據(jù)第二音頻對第一音頻進行處理,得到目標音頻,目標音頻包括目標對象產(chǎn)生的第一聲音。

技術(shù)研發(fā)人員:呂新蕊,柯駿
受保護的技術(shù)使用者:聯(lián)想(北京)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/7/10
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1