音頻處理方法、裝置、設備及介質(zhì)與流程

文檔序號：42427280發(fā)布日期：2025-07-11 19:22閱讀：65來源：國知局

本公開涉及音頻處理，尤其涉及一種音頻處理方法、裝置、設備及介質(zhì)。

背景技術(shù)：

1、在音視頻會議、實時通訊設備等應用場景中，噪聲干擾都會對用戶體驗產(chǎn)生負面影響。音頻降噪是一種旨在減少或消除音頻中的背景噪音，以提高音頻質(zhì)量的技術(shù)，尤其對嘈雜環(huán)境中提高語音清晰度起著非常重要的作用。

技術(shù)實現(xiàn)思路

1、有鑒于此，本公開提供了一種音頻處理方法、裝置、設備及介質(zhì)。

2、根據(jù)本公開的第一個方面，提供了一種音頻處理方法，包括：獲得第一音頻，第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音；基于第一音頻和音頻生成模型生成第二音頻，第二音頻包括與多個對象中目標對象對應的第二聲音，第二聲音的音頻特征與目標對象產(chǎn)生的第一聲音的音頻特征對應；根據(jù)第二音頻對第一音頻進行處理，得到目標音頻，目標音頻包括目標對象產(chǎn)生的第一聲音。

3、根據(jù)本公開的實施例，基于第一音頻和音頻生成模型生成第二音頻包括：從第一音頻中提取目標對象的音頻特征和文本內(nèi)容；通過音頻生成模型生成與目標對象的音頻特征對應的第二音頻，第二音頻的內(nèi)容包括文本內(nèi)容。

4、根據(jù)本公開的實施例，從第一音頻中提取目標對象的音頻特征和文本內(nèi)容之前，方法還包括：獲得位置信息，位置信息用于指示多個對象中每個對象所處的位置；根據(jù)每個對象所處的位置確定至少一個對象為目標對象。

5、根據(jù)本公開的實施例，基于第一音頻和音頻生成模型生成第二音頻包括：從第一音頻中提取與目標對象對應的文本內(nèi)容；通過音頻生成模型生成與目標音頻特征對應的第二音頻，第二音頻的內(nèi)容包括文本內(nèi)容，目標音頻特征與目標對象產(chǎn)生的第一聲音的音頻特征對應。

6、根據(jù)本公開的實施例，從第一音頻中提取與目標對象對應的文本內(nèi)容之前，方法還包括：獲得多個對象中每個對象的音頻特征；確定每個對象的音頻特征與目標音頻特征的相似度；根據(jù)相似度確定至少一個對象為目標對象。

7、根據(jù)本公開的實施例，根據(jù)第二音頻對第一音頻進行處理，得到目標音頻包括：根據(jù)第一音頻和第二音頻，確定第三音頻，第三音頻為第一音頻和第二音頻之間的差異部分；去除第一音頻中與第三音頻中相同的部分，得到目標音頻。

8、根據(jù)本公開的實施例，根據(jù)第二音頻對第一音頻進行處理，得到目標音頻包括：提取第一音頻中與第二音頻中相同的部分，得到目標音頻。

9、本公開的第二方面提供了一種音頻處理裝置，包括：獲得模塊，用于獲得第一音頻，第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音；生成模塊，用于基于第一音頻和音頻生成模型生成第二音頻，第二音頻包括與多個對象中目標對象對應的第二聲音，第二聲音的音頻特征與目標對象產(chǎn)生的第一聲音的音頻特征對應；處理模塊，用于根據(jù)第二音頻對第一音頻進行處理，得到目標音頻，目標音頻包括目標對象產(chǎn)生的第一聲音。

10、本公開的第三方面提供了一種電子設備，包括：一個或多個處理器；存儲器，用于存儲一個或多個程序，所述一個或多個處理器執(zhí)行所述一個或多個計算機程序以實現(xiàn)：獲得第一音頻，所述第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音；基于所述第一音頻和音頻生成模型生成第二音頻，所述第二音頻包括與所述多個對象中目標對象對應的第二聲音，所述第二聲音的音頻特征與所述目標對象產(chǎn)生的第一聲音的音頻特征對應；根據(jù)所述第二音頻對所述第一音頻進行處理，得到目標音頻，所述目標音頻包括所述目標對象產(chǎn)生的第一聲音。

11、本公開的第四方面還提供了一種計算機可讀存儲介質(zhì)，其上存儲有可執(zhí)行指令，所述計算機程序或指令被處理器執(zhí)行時實現(xiàn)：獲得第一音頻，所述第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音；基于所述第一音頻和音頻生成模型生成第二音頻，所述第二音頻包括與所述多個對象中目標對象對應的第二聲音，所述第二聲音的音頻特征與所述目標對象產(chǎn)生的第一聲音的音頻特征對應；根據(jù)所述第二音頻對所述第一音頻進行處理，得到目標音頻，所述目標音頻包括所述目標對象產(chǎn)生的第一聲音。

12、本公開的第五方面還提供了一種計算機程序產(chǎn)品，包括計算機程序，該計算機程序被處理器執(zhí)行時實現(xiàn)上述音頻處理方法。

13、應當理解，本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術(shù)特征：

1.一種音頻處理方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，基于所述第一音頻和音頻生成模型生成第二音頻包括：

3.根據(jù)權(quán)利要求2所述的方法，從所述第一音頻中提取所述目標對象的音頻特征和文本內(nèi)容之前，所述方法還包括：

4.根據(jù)權(quán)利要求1所述的方法，基于所述第一音頻和音頻生成模型生成第二音頻包括：

5.根據(jù)權(quán)利要求4所述的方法，從第一音頻中提取與所述目標對象對應的文本內(nèi)容之前，所述方法還包括：

6.根據(jù)權(quán)利要求1-5中任一項所述的方法，根據(jù)所述第二音頻對所述第一音頻進行處理，得到目標音頻包括：

7.根據(jù)權(quán)利要求1-5中任一項所述的方法，根據(jù)所述第二音頻對所述第一音頻進行處理，得到目標音頻包括：

8.一種音頻處理裝置，包括：

9.一種電子設備，包括：

10.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序或指令，其特征在于，所述計算機程序或指令被處理器執(zhí)行時實現(xiàn)：獲得第一音頻，所述第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音；基于所述第一音頻和音頻生成模型生成第二音頻，所述第二音頻包括與所述多個對象中目標對象對應的第二聲音，所述第二聲音的音頻特征與所述目標對象產(chǎn)生的第一聲音的音頻特征對應；根據(jù)所述第二音頻對所述第一音頻進行處理，得到目標音頻，所述目標音頻包括所述目標對象產(chǎn)生的第一聲音。

技術(shù)總結(jié)
本公開提供了一種音頻處理方法、裝置、設備及介質(zhì)，應用于音頻處理技術(shù)領(lǐng)域。該音頻處理方法，包括：獲得第一音頻，第一音頻包括同一場景下多個對象產(chǎn)生的第一聲音；基于第一音頻和音頻生成模型生成第二音頻，第二音頻包括與多個對象中目標對象對應的第二聲音，第二聲音的音頻特征與目標對象產(chǎn)生的第一聲音的音頻特征對應；根據(jù)第二音頻對第一音頻進行處理，得到目標音頻，目標音頻包括目標對象產(chǎn)生的第一聲音。

技術(shù)研發(fā)人員：呂新蕊,柯駿
受保護的技術(shù)使用者：聯(lián)想（北京）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/7/10

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂新蕊,柯駿
技術(shù)所有人：聯(lián)想（北京）有限公司
我是此專利的發(fā)明人

上一篇：粘接磁體及其制備方法和應用與流程
下一篇：一種人工智能自動輔助單人開放手術(shù)疝氣操作拉鉤

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

音視頻處理技術(shù)相關(guān)技術(shù)

音頻處理設備相關(guān)技術(shù)

中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

音頻處理方法、裝置、設備及介質(zhì)與流程

音頻處理方法、裝置、設備及介質(zhì)與流程