應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法及系統(tǒng)

文檔序號(hào)：42425606發(fā)布日期：2025-07-11 19:18閱讀：74來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請(qǐng)涉及語(yǔ)音增強(qiáng)，具體涉及應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法及系統(tǒng)。

背景技術(shù)：

1、語(yǔ)音識(shí)別是將語(yǔ)音信號(hào)轉(zhuǎn)換為文字的技術(shù)。在語(yǔ)音識(shí)別中，噪聲信號(hào)會(huì)干擾語(yǔ)音信號(hào)，降低識(shí)別準(zhǔn)確率。譜減法作為常用的音頻優(yōu)化方法，在語(yǔ)音識(shí)別中，利用傅里葉變換等技術(shù)，通過(guò)頻域處理去除背景噪聲，保留語(yǔ)音相位信息，從而增強(qiáng)語(yǔ)音信號(hào)。譜減法的原理簡(jiǎn)單、易實(shí)現(xiàn)，適用范圍廣且對(duì)語(yǔ)音損傷小，能有效提高音頻數(shù)據(jù)的信噪比，為語(yǔ)音識(shí)別系統(tǒng)提供更清晰的輸入信號(hào)，減少噪聲干擾，從而提高語(yǔ)音識(shí)別的準(zhǔn)確性和可靠性。

2、在實(shí)際應(yīng)用中，噪聲譜的選取直接影響譜減法對(duì)音頻數(shù)據(jù)的優(yōu)化效果。在戶(hù)外環(huán)境下的音頻數(shù)據(jù)中，戶(hù)外噪聲源較多，導(dǎo)致戶(hù)外噪聲信號(hào)具有較強(qiáng)的時(shí)變性。采用固定噪聲譜的譜減法對(duì)戶(hù)外環(huán)境下的音頻數(shù)據(jù)進(jìn)行增強(qiáng)時(shí)，譜減法對(duì)復(fù)雜戶(hù)外噪聲信號(hào)的適應(yīng)能力較差。噪聲信號(hào)特征發(fā)生改變時(shí)，固定噪聲譜直接導(dǎo)致有用語(yǔ)音信號(hào)被錯(cuò)誤地濾除，造成語(yǔ)音識(shí)別的準(zhǔn)確率下降。

技術(shù)實(shí)現(xiàn)思路

1、鑒于以上內(nèi)容，有必要提供應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法及系統(tǒng)，相對(duì)于傳統(tǒng)的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法及系統(tǒng)，通過(guò)提高噪聲幀選取的準(zhǔn)確性，增強(qiáng)譜減法針對(duì)音頻幀語(yǔ)音特征的音頻增強(qiáng)效果，進(jìn)而提高語(yǔ)音識(shí)別的準(zhǔn)確性：

2、第一方面，本申請(qǐng)實(shí)施例提供了應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法，該方法包括以下步驟：

3、實(shí)時(shí)采集音頻數(shù)據(jù)并均勻劃分為預(yù)設(shè)長(zhǎng)度的各音頻幀；采用譜減法對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng)；

4、針對(duì)各音頻幀，在音頻幀之前預(yù)設(shè)音頻幀的各近鄰幀和各對(duì)比幀，通過(guò)所有近鄰幀與所有對(duì)比幀的能量的變化程度，評(píng)估對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng)時(shí)，是否重新選取噪聲譜；

5、若重新選取，獲取音頻幀的各模態(tài)；通過(guò)所有近鄰幀的各相同模態(tài)的能量的變化度，獲取各模態(tài)的模態(tài)能量變化值，從音頻幀的模態(tài)中選取噪聲模態(tài)；將所有近鄰幀的各相同模態(tài)的能量按照時(shí)序排列，組成各能量序列，通過(guò)分析音頻幀的噪聲模態(tài)與其余各模態(tài)之間能量序列的互相關(guān)性，獲取其余各模態(tài)的滯后幀數(shù)；

6、通過(guò)音頻幀與其各近鄰幀之間各相同模態(tài)的邊際譜的差異程度，獲取各模態(tài)的頻譜變化特征值；通過(guò)各模態(tài)的滯后幀數(shù)在近鄰幀中的占比，結(jié)合所述頻譜變化特征值，獲取各模態(tài)的語(yǔ)音特征值，從音頻幀的模態(tài)中選取主語(yǔ)音模態(tài)；通過(guò)主語(yǔ)音模態(tài)與其他各模態(tài)之間梅爾頻率倒譜系數(shù)的相似度，獲取其他各模態(tài)的音頻模態(tài)特征值；

7、獲取各音頻幀的所有其他模態(tài)的音頻模態(tài)特征值的離散度，通過(guò)各音頻幀及其之后預(yù)設(shè)數(shù)量個(gè)近鄰音頻幀的所述離散度，獲取噪聲幀及新的噪聲譜。

8、在其中一種實(shí)施例中，所述評(píng)估對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng)時(shí)，是否重新選取噪聲譜，包括：

9、計(jì)算各音頻幀的所有近鄰幀的能量的均值；

10、將各音頻幀的所有近鄰幀的所述均值的擬合直線的斜率絕對(duì)值，記為各音頻幀的第一絕對(duì)值；

11、將各音頻幀的所有對(duì)比幀的所述均值的擬合直線的斜率絕對(duì)值，記為各音頻幀的第二絕對(duì)值；

12、提取各音頻幀的所有對(duì)比幀的所述第一絕對(duì)值的上四分位數(shù)；

13、當(dāng)所述第一絕對(duì)值與所述第二絕對(duì)值的均值大于所述上四分位數(shù)時(shí)，重新選取噪聲譜，否則，不重新選取噪聲譜。

14、在其中一種實(shí)施例中，所述獲取各模態(tài)的模態(tài)能量變化值，從音頻幀的模態(tài)中選取噪聲模態(tài)，包括：

15、將所有近鄰幀的各相同模態(tài)的能量的擬合直線的斜率絕對(duì)值，作為各模態(tài)的模態(tài)能量變化值，將音頻幀的模態(tài)能量變化值最大的模態(tài)，作為噪聲模態(tài)。

16、在其中一種實(shí)施例中，所述滯后幀數(shù)的獲取過(guò)程為：

17、獲取音頻幀的噪聲模態(tài)與其余各模態(tài)之間能量序列的互相關(guān)序列；

18、將互相關(guān)序列中的最大值對(duì)應(yīng)的序號(hào)與互相關(guān)序列的中心序號(hào)之間的差值絕對(duì)值，作為其余各模態(tài)的滯后幀數(shù)。

19、在其中一種實(shí)施例中，所述頻譜變化特征值的計(jì)算過(guò)程為：

20、對(duì)各邊際譜序列進(jìn)行歸一化，計(jì)算所有近鄰幀內(nèi)任意兩個(gè)相鄰音頻幀的各相同模態(tài)的邊際譜序列之間的dtw距離，所述頻譜變化特征值為所有近鄰幀內(nèi)所有任意兩個(gè)相鄰音頻幀之間的所述dtw距離的平均值。

21、在其中一種實(shí)施例中，所述語(yǔ)音特征值的獲取方法為：

22、對(duì)于各模態(tài)，模態(tài)的語(yǔ)音特征值的表達(dá)式為：

23、；式中，f表示模態(tài)的語(yǔ)音特征值；m表示模態(tài)的滯后幀數(shù)；m表示近鄰幀的數(shù)量；ε表示預(yù)設(shè)正整數(shù)；表示模態(tài)的頻譜變化特征值。

24、在其中一種實(shí)施例中，所述主語(yǔ)音模態(tài)為音頻幀的語(yǔ)音特征值最大的模態(tài)。

25、在其中一種實(shí)施例中，所述音頻模態(tài)特征值的獲取方法為：

26、將梅爾頻率倒譜系數(shù)的前12個(gè)系數(shù)組成語(yǔ)音特征向量，所述音頻模態(tài)特征值為主語(yǔ)音模態(tài)與其他各模態(tài)之間語(yǔ)音特征向量的余弦相似度的歸一化值。

27、在其中一種實(shí)施例中，所述獲取噪聲幀及新的噪聲譜的方法為：

28、將各音頻幀及其之后預(yù)設(shè)數(shù)量個(gè)近鄰音頻幀中所述離散度最小的音頻幀，作為噪聲幀，將噪聲幀的頻譜作為新的噪聲譜。

29、第二方面，本申請(qǐng)實(shí)施例還提供了應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化系統(tǒng)，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任意一項(xiàng)所述應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法的步驟。

30、本申請(qǐng)至少具有如下有益效果：

31、本申請(qǐng)利用語(yǔ)音信號(hào)在能量變化上的滯后特性，以及其與噪聲信號(hào)在頻譜能量分布上的區(qū)別特性，采用時(shí)頻分析方法，提取語(yǔ)音特征，減少戶(hù)外噪聲時(shí)變性對(duì)語(yǔ)音特征提取的干擾，提高對(duì)語(yǔ)音信號(hào)特征提取的準(zhǔn)確性，進(jìn)而提升后續(xù)對(duì)噪聲幀選取的準(zhǔn)確性，增強(qiáng)針對(duì)戶(hù)外復(fù)雜噪聲環(huán)境下采用譜減法進(jìn)行音頻增強(qiáng)的適應(yīng)能力；

32、進(jìn)一步，根據(jù)戶(hù)外環(huán)境音頻數(shù)據(jù)中噪聲信號(hào)與語(yǔ)音信號(hào)相互獨(dú)立的特性，對(duì)備選噪聲幀的不同模態(tài)進(jìn)行估計(jì)，并利用語(yǔ)音幀和非語(yǔ)音幀中不同模態(tài)特征的分布差異，避免戶(hù)外噪聲時(shí)變特征對(duì)選取噪聲幀的影響，提高噪聲幀選取的準(zhǔn)確性，增強(qiáng)譜減法針對(duì)音頻幀語(yǔ)音特征的音頻增強(qiáng)效果，以提高語(yǔ)音識(shí)別的準(zhǔn)確性。

技術(shù)特征：

1.應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法，其特征在于，該方法包括以下步驟：

2.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法，其特征在于，所述評(píng)估對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng)時(shí)，是否重新選取噪聲譜，包括：

3.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法，其特征在于，所述獲取各模態(tài)的模態(tài)能量變化值，從音頻幀的模態(tài)中選取噪聲模態(tài)，包括：

4.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法，其特征在于，所述滯后幀數(shù)的獲取過(guò)程為：

5.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法，其特征在于，所述頻譜變化特征值的計(jì)算過(guò)程為：

6.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法，其特征在于，所述語(yǔ)音特征值的獲取方法為：

7.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法，其特征在于，所述主語(yǔ)音模態(tài)為音頻幀的語(yǔ)音特征值最大的模態(tài)。

8.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法，其特征在于，所述音頻模態(tài)特征值的獲取方法為：

9.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法，其特征在于，所述獲取噪聲幀及新的噪聲譜的方法為：

10.應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化系統(tǒng)，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-9任意一項(xiàng)所述應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法的步驟。

技術(shù)總結(jié)
本申請(qǐng)涉及語(yǔ)音增強(qiáng)技術(shù)領(lǐng)域，具體涉及應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法及系統(tǒng)，該方法包括：實(shí)時(shí)采集音頻數(shù)據(jù)并均勻劃分為各音頻幀；針對(duì)各音頻幀，預(yù)設(shè)音頻幀的各近鄰幀，評(píng)估采用譜減法對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng)時(shí)，是否重新選取噪聲譜；若重新選取，獲取音頻幀的各模態(tài)；從音頻幀的模態(tài)中選取噪聲模態(tài)并獲取其余各模態(tài)的滯后幀數(shù)；獲取各模態(tài)的頻譜變化特征值和語(yǔ)音特征值，并選取主語(yǔ)音模態(tài)；獲取除主語(yǔ)音模態(tài)外的其他各模態(tài)的音頻模態(tài)特征值；進(jìn)而獲取噪聲幀及新的噪聲譜。本申請(qǐng)旨在通過(guò)提高噪聲幀選取的準(zhǔn)確性，增強(qiáng)譜減法針對(duì)音頻幀語(yǔ)音特征的音頻增強(qiáng)效果，進(jìn)而提高語(yǔ)音識(shí)別的準(zhǔn)確性。

技術(shù)研發(fā)人員：黃巧云,薛博瑞
受保護(hù)的技術(shù)使用者：福州大學(xué)至誠(chéng)學(xué)院
技術(shù)研發(fā)日：
技術(shù)公布日：2025/7/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃巧云,薛博瑞
技術(shù)所有人：福州大學(xué)至誠(chéng)學(xué)院
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法及系統(tǒng)