本申請(qǐng)涉及語(yǔ)音增強(qiáng),具體涉及應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法及系統(tǒng)。
背景技術(shù):
1、語(yǔ)音識(shí)別是將語(yǔ)音信號(hào)轉(zhuǎn)換為文字的技術(shù)。在語(yǔ)音識(shí)別中,噪聲信號(hào)會(huì)干擾語(yǔ)音信號(hào),降低識(shí)別準(zhǔn)確率。譜減法作為常用的音頻優(yōu)化方法,在語(yǔ)音識(shí)別中,利用傅里葉變換等技術(shù),通過(guò)頻域處理去除背景噪聲,保留語(yǔ)音相位信息,從而增強(qiáng)語(yǔ)音信號(hào)。譜減法的原理簡(jiǎn)單、易實(shí)現(xiàn),適用范圍廣且對(duì)語(yǔ)音損傷小,能有效提高音頻數(shù)據(jù)的信噪比,為語(yǔ)音識(shí)別系統(tǒng)提供更清晰的輸入信號(hào),減少噪聲干擾,從而提高語(yǔ)音識(shí)別的準(zhǔn)確性和可靠性。
2、在實(shí)際應(yīng)用中,噪聲譜的選取直接影響譜減法對(duì)音頻數(shù)據(jù)的優(yōu)化效果。在戶(hù)外環(huán)境下的音頻數(shù)據(jù)中,戶(hù)外噪聲源較多,導(dǎo)致戶(hù)外噪聲信號(hào)具有較強(qiáng)的時(shí)變性。采用固定噪聲譜的譜減法對(duì)戶(hù)外環(huán)境下的音頻數(shù)據(jù)進(jìn)行增強(qiáng)時(shí),譜減法對(duì)復(fù)雜戶(hù)外噪聲信號(hào)的適應(yīng)能力較差。噪聲信號(hào)特征發(fā)生改變時(shí),固定噪聲譜直接導(dǎo)致有用語(yǔ)音信號(hào)被錯(cuò)誤地濾除,造成語(yǔ)音識(shí)別的準(zhǔn)確率下降。
技術(shù)實(shí)現(xiàn)思路
1、鑒于以上內(nèi)容,有必要提供應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法及系統(tǒng),相對(duì)于傳統(tǒng)的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法及系統(tǒng),通過(guò)提高噪聲幀選取的準(zhǔn)確性,增強(qiáng)譜減法針對(duì)音頻幀語(yǔ)音特征的音頻增強(qiáng)效果,進(jìn)而提高語(yǔ)音識(shí)別的準(zhǔn)確性:
2、第一方面,本申請(qǐng)實(shí)施例提供了應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法,該方法包括以下步驟:
3、實(shí)時(shí)采集音頻數(shù)據(jù)并均勻劃分為預(yù)設(shè)長(zhǎng)度的各音頻幀;采用譜減法對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng);
4、針對(duì)各音頻幀,在音頻幀之前預(yù)設(shè)音頻幀的各近鄰幀和各對(duì)比幀,通過(guò)所有近鄰幀與所有對(duì)比幀的能量的變化程度,評(píng)估對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng)時(shí),是否重新選取噪聲譜;
5、若重新選取,獲取音頻幀的各模態(tài);通過(guò)所有近鄰幀的各相同模態(tài)的能量的變化度,獲取各模態(tài)的模態(tài)能量變化值,從音頻幀的模態(tài)中選取噪聲模態(tài);將所有近鄰幀的各相同模態(tài)的能量按照時(shí)序排列,組成各能量序列,通過(guò)分析音頻幀的噪聲模態(tài)與其余各模態(tài)之間能量序列的互相關(guān)性,獲取其余各模態(tài)的滯后幀數(shù);
6、通過(guò)音頻幀與其各近鄰幀之間各相同模態(tài)的邊際譜的差異程度,獲取各模態(tài)的頻譜變化特征值;通過(guò)各模態(tài)的滯后幀數(shù)在近鄰幀中的占比,結(jié)合所述頻譜變化特征值,獲取各模態(tài)的語(yǔ)音特征值,從音頻幀的模態(tài)中選取主語(yǔ)音模態(tài);通過(guò)主語(yǔ)音模態(tài)與其他各模態(tài)之間梅爾頻率倒譜系數(shù)的相似度,獲取其他各模態(tài)的音頻模態(tài)特征值;
7、獲取各音頻幀的所有其他模態(tài)的音頻模態(tài)特征值的離散度,通過(guò)各音頻幀及其之后預(yù)設(shè)數(shù)量個(gè)近鄰音頻幀的所述離散度,獲取噪聲幀及新的噪聲譜。
8、在其中一種實(shí)施例中,所述評(píng)估對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng)時(shí),是否重新選取噪聲譜,包括:
9、計(jì)算各音頻幀的所有近鄰幀的能量的均值;
10、將各音頻幀的所有近鄰幀的所述均值的擬合直線的斜率絕對(duì)值,記為各音頻幀的第一絕對(duì)值;
11、將各音頻幀的所有對(duì)比幀的所述均值的擬合直線的斜率絕對(duì)值,記為各音頻幀的第二絕對(duì)值;
12、提取各音頻幀的所有對(duì)比幀的所述第一絕對(duì)值的上四分位數(shù);
13、當(dāng)所述第一絕對(duì)值與所述第二絕對(duì)值的均值大于所述上四分位數(shù)時(shí),重新選取噪聲譜,否則,不重新選取噪聲譜。
14、在其中一種實(shí)施例中,所述獲取各模態(tài)的模態(tài)能量變化值,從音頻幀的模態(tài)中選取噪聲模態(tài),包括:
15、將所有近鄰幀的各相同模態(tài)的能量的擬合直線的斜率絕對(duì)值,作為各模態(tài)的模態(tài)能量變化值,將音頻幀的模態(tài)能量變化值最大的模態(tài),作為噪聲模態(tài)。
16、在其中一種實(shí)施例中,所述滯后幀數(shù)的獲取過(guò)程為:
17、獲取音頻幀的噪聲模態(tài)與其余各模態(tài)之間能量序列的互相關(guān)序列;
18、將互相關(guān)序列中的最大值對(duì)應(yīng)的序號(hào)與互相關(guān)序列的中心序號(hào)之間的差值絕對(duì)值,作為其余各模態(tài)的滯后幀數(shù)。
19、在其中一種實(shí)施例中,所述頻譜變化特征值的計(jì)算過(guò)程為:
20、對(duì)各邊際譜序列進(jìn)行歸一化,計(jì)算所有近鄰幀內(nèi)任意兩個(gè)相鄰音頻幀的各相同模態(tài)的邊際譜序列之間的dtw距離,所述頻譜變化特征值為所有近鄰幀內(nèi)所有任意兩個(gè)相鄰音頻幀之間的所述dtw距離的平均值。
21、在其中一種實(shí)施例中,所述語(yǔ)音特征值的獲取方法為:
22、對(duì)于各模態(tài),模態(tài)的語(yǔ)音特征值的表達(dá)式為:
23、;式中,f表示模態(tài)的語(yǔ)音特征值;m表示模態(tài)的滯后幀數(shù);m表示近鄰幀的數(shù)量;ε表示預(yù)設(shè)正整數(shù);表示模態(tài)的頻譜變化特征值。
24、在其中一種實(shí)施例中,所述主語(yǔ)音模態(tài)為音頻幀的語(yǔ)音特征值最大的模態(tài)。
25、在其中一種實(shí)施例中,所述音頻模態(tài)特征值的獲取方法為:
26、將梅爾頻率倒譜系數(shù)的前12個(gè)系數(shù)組成語(yǔ)音特征向量,所述音頻模態(tài)特征值為主語(yǔ)音模態(tài)與其他各模態(tài)之間語(yǔ)音特征向量的余弦相似度的歸一化值。
27、在其中一種實(shí)施例中,所述獲取噪聲幀及新的噪聲譜的方法為:
28、將各音頻幀及其之后預(yù)設(shè)數(shù)量個(gè)近鄰音頻幀中所述離散度最小的音頻幀,作為噪聲幀,將噪聲幀的頻譜作為新的噪聲譜。
29、第二方面,本申請(qǐng)實(shí)施例還提供了應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任意一項(xiàng)所述應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法的步驟。
30、本申請(qǐng)至少具有如下有益效果:
31、本申請(qǐng)利用語(yǔ)音信號(hào)在能量變化上的滯后特性,以及其與噪聲信號(hào)在頻譜能量分布上的區(qū)別特性,采用時(shí)頻分析方法,提取語(yǔ)音特征,減少戶(hù)外噪聲時(shí)變性對(duì)語(yǔ)音特征提取的干擾,提高對(duì)語(yǔ)音信號(hào)特征提取的準(zhǔn)確性,進(jìn)而提升后續(xù)對(duì)噪聲幀選取的準(zhǔn)確性,增強(qiáng)針對(duì)戶(hù)外復(fù)雜噪聲環(huán)境下采用譜減法進(jìn)行音頻增強(qiáng)的適應(yīng)能力;
32、進(jìn)一步,根據(jù)戶(hù)外環(huán)境音頻數(shù)據(jù)中噪聲信號(hào)與語(yǔ)音信號(hào)相互獨(dú)立的特性,對(duì)備選噪聲幀的不同模態(tài)進(jìn)行估計(jì),并利用語(yǔ)音幀和非語(yǔ)音幀中不同模態(tài)特征的分布差異,避免戶(hù)外噪聲時(shí)變特征對(duì)選取噪聲幀的影響,提高噪聲幀選取的準(zhǔn)確性,增強(qiáng)譜減法針對(duì)音頻幀語(yǔ)音特征的音頻增強(qiáng)效果,以提高語(yǔ)音識(shí)別的準(zhǔn)確性。
1.應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法,其特征在于,該方法包括以下步驟:
2.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法,其特征在于,所述評(píng)估對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng)時(shí),是否重新選取噪聲譜,包括:
3.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法,其特征在于,所述獲取各模態(tài)的模態(tài)能量變化值,從音頻幀的模態(tài)中選取噪聲模態(tài),包括:
4.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法,其特征在于,所述滯后幀數(shù)的獲取過(guò)程為:
5.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法,其特征在于,所述頻譜變化特征值的計(jì)算過(guò)程為:
6.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法,其特征在于,所述語(yǔ)音特征值的獲取方法為:
7.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法,其特征在于,所述主語(yǔ)音模態(tài)為音頻幀的語(yǔ)音特征值最大的模態(tài)。
8.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法,其特征在于,所述音頻模態(tài)特征值的獲取方法為:
9.如權(quán)利要求1所述的應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法,其特征在于,所述獲取噪聲幀及新的噪聲譜的方法為:
10.應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-9任意一項(xiàng)所述應(yīng)用于語(yǔ)音識(shí)別的音頻優(yōu)化方法的步驟。