本發(fā)明涉及語音分離,具體涉及一種基于對比學習和因果注意力機制帶噪聲感知的語音分離方法。
背景技術(shù):
1、語音分離任務(wù)大致可分為多人聲分離,降噪及去混響等方向。其目標是從多個聲源重疊、且可能混入噪聲的混合語音中分離出各個語音,從而幫助提取目標語音。作為語音信號處理體系的前端部分,語音分離的結(jié)果直接影響了后續(xù)語音識別等下游任務(wù)的性能。并且,隨著硬件設(shè)備不斷升級,語音交互功能越來越多地被集成到日常設(shè)備中。在聲源混疊并受噪聲影響時對語音的有效利用能極大提升用戶體驗,而語音分離正是解決這一問題的關(guān)鍵技術(shù)。
2、基于深度學習的語音分離方法隨著深度學習技術(shù)的發(fā)展,在性能等各方面超過傳統(tǒng)方法,成為語音分離領(lǐng)域的主流。而在基于深度學習的方法中,不同于過去基于固定時頻分析手段的分離方法,luo?yi等人首次將語音分離的處理域放到純時域上,極大超越了時頻方法的性能。由于在時域?qū)崿F(xiàn)分離,該網(wǎng)絡(luò)被稱為tasnet。次年,luo?yi等人提出了cov-tasnet,使用卷積網(wǎng)絡(luò)直接對語音信號建模,實現(xiàn)了更佳優(yōu)越的性能,其提出的編碼器-掩碼網(wǎng)絡(luò)-解碼器的框架為后面的研究帶來了深遠影響。面對長序列,luo?yi等人基于編碼器-掩碼網(wǎng)絡(luò)-解碼器,在掩碼網(wǎng)絡(luò)中提出了一種雙路經(jīng)循環(huán)神經(jīng)網(wǎng)絡(luò)dprnn,強調(diào)了長時依賴對于長序列建模的重要性。dprnn的雙路徑處理框架也作為后續(xù)語音分離研究的基礎(chǔ)框架。再往后的一系列研究的趨勢是通過逐漸增大的模型和越來越多的數(shù)據(jù)量,不斷提高深度神經(jīng)網(wǎng)絡(luò)的分離性能。這種趨勢也使得在語音處理領(lǐng)域如hubert和wav2vec2.0等大規(guī)模神經(jīng)網(wǎng)絡(luò)的流行。
3、然而,神經(jīng)網(wǎng)絡(luò)模型的規(guī)模擴大導致對計算資源的依賴增加,加大了推理成本;并且,超大型模型難以在終端設(shè)備上部署,依賴云端處理數(shù)據(jù)可能引發(fā)隱私安全問題;另外,現(xiàn)有分離模型大多未引入因果機制,僅適用于離線場景,無法在聲音信號傳入的同時實時分離每一幀的語音數(shù)據(jù),限制了在設(shè)備端的在線實時應(yīng)用;最后,現(xiàn)有語音分離模型對噪聲特征的處理仍顯不足,特別是在復雜背景噪聲下,模型的分離效果往往不能滿足實際應(yīng)用的需求,更好地利用噪聲特征成為性能提升的關(guān)鍵瓶頸。
技術(shù)實現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)存在的缺陷與不足,本發(fā)明提供一種基于對比學習和因果注意力機制帶噪聲感知的語音分離方法,本發(fā)明在將噪聲視為聲源的同時,引入了因果注意力模塊和噪聲感知對比學習模塊,該網(wǎng)絡(luò)以較低的參數(shù)量和較高的計算效率,在含噪混合語音分離任務(wù)中取得超越主流算法的分離效果的同時,兼具實時應(yīng)用性。
2、為了達到上述目的,本發(fā)明采用以下技術(shù)方案:
3、本發(fā)明提供一種基于對比學習和因果注意力機制帶噪聲感知的語音分離方法,包括下述步驟:
4、構(gòu)建編碼器,基于編碼器對純凈的源語音信號和含噪混合語音信號建模,生成源語音信號的學習域特征表示和含噪混合語音的學習域特征表示;
5、構(gòu)建掩碼網(wǎng)絡(luò),對源語音信號以及噪聲信號進行掩碼估計,將掩碼網(wǎng)絡(luò)輸出與含噪混合語音的學習域特征表示逐元素相乘,得到不同聲源的估計特征表示;
6、構(gòu)建對比學習模塊,對于各聲源源語音特征表示、各聲源相應(yīng)估計語音特征表示以及估計噪聲特征表示分別選取正樣本、查詢樣本以及負樣本,計算對比損失,將該損失加權(quán)后疊加尺度不變信噪比損失,得到網(wǎng)絡(luò)整體的損失函數(shù),作為模型訓練的聯(lián)合優(yōu)化目標,在反向傳播過程計算各損失函數(shù)的梯度,聯(lián)合優(yōu)化全部參數(shù);
7、構(gòu)建解碼網(wǎng)絡(luò),基于估計特征表示恢復相應(yīng)時域估計信號,實現(xiàn)語音分離。
8、作為優(yōu)選的技術(shù)方案,編碼器通過一維卷積網(wǎng)絡(luò)對各源語音信號sk和噪聲信號構(gòu)成的時域混合語音信號進行建模,得到含噪混合語音的學習域特征表示并作為掩碼網(wǎng)絡(luò)的輸入;
9、同時,編碼器也單獨對各源語音信號建模,得到對應(yīng)的學習域特征表示其中,f表示h的特征向量維度,t′是經(jīng)卷積后的時間長度。
10、作為優(yōu)選的技術(shù)方案,所述掩碼網(wǎng)絡(luò)包括特征塊處理模組以及因果注意力模塊;
11、所述特征塊處理模組將含噪混合語音特征表示沿時間維度分塊,再將分塊結(jié)果按塊維度拼接,得到特征向量h′,并輸入因果注意力模塊;
12、所述因果注意力模塊基于分段transformer網(wǎng)絡(luò)和記憶transformer網(wǎng)絡(luò)得到語音的潛在特征表示;
13、所述特征塊處理模組對語音的潛在特征表示進行塊重塑以及掩碼生成。
14、作為優(yōu)選的技術(shù)方案,因果注意力模塊共l層,其中前l(fā)-1層結(jié)構(gòu)為:分段transformer網(wǎng)絡(luò)通過跳躍連接,結(jié)合在時間維度上的均值計算和記憶transformer網(wǎng)絡(luò),第l層結(jié)構(gòu)只包含分段transformer網(wǎng)絡(luò);
15、設(shè)定第l層的輸入為特征向量hl′,則該層的處理表示為:
16、il1=segtransformer(hl′)
17、
18、il3=memtransformer(il2)
19、il4=il1+il3
20、其中,segtransformer(·)、和memtransformer(·)分別表示分段transformer網(wǎng)絡(luò)、在時間維度取均值以及記憶transformer網(wǎng)絡(luò);
21、特征向量hl′經(jīng)分段transformer得到特征向量對特征向量il1在時間維度取平均得到特征向量il2,將特征向量il1與記憶單元il3相加,得到特征向量il4,特征向量il4作為第l+1層的輸入,迭代處理后得到語音的潛在特征表示h″。
22、作為優(yōu)選的技術(shù)方案,所述特征塊處理模組對語音的潛在特征表示進行塊重塑以及掩碼生成,語音的潛在特征表示經(jīng)過prelu和一維卷積層,通過在時間軸上重新拼接的重塑操作得到ksource個聲源和噪聲對應(yīng)的時間步特征h″′,再通過relu非線性函數(shù)進行估計,得到ksource個聲源各自對應(yīng)的掩碼以及噪聲對應(yīng)掩碼mn。
23、作為優(yōu)選的技術(shù)方案,在因果注意力模塊的transformer網(wǎng)絡(luò)中,設(shè)定基于因果注意力的transformer網(wǎng)絡(luò)輸入為特征向量z,為特征向量z生成因果掩碼;
24、進入transformer網(wǎng)絡(luò)的處理過程表示為:
25、z′=z+epos
26、z″=multiheadattention(norm(z′))
27、z″′=z′+z″+ffn(norm(z′+z″))
28、z″″=permute(batchnorm(permute(z″′)))
29、z″″′=z+z″″
30、其中,epos、norm(·)、multiheadattention(·)、ffn(·)、permute(·)以及batchnorm(·)分別代表相對位置編碼、層歸一化、多頭注意力機制、前饋神經(jīng)網(wǎng)絡(luò)、交換維度的轉(zhuǎn)置操作以及批歸一化;
31、對特征向量z加入相對位置編碼epos得到特征向量z′,對特征向量z′使用層歸一化和多頭注意力機制可得到特征向量z″;
32、對特征向量z′、特征向量z″依次使用層歸一化、前饋神經(jīng)網(wǎng)絡(luò)以及兩條分別與特征向量z′、特征向量z″相連的殘差連接得到特征向量z″′;
33、對特征向量z″′進行轉(zhuǎn)置交換維度后進行歸一化,再變換回原來維度,得到特征向量z″″,經(jīng)過跳躍連接得到網(wǎng)絡(luò)最終輸出特征向量z″″′。
34、作為優(yōu)選的技術(shù)方案,對比學習模塊包括采樣器和重塑器;
35、所述采樣器為二維卷積、relu以及二維卷積三者級聯(lián)得到的采樣網(wǎng)絡(luò),所述重塑器由全連接層、relu以及全連接層三者級聯(lián)而成。
36、作為優(yōu)選的技術(shù)方案,采樣器分別對源語音特征表示、該源語音相應(yīng)估計語音特征表示,以及估計噪聲特征表示進行多次隨機采樣,每次采用遵循的同一規(guī)則為:隨機在源語音特征表示、該源語音相應(yīng)估計語音特征表示,以及估計噪聲特征表示的特征圖的相同位置各取1個局部塊,同時在估計噪聲特征表示的特征圖的其他位置,另取m-1個局部塊;
37、采樣器的采樣過程和重塑器的重塑過程表示為:
38、
39、其中,分別表示采樣器從以及第i次采樣得到的正樣本、查詢樣本與負樣本,h為采樣器中卷積核大?。?/p>
40、ks次采樣得到的所有通過重塑器投影到一個三維嵌入空間,同時使用l2歸一化,最終得到一組用于對比學習的正樣本、查詢樣本以及負樣本特征向量
41、利用重塑器得到的正樣本、查詢樣本以及負樣本特征向量計算對比損失。
42、作為優(yōu)選的技術(shù)方案,計算對比損失,將該損失加權(quán)后疊加尺度不變信噪比損失,得到網(wǎng)絡(luò)整體的損失函數(shù),具體表示為:
43、losstotal=losssisnr+βlosscll
44、
45、其中,losstotal為網(wǎng)絡(luò)整體損失函數(shù),losssi-snr表示尺度不變信噪比損失,losscll表示對于ksource個聲源的對比損失,β表示損失權(quán)重參數(shù),ksource表示聲源個數(shù),sk表示源語音信號,為其相應(yīng)的時域估計信號,<·,·>表示兩向量內(nèi)積,ppositive表示正樣本的概率,lossce(sk)表示交叉熵損失,表示正樣本,表示查詢樣本,表示負樣本,j∈[1,m],τ表示溫度系數(shù),用于調(diào)節(jié)相似度分布的平滑度。
46、作為優(yōu)選的技術(shù)方案,構(gòu)建解碼網(wǎng)絡(luò),基于估計特征表示恢復相應(yīng)時域估計信號,實現(xiàn)語音分離,具體包括:
47、解碼器通過一維轉(zhuǎn)置卷積,對源語音信號和噪聲各自的估計特征表示進行解碼恢復,得到時域估計源語音信號和噪聲估計信號,其中,源語音信號和噪聲各自的估計特征表示通過將含噪混合語音特征表示分別與聲源各自對應(yīng)的掩碼噪聲對應(yīng)掩碼mn進行逐元素乘法得到。
48、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點和有益效果:
49、區(qū)別于傳統(tǒng)雙路經(jīng)處理流程的特征塊處理方式,本發(fā)明在分塊后不對塊進行塊間重疊,并且對于每小塊獨立處理,減小了計算量;
50、在掩碼網(wǎng)絡(luò)的因果注意力模塊中,構(gòu)建于因果注意力機制的全新分離網(wǎng)絡(luò),采用因果掩碼、歸一化以及跳躍連接等手段,優(yōu)化了傳統(tǒng)基于transformer的分離網(wǎng)絡(luò)結(jié)構(gòu),降低了模型參數(shù)量,優(yōu)化了模型效率;
51、將噪聲等同視為一個聲源,并且在“編碼器-掩碼網(wǎng)絡(luò)-解碼器”的分離框架中的掩碼網(wǎng)絡(luò)之后,分離器之前,對于純凈源語音信號、分離出的估計源語音信號和估計噪聲信號三者特征表示進行采樣,并運用對比學習策略,將對比損失加入網(wǎng)絡(luò)整體損失,參與反向傳播梯度計算后的參數(shù)更新,利用噪聲特征實現(xiàn)噪聲抑制,優(yōu)化分離性能,本發(fā)明以較低的參數(shù)量在含噪混合語音分離任務(wù)中取得優(yōu)于主流算法的分離結(jié)果的同時,兼具實時應(yīng)用性。