中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

一種基于多層級特征融合的掩碼自編碼聲紋識別方法

文檔序號:42592338發(fā)布日期:2025-07-29 17:44閱讀:11來源:國知局

本發(fā)明涉及聲紋識別,具體為基于多層級特征融合的掩碼自編碼聲紋識別方法。


背景技術(shù):

1、語言是人類社會特有的產(chǎn)物,是人類表達(dá)情感、理解世界的鑰匙。說話者具有獨(dú)特的發(fā)音器官和說話方式,例如不同的聲帶結(jié)構(gòu)、口腔形狀、口音和說話節(jié)奏等,因此不同說話者的聲音信號包含了獨(dú)特的特征,根據(jù)這些不同的聲音特征可以完成識別說話者身份的任務(wù)。得益于聲紋識別技術(shù)的非侵入性、實(shí)時性等優(yōu)點(diǎn),其在金融支付、智慧家具、通話服務(wù)、公共安全等領(lǐng)域具有廣泛的應(yīng)用。

2、傳統(tǒng)的聲紋識別技術(shù)多數(shù)采用有監(jiān)督學(xué)習(xí)的范式,其分為有監(jiān)督訓(xùn)練和推理測試兩個階段。在有監(jiān)督訓(xùn)練階段,需要獲取一組規(guī)模較大的聲音數(shù)據(jù)及其對應(yīng)的身份標(biāo)簽,接著訓(xùn)練一個網(wǎng)絡(luò)模型建立訓(xùn)練集中聲音與身份標(biāo)簽之間的映射關(guān)系。相關(guān)領(lǐng)域的科研工作者先后提出了高斯混合模型、深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、ecapa-tdnn、transformer等網(wǎng)絡(luò)模型。在推理測試階段,根據(jù)說話者的聲音從后端數(shù)據(jù)庫中找出與當(dāng)前聲音相似度最高的聲音所對應(yīng)的身份id,與當(dāng)前說話者身份進(jìn)行比對,完成身份驗(yàn)證。然而,采用有監(jiān)督學(xué)習(xí)范式存在數(shù)據(jù)標(biāo)定耗時、成本昂貴等問題,尤其是對于方言等小眾語言。同時,標(biāo)定的數(shù)據(jù)具有泄露和被黑客攻擊的風(fēng)險,不利于保護(hù)個人的隱私。

3、自監(jiān)督學(xué)習(xí)是一種成本更低、性能更優(yōu)的學(xué)習(xí)范式,其分為預(yù)訓(xùn)練、下游微調(diào)和推理測試三個階段。在預(yù)訓(xùn)練階段,模型在一組沒有標(biāo)注的大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)聲音數(shù)據(jù)中通用且本質(zhì)的特征,節(jié)約了數(shù)據(jù)標(biāo)注的時間和費(fèi)用成本。在微調(diào)階段,由于模型已經(jīng)在預(yù)訓(xùn)練階段從海量的數(shù)據(jù)中學(xué)習(xí)到了許多共性特征,因此可以給定少需要識別說話人的少量聲音數(shù)據(jù)和身份標(biāo)簽,對預(yù)訓(xùn)練模型中的參數(shù)進(jìn)行微調(diào),使之適應(yīng)不同的下游場景。

4、掩碼自編碼器是一種主流的自監(jiān)督學(xué)習(xí)模型,最初在計(jì)算機(jī)視覺領(lǐng)域被提出。它的核心思想是將聲音數(shù)據(jù)經(jīng)過傅里葉變換后得到的梅爾頻譜圖劃分為大小相同的patch,并對其中的patch按照某個比例進(jìn)行隨機(jī)掩碼。然后使用transformer模型作為編碼器將未被掩碼的patch編碼到高維特征向量。接著使用一個輕量化transformer作為解碼器,將編碼器輸出的高維特征向量和掩碼patch位置分配的可學(xué)習(xí)向量映射回原始的梅爾頻譜空間,計(jì)算重構(gòu)的梅爾頻譜圖與原始的梅爾頻譜圖之間的絕對值損失作為模型的損失函數(shù)。預(yù)訓(xùn)練結(jié)束后,僅保留編碼器用于下游特定任務(wù)的微調(diào)。

5、盡管已經(jīng)有工作將掩碼自編碼器的架構(gòu)應(yīng)用到聲紋識別領(lǐng)域,但仍然具有一定的問題,主要體現(xiàn)在以下幾個方面:(1)僅將編碼器最后一層的特征傳送給解碼器對原始梅爾頻譜圖進(jìn)行重構(gòu),沒有充分利用編碼器中的淺層特征。(2)沒有充分利用不同層級的特征導(dǎo)致編碼器得到的隱藏空間表示是次優(yōu)的,在下游聲紋識別的任務(wù)上仍有提升空間?;谏鲜龇治?,針對金融支付、智能家具、通話服務(wù)等聲紋識別的實(shí)際應(yīng)用場景,亟須一種能夠重點(diǎn)關(guān)注難樣本的基于掩碼自編碼器的聲紋識別技術(shù)。


技術(shù)實(shí)現(xiàn)思路

1、針對現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種基于多層級特征融合的掩碼自編碼聲紋識別方法,動態(tài)融合編碼器中不同層的特征,將融合后的特征輸入到解碼器中進(jìn)行重構(gòu),從而進(jìn)一步增強(qiáng)隱藏空間中的表征質(zhì)量,解決了現(xiàn)有方法中由于僅采用編碼器最后一層特征進(jìn)行重構(gòu)而導(dǎo)致的表征次優(yōu)的問題,提升了在聲紋識別任務(wù)上的準(zhǔn)確率。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:一種基于多層級特征融合的掩碼自編碼聲紋識別方法,包括如下步驟

3、s1、獲取規(guī)模較大的無標(biāo)注聲紋數(shù)據(jù),作為預(yù)訓(xùn)練的數(shù)據(jù)集;獲取規(guī)模較小的有標(biāo)注聲紋數(shù)據(jù),作為下游微調(diào)的數(shù)據(jù)集;

4、s2、使用短時傅里葉變換和梅爾頻率濾波器組將數(shù)據(jù)集中的原始聲紋數(shù)據(jù)轉(zhuǎn)換為描述語音頻譜特征的梅爾頻譜圖;

5、s3、將梅爾頻譜圖進(jìn)行分塊后隨機(jī)掩碼,將掩碼后可見的塊使用投影層進(jìn)行嵌入,然后將可見塊的特征輸入到由transformer層構(gòu)成的編碼器中,使用多頭自注意力機(jī)制計(jì)算不同分塊之間的依賴關(guān)系,得到編碼器模型每一層的輸出;

6、s4、選中編碼器中間若干層特征,使用線性投影層將不同層的特征與編碼器最后一層的特征進(jìn)行語義對齊;使用動態(tài)權(quán)重策略對中間的若干層對齊后的特征與最后一層特征進(jìn)行融合,將融合后的特征輸入到解碼器中;

7、s5、為掩碼的位置分配一個可學(xué)習(xí)的特征向量,使用由transformer層和投影層構(gòu)成的解碼器,將多層級融合后的編碼特征與掩碼位置可學(xué)習(xí)的特征向量重構(gòu)回原始梅爾頻譜圖空間;計(jì)算掩碼位置原始梅爾頻譜圖與重構(gòu)得到的梅爾頻譜圖之間的絕對值損失,根據(jù)該損失進(jìn)行模型優(yōu)化;

8、s6、使用帶標(biāo)簽的微調(diào)數(shù)據(jù)集對編碼器進(jìn)行微調(diào),完成聲紋識別任務(wù)。

9、作為本發(fā)明的進(jìn)一步改進(jìn),s2包括

10、s2-1、假設(shè)輸入的語音信號是x(t);對x(t)進(jìn)行分幀操作,獲得局部穩(wěn)定的語音信號,設(shè)每幀的長度為t,相鄰幀之間的位移為δt;第n幀信號xn(t)表示為x(t+n·δt);在每一幀信號xn(t)上應(yīng)用漢明窗函數(shù)w(t),以減少語音信號分幀后產(chǎn)生的邊緣效應(yīng),得到加窗后的語音信號xn(t)·w(t);

11、s2-2、對每一幀加窗后的語音信號,進(jìn)行n點(diǎn)離散傅里葉變換,得到短時頻譜xn(k);

12、s2-3、將原始的線性頻率k轉(zhuǎn)換為梅爾頻率mf;假設(shè)原始線性頻率的最小值為fmin,最大值為fmax,在此區(qū)間內(nèi)劃分出m個均勻的梅爾頻率作為梅爾濾波器的中心頻率,第m個濾波器的中心頻率f(m);使用m個三角形濾波器在梅爾頻率域上對xn(k)進(jìn)行加權(quán)求和,得到梅爾頻譜sn(m),m的取值范圍為[1,m]的整數(shù)。

13、作為本發(fā)明的進(jìn)一步改進(jìn),s3包括

14、s3-1、記原始語音的梅爾頻譜圖為其中f表示濾波器的個數(shù),t表示幀數(shù);將梅爾頻譜圖分割成n個大小為p×p的塊,將每個塊送入塊投影層編碼為一維向量,記為其中d表示投影的維度,塊投影層為線性投影層;使用正弦和余弦函數(shù)的組合編碼位置信息,表達(dá)每個塊在整個序列中的位置信息,記為其中d表示位置編碼的維度;將xpos與xproj相加,得到每個圖塊混合語音特征和位置特征的表示x;

15、s3-2、對x按照掩碼率p進(jìn)行隨機(jī)掩碼操作,分別得到可視部分xvis∈和掩碼部分僅將可見部分xvis送入到由transformer?blocks組成的編碼器中;transformer?blocks由多頭注意力計(jì)算模塊和前饋神經(jīng)網(wǎng)絡(luò)層組成;多頭注意力機(jī)制模塊是由多個自注意力機(jī)制模塊拼接而成的,每個自注意力機(jī)制模塊從不同的角度對輸入序列進(jìn)行建模,學(xué)習(xí)不同的權(quán)重分配方式,從而更全面地捕捉輸入序列中的信息;記每一層block的輸入為xin,輸出為xout,第一層的輸入即為xvis;

16、s3-3、每一層transformer?blocks的輸出作為下一層blocks的輸入,直到計(jì)算出第l層的結(jié)果;由此得到編碼器每一層的輸出,記為{e1,e2…el}。

17、作為本發(fā)明的進(jìn)一步改進(jìn),s4包括

18、s4-1、假設(shè)選擇m層中間特征和最后一層特征進(jìn)行融合,記選中的m層的索引為{s1,s2…sm};編碼器中不同層的語義信息不同,為了對齊不同層之間的特征空間,使用m個線性投影層{p1,p2…pm}將選中層的特征與最后一層特征進(jìn)行對齊,避免語義空間差異對訓(xùn)練解碼器的影響;經(jīng)過上述對齊操作,得到m+1層用于融合的多層次特征

19、s4-2、對得到的不同層的對齊特征進(jìn)行動態(tài)權(quán)重融合;設(shè){w1,w2…wm,wm+1}表示配的動態(tài)權(quán)重,可以在學(xué)習(xí)過程中根據(jù)重構(gòu)損失的大小進(jìn)行動態(tài)調(diào)整,并且它們的總和恒為1;使用{w1,w2…wm,wm+1}對選中的m+1層特征進(jìn)行加權(quán),得到融合后的特征o;o的特征維度與編碼器每一層的特征向量維度相同,并輸入到編碼器中。

20、作為本發(fā)明的進(jìn)一步改進(jìn),s5包括

21、s5-1、使用可見圖塊通過編碼器生成的特征向量和掩碼圖塊的位置信息,恢復(fù)掩碼圖塊的原始頻譜信息;為掩碼圖塊分配一個相同的可學(xué)習(xí)特征向量,記為其特征維度與可見部分的融合后特征o的維度相同;

22、將o與mtoken一同輸入同樣由transformer?blocks組成的解碼器;transformerblocks內(nèi)部同樣采用多頭注意力機(jī)制進(jìn)行計(jì)算,原理與s3-2中的編碼器相同;

23、最終同時得到了可見部分與掩碼部分的解碼特征向量,記為掩碼部分的解碼特征向量,記為

24、s5-2、使用線性投影層將解碼特征向量投影回原始梅爾頻譜空間,即逐像素預(yù)測每個被掩碼圖塊的原始梅爾頻率,記為設(shè)原始梅爾頻譜圖中被掩碼位置的頻率為計(jì)算重構(gòu)的頻譜圖與原始頻譜圖的逐像素絕對值損失,記為lossrec;通過模型的訓(xùn)練使重構(gòu)損失減小。

25、作為本發(fā)明的進(jìn)一步改進(jìn),s6包括

26、s6-1、利用全連接層和softmax函數(shù)根據(jù)聲紋數(shù)據(jù)的特征向量計(jì)算其屬于每一類別的概率;其中表示全連接層中的參數(shù),c表示聲紋的類別數(shù);

27、s6-2、假設(shè)聲紋數(shù)據(jù)的標(biāo)簽為其為獨(dú)熱碼的形式;使用交叉熵?fù)p失lcross進(jìn)行模型優(yōu)化,公式為經(jīng)過若干輪訓(xùn)練后,交叉熵?fù)p失收斂,微調(diào)階段結(jié)束。

28、本發(fā)明的有益效果:

29、1)引入了多層級特征融合的思想,融合編碼器的淺層特征包含的低級語義信息和深層包含的高級語義信息,更好地對原始梅爾頻譜圖進(jìn)行重構(gòu)。

30、2)使用線性投影層對齊編碼器淺層特征與最后一層特征之間的語義差異,防止語義差異對優(yōu)化過程的影響。

31、3)使用動態(tài)權(quán)重融合策略,為待融合的每一層特征分配一個可學(xué)習(xí)的權(quán)重,在訓(xùn)練的過程中進(jìn)行自適應(yīng)地調(diào)整,從而自主地權(quán)衡每一層特征的重要性。

32、4)使用自監(jiān)督的方法完成聲紋識別任務(wù),具有更強(qiáng)大的泛化性,同時可以減少數(shù)據(jù)標(biāo)注的成本。

33、5)融合編碼器的多層級特征,并使用語義對齊層和動態(tài)融合策略,提高用于重構(gòu)的特征的質(zhì)量,從而構(gòu)建聲紋表征更加優(yōu)秀的隱藏空間,并且更好地重構(gòu)原始的梅爾頻譜圖。

34、6)得益于更加優(yōu)秀的隱藏空間表征,在對下游聲紋識別任務(wù)進(jìn)行微調(diào)時,可以獲得更高的聲紋識別準(zhǔn)確率,進(jìn)一步增強(qiáng)聲紋系統(tǒng)的可靠性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1