本發(fā)明涉及海上語音通信,具體而言,尤其涉及一種音頻缺失片段修復(fù)方法。
背景技術(shù):
1、在甚高頻(very?high?frequency,vhf)海上語音通信中,由于海上環(huán)境復(fù)雜多變,音頻信號中經(jīng)常存在語音片段的局部缺失,同時混有各類噪聲。因此,通過設(shè)計相關(guān)方法補償缺失的語音片段和抑制信號背景噪聲以提升音頻質(zhì)量,將顯著提高船舶間的通信質(zhì)量,確保穩(wěn)定、高效和可靠的海上通信。
2、現(xiàn)有的音頻缺失片段修復(fù)方法主要分為兩大類:一類是基于稀疏性表示、基于自回歸建模等的傳統(tǒng)修復(fù)方法,另一類是基于以數(shù)據(jù)驅(qū)動為核心的深度神經(jīng)網(wǎng)絡(luò)的修復(fù)方法。傳統(tǒng)修復(fù)方法通常能夠精確修復(fù)較短時長的語音缺失片段,但無法有效修復(fù)較長語音缺失片段,另一方面,基于深度學習的修復(fù)方法雖然能夠?qū)崿F(xiàn)對較長語音缺失片段的修復(fù),但無法保證修復(fù)語音片段與前后文的連貫性,且經(jīng)常存在人為痕跡明顯的問題,此外,現(xiàn)有的音頻缺失片段修復(fù)方法通常基于干凈語音信號,而在實際通信環(huán)境中,語音信號不僅會遭遇局部片段的信息缺失,還會同時混入各類噪聲,從而顯著影響方法的表現(xiàn)性能。
3、現(xiàn)有語音缺失片段修復(fù)方法通常能夠?qū)崿F(xiàn)對較短時長語音缺失片段(0~50ms)的有效修復(fù),但對于較長時間語音缺失片段(100ms及以上)的修復(fù)質(zhì)量較差,且難以保證修復(fù)語音片段與前后文語音片段的連貫性,此外,現(xiàn)有語音缺失片段修復(fù)方法通常基于干凈語音信號,而在實際通信環(huán)境中,語音信號不僅會出現(xiàn)局部片段的信息缺失,還會同時混入各類噪聲。
技術(shù)實現(xiàn)思路
1、為實現(xiàn)對音頻信號中較長語音缺失片段的有效修復(fù)并確保修復(fù)內(nèi)容與前后文語音片段的連貫性,并提高方法在噪聲環(huán)境下的魯棒性,本發(fā)明通過結(jié)合信號的時頻域分析和潛在擴散概率模型,提出了一種能夠有效修復(fù)較長語音缺失片段且在噪聲環(huán)境下魯棒性強的語音缺失片段內(nèi)容修復(fù)方法。
2、本發(fā)明采用的技術(shù)手段如下:
3、一種音頻缺失片段修復(fù)方法,包括如下步驟:
4、s1、對受損音頻信號進行短時傅里葉變換得到stft幅度譜,并通過頻率濾波器組將stft幅度譜轉(zhuǎn)換為梅爾尺度,得到受損信號的梅爾譜;
5、s2、使用訓練后的矢量量化變分自編碼器將受損信號的梅爾譜編碼為較低維度的潛在空間特征;
6、s3、應(yīng)用擴散模型方法,以受損潛在空間特征為條件,通過拼接采樣的高斯噪聲,經(jīng)過訓練后的去噪網(wǎng)絡(luò)t步去噪后,輸出預(yù)測完整潛在空間特征;
7、s4、將預(yù)測完整潛在特征經(jīng)解碼得到預(yù)測完整梅爾譜,使用感知hifigan聲碼器修復(fù)信號相位,輸出修復(fù)語音信號。
8、進一步地,s2中,矢量量化變分自編碼器可用以完成對輸入梅爾譜的重建,矢量量化變分自編碼器包括編碼器和解碼器,編碼器和解碼器均由二維卷積層組成,編碼器用于對輸入梅爾譜進行編碼得到一個較低維度的潛在特征;將潛在特征通過一個由k個向量構(gòu)成的碼本,對潛在特征中的每一個向量通過最近鄰查找進行量化,以得到量化潛在特征;解碼器能夠通過接收量化潛在特征重建輸入梅爾譜。
9、進一步地,所述自編碼器的損失函數(shù)包括重建損失、矢量量化損失和對抗損失組成;所述重建損失lrec為重建梅爾譜圖與真實梅爾譜圖之間的l2距離,表示為:
10、
11、其中,x表示真實梅爾譜,表示重建梅爾譜;
12、矢量量化損失lvq使碼本向量和編碼器輸出相互逼近;矢量量化損失包括codebook損失和commitment損失,矢量量化損失lvq表示為:
13、
14、其中,e(.)表示編碼,sg[.]表示梯度截止運算符,e表示碼本向量。
15、判別器損失ldisc表示如下:
16、
17、其中d表示patchgan判別器;
18、訓練矢量量化變分自編碼器的整體損失如下:
19、l=mingmaxd(lrec+λvqlvq+λdiscldisc)。?(4)
20、其中λvq和λdisc分別為對應(yīng)損失項的系數(shù),分別設(shè)置為1.0和0.5。
21、進一步地,s3中,所述訓練后的去噪網(wǎng)絡(luò)為由二維卷積層構(gòu)成的u型網(wǎng)絡(luò);訓練去噪網(wǎng)絡(luò)時,將干凈語音的量化潛在特征作為前向擴散過程的真實數(shù)據(jù)分布,給定完整梅爾譜圖的量化潛在特征z0,根據(jù)當前時間步t添加高斯噪聲,公式如下:
22、
23、在反向過程當中,將受損音頻的量化潛在特征zc作為條件信息以指導(dǎo)當前時間步的去噪,時間步t的反向去噪過程表示如下:
24、pθ(zt-1|zt,zc)=n(zt-1;μθ(zt,t),σθ(zt,t))?(6)
25、去噪網(wǎng)絡(luò)的損失函數(shù)為模型輸出與每個擴散時間步引入的噪聲之間的l1損失,公式如下:
26、
27、進一步地,s4中,所述感知hifigan聲碼器在原始hifigan生成器損失函數(shù)的基礎(chǔ)上引入了speechvgg損失;
28、所述speechvgg為用于詞分類的預(yù)訓練模型,speechvgg的網(wǎng)絡(luò)架構(gòu)基于vgg-19卷積神經(jīng)網(wǎng)絡(luò),包含二維卷積層,全連接層和池化層;
29、speech?vgg損失通過計算聲碼器輸出和真值音頻通過特征提取器得到的每層特征之間的l1距離,表示如下:
30、
31、其中,p表示speech?vgg提取特征的層數(shù)。
32、本發(fā)明還提供了一種存儲介質(zhì),所述存儲介質(zhì)包括存儲的程序,其中,所述程序運行時,執(zhí)行上述任一項音頻缺失片段修復(fù)方法。
33、本發(fā)明還提供了一種電子裝置,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器通過所述計算機程序運行執(zhí)行上述任一項音頻缺失片段修復(fù)方法。
34、較現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:
35、本發(fā)明通過選用音頻信號的梅爾頻譜作為系統(tǒng)輸入輸出特征,對受損音頻信號的梅爾頻譜進行分析和修復(fù),避免了對信號缺失片段相位的修復(fù),簡化了修復(fù)任務(wù)的復(fù)雜度;通過結(jié)合矢量量化自編碼器和去噪擴散概率模型,使用自編碼器將輸入特征編碼為較低維度的潛在空間特征,并借助擴散模型對受損特征到完整特征之間的映射進行建模,實現(xiàn)了對較長缺失片段的有效、與前后文連貫的修復(fù),同時提升了方法在噪聲環(huán)境下的魯棒性,且較低維度的輸入輸出特征加快了去噪網(wǎng)絡(luò)的收斂;通過應(yīng)用神經(jīng)聲碼器對信號相位進行修復(fù),克服了部分傳統(tǒng)修復(fù)方法修復(fù)片段相位與前后文不連貫的問題,并結(jié)合神經(jīng)聲碼器與語音細粒度感知信息建模,提高了最終修復(fù)信號的主觀感知質(zhì)量和客觀可懂度。
1.一種音頻缺失片段修復(fù)方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的音頻缺失片段修復(fù)方法,其特征在于,s2中,矢量量化變分自編碼器能夠用以完成對輸入梅爾譜的重建,矢量量化變分自編碼器包括編碼器和解碼器,編碼器和解碼器均由二維卷積層組成,編碼器用于對輸入梅爾譜進行編碼得到一個較低維度的潛在特征;將潛在特征通過一個由k個向量構(gòu)成的碼本,對潛在特征中的每一個向量通過最近鄰查找進行量化,以得到量化潛在特征;解碼器能夠通過接收量化潛在特征重建梅爾譜。
3.根據(jù)權(quán)利要求2所述的音頻缺失片段修復(fù)方法,其特征在于,所述自編碼器的損失函數(shù)包括重建損失、矢量量化損失和判別器損失組成;所述重建損失lrec為重建梅爾譜圖與真實梅爾譜圖之間的l2距離,表示為:
4.根據(jù)權(quán)利要求1所述的音頻缺失片段修復(fù)方法,其特征在于,s3中,所述訓練后的去噪網(wǎng)絡(luò)為由二維卷積層構(gòu)成的u型網(wǎng)絡(luò);訓練去噪網(wǎng)絡(luò)時,將干凈語音的量化潛在特征作為前向擴散過程的真實數(shù)據(jù)分布,給定完整梅爾譜圖的量化潛在特征z0,根據(jù)當前時間步t添加高斯噪聲,公式如下:
5.根據(jù)權(quán)利要求1所述的音頻缺失片段修復(fù)方法,其特征在于,s4中,所述感知hifigan聲碼器在原始hifigan生成器損失函數(shù)的基礎(chǔ)上引入了speechvgg損失;
6.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)包括存儲的程序,其中,所述程序運行時,執(zhí)行所述權(quán)利要求1至5中任一項權(quán)利要求所述的音頻缺失片段修復(fù)方法。
7.一種電子裝置,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器通過所述計算機程序運行執(zhí)行所述權(quán)利要求1至5中任一項權(quán)利要求所述的音頻缺失片段修復(fù)方法。