本發(fā)明涉及語音處理,特別涉及一種說話人分割與模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、說話人分割(說話人日志)用于在一段語音中判斷某個時間段是誰在說話。目前說話人分割技術(shù)主要有兩種,一種是先分割語音,再用聲紋模型提取分割片段的聲紋特征,對聲紋特征做聚類;另一種是用深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練模型,利用模型進(jìn)行說話人分割。但是,現(xiàn)有技術(shù)中,基于聲紋模型的方案需要額外步驟且不具備幀級別的精度;基于深度學(xué)習(xí)網(wǎng)絡(luò)的模型容易過擬合,降低了說話人分割的準(zhǔn)確性。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種說話人分割與模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì),能夠提高說話人聚類分割的準(zhǔn)確性。其具體方案如下:
2、第一方面,本申請公開了一種說話人分割方法,包括:
3、將待分割語音輸入至說話人分割模型;所述說話人分割模型為基于段級別的說話人id識別任務(wù)、說話人數(shù)量識別任務(wù)和幀級別的說話人特征識別任務(wù)訓(xùn)練得到的;
4、利用所述說話人分割模型提取所述待分割語音對應(yīng)的目標(biāo)說話人數(shù)量和目標(biāo)說話人特征,并根據(jù)所述目標(biāo)說話人數(shù)量和所述目標(biāo)說話人特征對所述待分割語音進(jìn)行聚類和分割,得到所述待分割語音對應(yīng)的說話人分割語音。
5、可選的,所述說話人分割模型的訓(xùn)練過程,包括:
6、獲取混合語音;所述混合語音為混合多說話人且包含樣本標(biāo)簽的語音片段,所述樣本標(biāo)簽包括段級別的說話人id標(biāo)注、說話人數(shù)量標(biāo)注、幀級別的說話人特征標(biāo)注;
7、將所述混合語音輸入至待訓(xùn)練模型,根據(jù)所述待訓(xùn)練模型的輸出和所述樣本標(biāo)簽對所述待訓(xùn)練模型進(jìn)行迭代訓(xùn)練,以得到所述說話人分割模型。
8、可選的,所述待訓(xùn)練模型包括特征提取層;所述特征提取層用于提取所述混合語音的聲學(xué)特征;
9、所述待訓(xùn)練模型包括主干網(wǎng)絡(luò);所述主干網(wǎng)絡(luò)與所述特征提取層相連,用于提取所述聲學(xué)特征的高維特征;
10、所述說話人分割模型包括第一子網(wǎng)絡(luò);所述第一子網(wǎng)絡(luò)與所述主干網(wǎng)絡(luò)相連,按順序依次包括全局池化層和全連接層,用于基于所述高維特征預(yù)測得到說話人數(shù)量;
11、所述說話人分割模型包括第二子網(wǎng)絡(luò);所述第二子網(wǎng)絡(luò)與所述主干網(wǎng)絡(luò)相連,按順序依次包括長短期記憶網(wǎng)絡(luò)層和全連接層,用于基于所述高維特征預(yù)測得到幀級別的說話人特征;
12、所述待訓(xùn)練模型包括第三子網(wǎng)絡(luò);所述第三子網(wǎng)絡(luò)與所述主干網(wǎng)絡(luò)相連,按順序依次包括分段池化層、全連接層和激活層,用于確定所述高維特征對應(yīng)的池化特征,并基于所述池化特征預(yù)測得到說話人id。
13、可選的,所述說話人分割模型包括所述特征提取層、所述主干網(wǎng)絡(luò)、所述第一子網(wǎng)絡(luò)和所述第二子網(wǎng)絡(luò)。
14、可選的,所述混合語音為基于不同說話人的語音裁剪片段拼接得到的;
15、相應(yīng)的,所述第三子網(wǎng)絡(luò)用于利用所述分段池化層分別對每個所述語音裁剪片段進(jìn)行池化,得到每個所述語音裁剪片段的池化特征。
16、可選的,所述說話人分割模型的訓(xùn)練過程,包括:
17、利用第一代價函數(shù)計算所述說話人數(shù)量識別任務(wù)對應(yīng)的第一代價損失;
18、利用第二代價函數(shù)計算所述說話人特征識別任務(wù)對應(yīng)的第二代價損失;所述第二代價函數(shù)為基于相同說話人特征幀的余弦距離以及不同說話人特征幀的余弦距離構(gòu)建的;
19、利用第三代價函數(shù)計算所述說話人id識別任務(wù)對應(yīng)的第三代價損失;
20、基于所述第一代價損失、所述第二代價損失和所述第三代價損失得到總代價損失,利用所述總代價損失進(jìn)行模型訓(xùn)練。
21、第二方面,本申請公開了一種說話人分割模型訓(xùn)練方法,包括:
22、基于段級別的說話人id識別任務(wù)、說話人數(shù)量識別任務(wù)和幀級別的說話人特征識別任務(wù)訓(xùn)練得到說話人分割模型,以便利用所述說話人分割模型提取待分割語音對應(yīng)的目標(biāo)說話人數(shù)量和目標(biāo)說話人特征,并根據(jù)所述目標(biāo)說話人數(shù)量和所述目標(biāo)說話人特征對所述待分割語音進(jìn)行聚類和分割,得到所述待分割語音對應(yīng)的說話人分割語音。
23、第三方面,本申請公開了一種說話人分割裝置,包括:
24、輸入模塊,用于將待分割語音輸入至說話人分割模型;所述說話人分割模型為基于段級別的說話人id識別任務(wù)、說話人數(shù)量識別任務(wù)和幀級別的說話人特征識別任務(wù)訓(xùn)練得到的;
25、分割模塊,用于利用所述說話人分割模型提取所述待分割語音對應(yīng)的目標(biāo)說話人數(shù)量和目標(biāo)說話人特征,并根據(jù)所述目標(biāo)說話人數(shù)量和所述目標(biāo)說話人特征對所述待分割語音進(jìn)行聚類和分割,得到所述待分割語音對應(yīng)的說話人分割語音。
26、第四方面,本申請公開了一種電子設(shè)備,包括:
27、存儲器,用于保存計算機(jī)程序;
28、處理器,用于執(zhí)行所述計算機(jī)程序,以實現(xiàn)前述的說話人分割方法。
29、第五方面,本申請公開了一種計算機(jī)可讀存儲介質(zhì),用于存儲計算機(jī)程序;其中計算機(jī)程序被處理器執(zhí)行時實現(xiàn)前述的說話人分割方法。
30、本申請中,將待分割語音輸入至說話人分割模型;所述說話人分割模型為基于段級別的說話人id識別任務(wù)、說話人數(shù)量識別任務(wù)和幀級別的說話人特征識別任務(wù)訓(xùn)練得到的;利用所述說話人分割模型提取所述待分割語音對應(yīng)的目標(biāo)說話人數(shù)量和目標(biāo)說話人特征,并根據(jù)所述目標(biāo)說話人數(shù)量和所述目標(biāo)說話人特征對所述待分割語音進(jìn)行聚類和分割,得到所述待分割語音對應(yīng)的說話人分割語音??梢姡ㄟ^多任務(wù)訓(xùn)練方式,使模型同時具有說話人id、說話人數(shù)量、說話人特征的信息,提高了模型的泛化性,并且基于預(yù)測的說話人數(shù)量輔助信息,提高說話人聚類分割的準(zhǔn)確性;同時,通過對模型進(jìn)行端到端訓(xùn)練,使模型學(xué)習(xí)多說話人互相干擾下的特征提取能力。
1.一種說話人分割方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的說話人分割方法,其特征在于,所述說話人分割模型的訓(xùn)練過程,包括:
3.根據(jù)權(quán)利要求2所述的說話人分割方法,其特征在于,所述待訓(xùn)練模型包括特征提取層;所述特征提取層用于提取所述混合語音的聲學(xué)特征;
4.根據(jù)權(quán)利要求3所述的說話人分割方法,其特征在于,所述說話人分割模型包括所述特征提取層、所述主干網(wǎng)絡(luò)、所述第一子網(wǎng)絡(luò)和所述第二子網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求3所述的說話人分割方法,其特征在于,所述混合語音為基于不同說話人的語音裁剪片段拼接得到的;
6.根據(jù)權(quán)利要求1至5任一項所述的說話人分割方法,其特征在于,所述說話人分割模型的訓(xùn)練過程,包括:
7.一種說話人分割模型訓(xùn)練方法,其特征在于,包括:
8.一種說話人分割裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,用于存儲計算機(jī)程序;其中計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的說話人分割方法,或權(quán)利要求7所述的說話人分割方法。