本發(fā)明涉及語音識別領(lǐng)域,尤其涉及一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、還涉及一種語音識別方法及系統(tǒng)。
背景技術(shù):
1、自動(dòng)語音識別(automatic?speech?recognition,asr)作為人機(jī)交互系統(tǒng)的核心感知模塊,其識別精度直接影響下游自然語言理解與對話生成的可靠性。
2、現(xiàn)今通過在大規(guī)模公開數(shù)據(jù)集上訓(xùn)練所獲得的通用模型在邏輯推理和語言生成方面表現(xiàn)出色,卻缺乏對于垂直領(lǐng)域的專業(yè)知識,為了使這些生成式大模型真正適用于垂直領(lǐng)域,通常需要進(jìn)行領(lǐng)域微調(diào)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)所公開的微調(diào)方案效果不佳的缺點(diǎn),提供一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、語音識別方法及系統(tǒng)。
2、為了解決上述技術(shù)問題,本發(fā)明通過下述技術(shù)方案得以解決:
3、第一方面,提供一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法,包括以下步驟:
4、獲取音頻樣本及其標(biāo)注樣本,將所述標(biāo)注樣本作為相應(yīng)的偏好樣本;
5、將所述音頻樣本輸入至預(yù)訓(xùn)練模型中,由所述預(yù)訓(xùn)練模型進(jìn)行語音識別,獲得相應(yīng)的第一識別樣本,將所述第一識別樣本作為相應(yīng)的非偏好樣本;
6、構(gòu)建訓(xùn)練數(shù)據(jù),每條訓(xùn)練數(shù)據(jù)包括音頻樣本,及與所述音頻樣本相對應(yīng)的偏好樣本和非偏好樣本;
7、向預(yù)訓(xùn)練模型中添加低秩適配器,構(gòu)建目標(biāo)微調(diào)模型;
8、基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行偏好對齊優(yōu)化訓(xùn)練;
9、基于優(yōu)化完成的目標(biāo)微調(diào)模型確定目標(biāo)語音識別模型。
10、作為一種可實(shí)施方式,基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行迭代訓(xùn)練,每次迭代的具體步驟為:
11、對于每條訓(xùn)練數(shù)據(jù),由第一微調(diào)模型生成相應(yīng)的正樣本識別概率和負(fù)樣本識別概率,其中正樣本識別概率為對音頻樣本的語音識別結(jié)果為相應(yīng)偏好樣本的概率,負(fù)樣本識別概率為對音頻樣本進(jìn)行語音識別的結(jié)果為相應(yīng)非偏好樣本的概率;
12、基于所述正樣本識別概率計(jì)算負(fù)對數(shù)似然損失,獲得相應(yīng)的監(jiān)督微調(diào)損失;
13、基于所述正樣本識別概率計(jì)算生成所述偏好樣本的比率,獲得第一比率;
14、基于所述負(fù)樣本識別概率計(jì)算生成所述非偏好樣本的比率,獲得第二比率;
15、基于所述第一比率和所述第二比率生成相應(yīng)的相對比率損失;
16、基于各訓(xùn)練數(shù)據(jù)所對應(yīng)的監(jiān)督微調(diào)損失和相對比率損失生成目標(biāo)損失;
17、基于所述目標(biāo)損失對第一微調(diào)模型的模型參數(shù)進(jìn)行l(wèi)ora微調(diào),獲得相應(yīng)的第二微調(diào)模型,將所述第二微調(diào)模型作為下一迭代步的第一微調(diào)模型。
18、進(jìn)一步的:
19、每個(gè)迭代步中,由第一微調(diào)模型對各音頻樣本進(jìn)行語音識別,獲得相應(yīng)的第二識別樣本,并基于所得第二識別樣本更新相應(yīng)的非偏好樣本,獲得更新后的訓(xùn)練數(shù)據(jù)供下一迭代步使用。
20、作為一種可實(shí)施方式:
21、所述預(yù)訓(xùn)練模型包括編碼器和解碼器;
22、為所述預(yù)訓(xùn)練模型增加中間處理模塊,并于所述編碼器和解碼器中添加低秩矩陣,構(gòu)建目標(biāo)微調(diào)模型,所述中間處理模塊用于將所述編碼器的輸出的轉(zhuǎn)錄數(shù)據(jù)進(jìn)行復(fù)制,生成第一轉(zhuǎn)錄數(shù)據(jù)和第二轉(zhuǎn)錄數(shù)據(jù);所述第一轉(zhuǎn)錄數(shù)據(jù)與相應(yīng)的偏好樣本相配對,所述第二轉(zhuǎn)錄數(shù)據(jù)與相應(yīng)的非偏好樣本相配對。
23、進(jìn)一步的:
24、基于當(dāng)前迭代步中所有訓(xùn)練數(shù)據(jù)所對應(yīng)的音頻樣本構(gòu)建音頻輸入數(shù)據(jù),所有訓(xùn)練數(shù)據(jù)所對應(yīng)的偏好樣本和非偏好樣本構(gòu)建偏好學(xué)習(xí)數(shù)據(jù);
25、將所述音頻輸入數(shù)據(jù)輸入編碼器,由編碼器輸出相應(yīng)的編碼數(shù)據(jù),所述編碼數(shù)據(jù)包括與所述音頻樣本一一對應(yīng)的轉(zhuǎn)錄數(shù)據(jù);
26、將所述編碼數(shù)據(jù)輸入中間處理模塊,由中間處理模塊進(jìn)行復(fù)制和排序,輸出與所述偏好學(xué)習(xí)數(shù)據(jù)相對應(yīng)的編碼輸入數(shù)據(jù);
27、將所述編碼輸入數(shù)據(jù)和所述偏好學(xué)習(xí)數(shù)據(jù)輸入解碼器,引導(dǎo)解碼器對偏好學(xué)習(xí)數(shù)據(jù)中偏好樣本進(jìn)行學(xué)習(xí),非偏好樣本進(jìn)行懲罰。
28、進(jìn)一步的:
29、當(dāng)達(dá)到預(yù)設(shè)的迭代終止條件時(shí),基于所得第二微調(diào)模型中的編碼器和解碼器確定目標(biāo)語音識別模型。
30、第二方面,本發(fā)明提出一種語音識別預(yù)訓(xùn)練模型微調(diào)的系統(tǒng),包括:
31、準(zhǔn)備模塊:
32、用于獲取音頻樣本及其標(biāo)注樣本,將所述標(biāo)注樣本作為相應(yīng)的偏好樣本;
33、用于將所述音頻樣本輸入至預(yù)訓(xùn)練模型中,由所述預(yù)訓(xùn)練模型進(jìn)行語音識別,獲得相應(yīng)的第一識別樣本,將所述第一識別樣本作為相應(yīng)的非偏好樣本;
34、用于構(gòu)建訓(xùn)練數(shù)據(jù),每條訓(xùn)練數(shù)據(jù)包括音頻樣本,及與所述音頻樣本相對應(yīng)的偏好樣本和非偏好樣本;
35、第一構(gòu)建模塊,用于向預(yù)訓(xùn)練模型中添加低秩適配器,構(gòu)建目標(biāo)微調(diào)模型;
36、訓(xùn)練模塊,用于基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行偏好對齊優(yōu)化訓(xùn)練,獲得優(yōu)化后的目標(biāo)微調(diào)模型;
37、第二構(gòu)建模塊,用于基于優(yōu)化后的目標(biāo)微調(diào)模型確定目標(biāo)語音識別模型。
38、第三方面,本發(fā)明提出一種語音識別方法,包括以下步驟:
39、獲取待識別音頻;
40、將所述待識別音頻輸入上述任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法所獲得的語音識別模型,由所述語音識別模型輸出相應(yīng)的語音識別結(jié)果。
41、第四方面,本發(fā)明提出一種語音識別系統(tǒng),包括以下步驟:
42、獲取模塊,用于獲取待識別音頻;
43、識別模塊,用于將所述待識別音頻輸入上述任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法所獲得的語音識別模型,由所述語音識別模型輸出相應(yīng)的語音識別結(jié)果。
44、第五方面,本發(fā)明提出一種終端設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法;或者,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述語音識別方法。
45、本發(fā)明所提出的一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法克服現(xiàn)有偏好優(yōu)化算法只能用于大預(yù)言模型的技術(shù)偏見,創(chuàng)造性的提出將偏好優(yōu)化算法應(yīng)用于對語音識別預(yù)訓(xùn)練模型的微調(diào)中,將人工標(biāo)注的標(biāo)注樣本作為偏好樣本,將預(yù)訓(xùn)練模型輸出的識別結(jié)果作為非偏好樣本,引導(dǎo)模型學(xué)習(xí)人工標(biāo)注的偏好樣本,并避免模型生成不理想的識別結(jié)果,有效提升模型效果。
1.一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于,基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行迭代訓(xùn)練,每次迭代的具體步驟為:
3.根據(jù)權(quán)利要求2所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于:
4.根據(jù)權(quán)利要求1至3任意一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于:
5.根據(jù)權(quán)利要求4所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于:
6.根據(jù)權(quán)利要求4所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于:
7.一種語音識別預(yù)訓(xùn)練模型微調(diào)的系統(tǒng),其特征在于,包括:
8.一種語音識別方法,其特征在于,包括以下步驟:
9.一種語音識別系統(tǒng),其特征在于,包括以下步驟:
10.一種終端設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法;或者,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求8所述的語音識別方法。