中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、語音識別方法及系統(tǒng)與流程

文檔序號:42587704發(fā)布日期:2025-07-29 17:40閱讀:10來源:國知局

本發(fā)明涉及語音識別領(lǐng)域,尤其涉及一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、還涉及一種語音識別方法及系統(tǒng)。


背景技術(shù):

1、自動(dòng)語音識別(automatic?speech?recognition,asr)作為人機(jī)交互系統(tǒng)的核心感知模塊,其識別精度直接影響下游自然語言理解與對話生成的可靠性。

2、現(xiàn)今通過在大規(guī)模公開數(shù)據(jù)集上訓(xùn)練所獲得的通用模型在邏輯推理和語言生成方面表現(xiàn)出色,卻缺乏對于垂直領(lǐng)域的專業(yè)知識,為了使這些生成式大模型真正適用于垂直領(lǐng)域,通常需要進(jìn)行領(lǐng)域微調(diào)。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明針對現(xiàn)有技術(shù)所公開的微調(diào)方案效果不佳的缺點(diǎn),提供一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、語音識別方法及系統(tǒng)。

2、為了解決上述技術(shù)問題,本發(fā)明通過下述技術(shù)方案得以解決:

3、第一方面,提供一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法,包括以下步驟:

4、獲取音頻樣本及其標(biāo)注樣本,將所述標(biāo)注樣本作為相應(yīng)的偏好樣本;

5、將所述音頻樣本輸入至預(yù)訓(xùn)練模型中,由所述預(yù)訓(xùn)練模型進(jìn)行語音識別,獲得相應(yīng)的第一識別樣本,將所述第一識別樣本作為相應(yīng)的非偏好樣本;

6、構(gòu)建訓(xùn)練數(shù)據(jù),每條訓(xùn)練數(shù)據(jù)包括音頻樣本,及與所述音頻樣本相對應(yīng)的偏好樣本和非偏好樣本;

7、向預(yù)訓(xùn)練模型中添加低秩適配器,構(gòu)建目標(biāo)微調(diào)模型;

8、基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行偏好對齊優(yōu)化訓(xùn)練;

9、基于優(yōu)化完成的目標(biāo)微調(diào)模型確定目標(biāo)語音識別模型。

10、作為一種可實(shí)施方式,基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行迭代訓(xùn)練,每次迭代的具體步驟為:

11、對于每條訓(xùn)練數(shù)據(jù),由第一微調(diào)模型生成相應(yīng)的正樣本識別概率和負(fù)樣本識別概率,其中正樣本識別概率為對音頻樣本的語音識別結(jié)果為相應(yīng)偏好樣本的概率,負(fù)樣本識別概率為對音頻樣本進(jìn)行語音識別的結(jié)果為相應(yīng)非偏好樣本的概率;

12、基于所述正樣本識別概率計(jì)算負(fù)對數(shù)似然損失,獲得相應(yīng)的監(jiān)督微調(diào)損失;

13、基于所述正樣本識別概率計(jì)算生成所述偏好樣本的比率,獲得第一比率;

14、基于所述負(fù)樣本識別概率計(jì)算生成所述非偏好樣本的比率,獲得第二比率;

15、基于所述第一比率和所述第二比率生成相應(yīng)的相對比率損失;

16、基于各訓(xùn)練數(shù)據(jù)所對應(yīng)的監(jiān)督微調(diào)損失和相對比率損失生成目標(biāo)損失;

17、基于所述目標(biāo)損失對第一微調(diào)模型的模型參數(shù)進(jìn)行l(wèi)ora微調(diào),獲得相應(yīng)的第二微調(diào)模型,將所述第二微調(diào)模型作為下一迭代步的第一微調(diào)模型。

18、進(jìn)一步的:

19、每個(gè)迭代步中,由第一微調(diào)模型對各音頻樣本進(jìn)行語音識別,獲得相應(yīng)的第二識別樣本,并基于所得第二識別樣本更新相應(yīng)的非偏好樣本,獲得更新后的訓(xùn)練數(shù)據(jù)供下一迭代步使用。

20、作為一種可實(shí)施方式:

21、所述預(yù)訓(xùn)練模型包括編碼器和解碼器;

22、為所述預(yù)訓(xùn)練模型增加中間處理模塊,并于所述編碼器和解碼器中添加低秩矩陣,構(gòu)建目標(biāo)微調(diào)模型,所述中間處理模塊用于將所述編碼器的輸出的轉(zhuǎn)錄數(shù)據(jù)進(jìn)行復(fù)制,生成第一轉(zhuǎn)錄數(shù)據(jù)和第二轉(zhuǎn)錄數(shù)據(jù);所述第一轉(zhuǎn)錄數(shù)據(jù)與相應(yīng)的偏好樣本相配對,所述第二轉(zhuǎn)錄數(shù)據(jù)與相應(yīng)的非偏好樣本相配對。

23、進(jìn)一步的:

24、基于當(dāng)前迭代步中所有訓(xùn)練數(shù)據(jù)所對應(yīng)的音頻樣本構(gòu)建音頻輸入數(shù)據(jù),所有訓(xùn)練數(shù)據(jù)所對應(yīng)的偏好樣本和非偏好樣本構(gòu)建偏好學(xué)習(xí)數(shù)據(jù);

25、將所述音頻輸入數(shù)據(jù)輸入編碼器,由編碼器輸出相應(yīng)的編碼數(shù)據(jù),所述編碼數(shù)據(jù)包括與所述音頻樣本一一對應(yīng)的轉(zhuǎn)錄數(shù)據(jù);

26、將所述編碼數(shù)據(jù)輸入中間處理模塊,由中間處理模塊進(jìn)行復(fù)制和排序,輸出與所述偏好學(xué)習(xí)數(shù)據(jù)相對應(yīng)的編碼輸入數(shù)據(jù);

27、將所述編碼輸入數(shù)據(jù)和所述偏好學(xué)習(xí)數(shù)據(jù)輸入解碼器,引導(dǎo)解碼器對偏好學(xué)習(xí)數(shù)據(jù)中偏好樣本進(jìn)行學(xué)習(xí),非偏好樣本進(jìn)行懲罰。

28、進(jìn)一步的:

29、當(dāng)達(dá)到預(yù)設(shè)的迭代終止條件時(shí),基于所得第二微調(diào)模型中的編碼器和解碼器確定目標(biāo)語音識別模型。

30、第二方面,本發(fā)明提出一種語音識別預(yù)訓(xùn)練模型微調(diào)的系統(tǒng),包括:

31、準(zhǔn)備模塊:

32、用于獲取音頻樣本及其標(biāo)注樣本,將所述標(biāo)注樣本作為相應(yīng)的偏好樣本;

33、用于將所述音頻樣本輸入至預(yù)訓(xùn)練模型中,由所述預(yù)訓(xùn)練模型進(jìn)行語音識別,獲得相應(yīng)的第一識別樣本,將所述第一識別樣本作為相應(yīng)的非偏好樣本;

34、用于構(gòu)建訓(xùn)練數(shù)據(jù),每條訓(xùn)練數(shù)據(jù)包括音頻樣本,及與所述音頻樣本相對應(yīng)的偏好樣本和非偏好樣本;

35、第一構(gòu)建模塊,用于向預(yù)訓(xùn)練模型中添加低秩適配器,構(gòu)建目標(biāo)微調(diào)模型;

36、訓(xùn)練模塊,用于基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行偏好對齊優(yōu)化訓(xùn)練,獲得優(yōu)化后的目標(biāo)微調(diào)模型;

37、第二構(gòu)建模塊,用于基于優(yōu)化后的目標(biāo)微調(diào)模型確定目標(biāo)語音識別模型。

38、第三方面,本發(fā)明提出一種語音識別方法,包括以下步驟:

39、獲取待識別音頻;

40、將所述待識別音頻輸入上述任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法所獲得的語音識別模型,由所述語音識別模型輸出相應(yīng)的語音識別結(jié)果。

41、第四方面,本發(fā)明提出一種語音識別系統(tǒng),包括以下步驟:

42、獲取模塊,用于獲取待識別音頻;

43、識別模塊,用于將所述待識別音頻輸入上述任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法所獲得的語音識別模型,由所述語音識別模型輸出相應(yīng)的語音識別結(jié)果。

44、第五方面,本發(fā)明提出一種終端設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法;或者,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述語音識別方法。

45、本發(fā)明所提出的一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法克服現(xiàn)有偏好優(yōu)化算法只能用于大預(yù)言模型的技術(shù)偏見,創(chuàng)造性的提出將偏好優(yōu)化算法應(yīng)用于對語音識別預(yù)訓(xùn)練模型的微調(diào)中,將人工標(biāo)注的標(biāo)注樣本作為偏好樣本,將預(yù)訓(xùn)練模型輸出的識別結(jié)果作為非偏好樣本,引導(dǎo)模型學(xué)習(xí)人工標(biāo)注的偏好樣本,并避免模型生成不理想的識別結(jié)果,有效提升模型效果。



技術(shù)特征:

1.一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于,基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行迭代訓(xùn)練,每次迭代的具體步驟為:

3.根據(jù)權(quán)利要求2所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于:

4.根據(jù)權(quán)利要求1至3任意一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于:

5.根據(jù)權(quán)利要求4所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于:

6.根據(jù)權(quán)利要求4所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法,其特征在于:

7.一種語音識別預(yù)訓(xùn)練模型微調(diào)的系統(tǒng),其特征在于,包括:

8.一種語音識別方法,其特征在于,包括以下步驟:

9.一種語音識別系統(tǒng),其特征在于,包括以下步驟:

10.一種終端設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法;或者,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求8所述的語音識別方法。


技術(shù)總結(jié)
本發(fā)明公開一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、語音識別方法及系統(tǒng),其中微調(diào)方法包括以下步驟:獲取音頻樣本及其標(biāo)注樣本,將所述標(biāo)注樣本作為相應(yīng)的偏好樣本;將所述音頻樣本輸入至預(yù)訓(xùn)練模型中,由所述預(yù)訓(xùn)練模型進(jìn)行語音識別,獲得相應(yīng)的第一識別樣本,將所述第一識別樣本作為相應(yīng)的非偏好樣本;構(gòu)建訓(xùn)練數(shù)據(jù),每條訓(xùn)練數(shù)據(jù)包括音頻樣本,及與所述音頻樣本相對應(yīng)的偏好樣本和非偏好樣本;向預(yù)訓(xùn)練模型中添加低秩適配器,構(gòu)建目標(biāo)微調(diào)模型;基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行偏好對齊優(yōu)化訓(xùn)練;基于優(yōu)化完成的目標(biāo)微調(diào)模型確定目標(biāo)語音識別模型。本發(fā)明能夠引導(dǎo)目標(biāo)微調(diào)模型學(xué)習(xí)偏好樣本的同時(shí),避免生成非偏好樣本,能夠有效提高模型效果。

技術(shù)研發(fā)人員:鄭小林,陳超超,鮑力成,李巖
受保護(hù)的技術(shù)使用者:杭州金智塔科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/7/28
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1