語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、語音識別方法及系統(tǒng)與流程

文檔序號：42587704發(fā)布日期：2025-07-29 17:40閱讀：10來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音識別領(lǐng)域，尤其涉及一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、還涉及一種語音識別方法及系統(tǒng)。

背景技術(shù)：

1、自動(dòng)語音識別(automatic?speech?recognition,asr)作為人機(jī)交互系統(tǒng)的核心感知模塊，其識別精度直接影響下游自然語言理解與對話生成的可靠性。

2、現(xiàn)今通過在大規(guī)模公開數(shù)據(jù)集上訓(xùn)練所獲得的通用模型在邏輯推理和語言生成方面表現(xiàn)出色，卻缺乏對于垂直領(lǐng)域的專業(yè)知識，為了使這些生成式大模型真正適用于垂直領(lǐng)域，通常需要進(jìn)行領(lǐng)域微調(diào)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明針對現(xiàn)有技術(shù)所公開的微調(diào)方案效果不佳的缺點(diǎn)，提供一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、語音識別方法及系統(tǒng)。

2、為了解決上述技術(shù)問題，本發(fā)明通過下述技術(shù)方案得以解決：

3、第一方面，提供一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法，包括以下步驟：

4、獲取音頻樣本及其標(biāo)注樣本，將所述標(biāo)注樣本作為相應(yīng)的偏好樣本；

5、將所述音頻樣本輸入至預(yù)訓(xùn)練模型中，由所述預(yù)訓(xùn)練模型進(jìn)行語音識別，獲得相應(yīng)的第一識別樣本，將所述第一識別樣本作為相應(yīng)的非偏好樣本；

6、構(gòu)建訓(xùn)練數(shù)據(jù)，每條訓(xùn)練數(shù)據(jù)包括音頻樣本，及與所述音頻樣本相對應(yīng)的偏好樣本和非偏好樣本；

7、向預(yù)訓(xùn)練模型中添加低秩適配器，構(gòu)建目標(biāo)微調(diào)模型；

8、基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行偏好對齊優(yōu)化訓(xùn)練；

9、基于優(yōu)化完成的目標(biāo)微調(diào)模型確定目標(biāo)語音識別模型。

10、作為一種可實(shí)施方式，基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行迭代訓(xùn)練，每次迭代的具體步驟為：

11、對于每條訓(xùn)練數(shù)據(jù)，由第一微調(diào)模型生成相應(yīng)的正樣本識別概率和負(fù)樣本識別概率，其中正樣本識別概率為對音頻樣本的語音識別結(jié)果為相應(yīng)偏好樣本的概率，負(fù)樣本識別概率為對音頻樣本進(jìn)行語音識別的結(jié)果為相應(yīng)非偏好樣本的概率；

12、基于所述正樣本識別概率計(jì)算負(fù)對數(shù)似然損失，獲得相應(yīng)的監(jiān)督微調(diào)損失；

13、基于所述正樣本識別概率計(jì)算生成所述偏好樣本的比率，獲得第一比率；

14、基于所述負(fù)樣本識別概率計(jì)算生成所述非偏好樣本的比率，獲得第二比率；

15、基于所述第一比率和所述第二比率生成相應(yīng)的相對比率損失；

16、基于各訓(xùn)練數(shù)據(jù)所對應(yīng)的監(jiān)督微調(diào)損失和相對比率損失生成目標(biāo)損失；

17、基于所述目標(biāo)損失對第一微調(diào)模型的模型參數(shù)進(jìn)行l(wèi)ora微調(diào)，獲得相應(yīng)的第二微調(diào)模型，將所述第二微調(diào)模型作為下一迭代步的第一微調(diào)模型。

18、進(jìn)一步的：

19、每個(gè)迭代步中，由第一微調(diào)模型對各音頻樣本進(jìn)行語音識別，獲得相應(yīng)的第二識別樣本，并基于所得第二識別樣本更新相應(yīng)的非偏好樣本，獲得更新后的訓(xùn)練數(shù)據(jù)供下一迭代步使用。

20、作為一種可實(shí)施方式：

21、所述預(yù)訓(xùn)練模型包括編碼器和解碼器；

22、為所述預(yù)訓(xùn)練模型增加中間處理模塊，并于所述編碼器和解碼器中添加低秩矩陣，構(gòu)建目標(biāo)微調(diào)模型，所述中間處理模塊用于將所述編碼器的輸出的轉(zhuǎn)錄數(shù)據(jù)進(jìn)行復(fù)制，生成第一轉(zhuǎn)錄數(shù)據(jù)和第二轉(zhuǎn)錄數(shù)據(jù)；所述第一轉(zhuǎn)錄數(shù)據(jù)與相應(yīng)的偏好樣本相配對，所述第二轉(zhuǎn)錄數(shù)據(jù)與相應(yīng)的非偏好樣本相配對。

23、進(jìn)一步的：

24、基于當(dāng)前迭代步中所有訓(xùn)練數(shù)據(jù)所對應(yīng)的音頻樣本構(gòu)建音頻輸入數(shù)據(jù)，所有訓(xùn)練數(shù)據(jù)所對應(yīng)的偏好樣本和非偏好樣本構(gòu)建偏好學(xué)習(xí)數(shù)據(jù)；

25、將所述音頻輸入數(shù)據(jù)輸入編碼器，由編碼器輸出相應(yīng)的編碼數(shù)據(jù)，所述編碼數(shù)據(jù)包括與所述音頻樣本一一對應(yīng)的轉(zhuǎn)錄數(shù)據(jù)；

26、將所述編碼數(shù)據(jù)輸入中間處理模塊，由中間處理模塊進(jìn)行復(fù)制和排序，輸出與所述偏好學(xué)習(xí)數(shù)據(jù)相對應(yīng)的編碼輸入數(shù)據(jù)；

27、將所述編碼輸入數(shù)據(jù)和所述偏好學(xué)習(xí)數(shù)據(jù)輸入解碼器，引導(dǎo)解碼器對偏好學(xué)習(xí)數(shù)據(jù)中偏好樣本進(jìn)行學(xué)習(xí)，非偏好樣本進(jìn)行懲罰。

28、進(jìn)一步的：

29、當(dāng)達(dá)到預(yù)設(shè)的迭代終止條件時(shí)，基于所得第二微調(diào)模型中的編碼器和解碼器確定目標(biāo)語音識別模型。

30、第二方面，本發(fā)明提出一種語音識別預(yù)訓(xùn)練模型微調(diào)的系統(tǒng)，包括：

31、準(zhǔn)備模塊：

32、用于獲取音頻樣本及其標(biāo)注樣本，將所述標(biāo)注樣本作為相應(yīng)的偏好樣本；

33、用于將所述音頻樣本輸入至預(yù)訓(xùn)練模型中，由所述預(yù)訓(xùn)練模型進(jìn)行語音識別，獲得相應(yīng)的第一識別樣本，將所述第一識別樣本作為相應(yīng)的非偏好樣本；

34、用于構(gòu)建訓(xùn)練數(shù)據(jù)，每條訓(xùn)練數(shù)據(jù)包括音頻樣本，及與所述音頻樣本相對應(yīng)的偏好樣本和非偏好樣本；

35、第一構(gòu)建模塊，用于向預(yù)訓(xùn)練模型中添加低秩適配器，構(gòu)建目標(biāo)微調(diào)模型；

36、訓(xùn)練模塊，用于基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行偏好對齊優(yōu)化訓(xùn)練，獲得優(yōu)化后的目標(biāo)微調(diào)模型；

37、第二構(gòu)建模塊，用于基于優(yōu)化后的目標(biāo)微調(diào)模型確定目標(biāo)語音識別模型。

38、第三方面，本發(fā)明提出一種語音識別方法，包括以下步驟：

39、獲取待識別音頻；

40、將所述待識別音頻輸入上述任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法所獲得的語音識別模型，由所述語音識別模型輸出相應(yīng)的語音識別結(jié)果。

41、第四方面，本發(fā)明提出一種語音識別系統(tǒng)，包括以下步驟：

42、獲取模塊，用于獲取待識別音頻；

43、識別模塊，用于將所述待識別音頻輸入上述任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法所獲得的語音識別模型，由所述語音識別模型輸出相應(yīng)的語音識別結(jié)果。

44、第五方面，本發(fā)明提出一種終端設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法；或者，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述語音識別方法。

45、本發(fā)明所提出的一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法克服現(xiàn)有偏好優(yōu)化算法只能用于大預(yù)言模型的技術(shù)偏見，創(chuàng)造性的提出將偏好優(yōu)化算法應(yīng)用于對語音識別預(yù)訓(xùn)練模型的微調(diào)中，將人工標(biāo)注的標(biāo)注樣本作為偏好樣本，將預(yù)訓(xùn)練模型輸出的識別結(jié)果作為非偏好樣本，引導(dǎo)模型學(xué)習(xí)人工標(biāo)注的偏好樣本，并避免模型生成不理想的識別結(jié)果，有效提升模型效果。

技術(shù)特征：

1.一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法，其特征在于，基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行迭代訓(xùn)練，每次迭代的具體步驟為：

3.根據(jù)權(quán)利要求2所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法，其特征在于：

4.根據(jù)權(quán)利要求1至3任意一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法，其特征在于：

5.根據(jù)權(quán)利要求4所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法，其特征在于：

6.根據(jù)權(quán)利要求4所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法，其特征在于：

7.一種語音識別預(yù)訓(xùn)練模型微調(diào)的系統(tǒng)，其特征在于，包括：

8.一種語音識別方法，其特征在于，包括以下步驟：

9.一種語音識別系統(tǒng)，其特征在于，包括以下步驟：

10.一種終端設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的語音識別預(yù)訓(xùn)練模型微調(diào)的方法；或者，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求8所述的語音識別方法。

技術(shù)總結(jié)
本發(fā)明公開一種語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、語音識別方法及系統(tǒng)，其中微調(diào)方法包括以下步驟：獲取音頻樣本及其標(biāo)注樣本，將所述標(biāo)注樣本作為相應(yīng)的偏好樣本；將所述音頻樣本輸入至預(yù)訓(xùn)練模型中，由所述預(yù)訓(xùn)練模型進(jìn)行語音識別，獲得相應(yīng)的第一識別樣本，將所述第一識別樣本作為相應(yīng)的非偏好樣本；構(gòu)建訓(xùn)練數(shù)據(jù)，每條訓(xùn)練數(shù)據(jù)包括音頻樣本，及與所述音頻樣本相對應(yīng)的偏好樣本和非偏好樣本；向預(yù)訓(xùn)練模型中添加低秩適配器，構(gòu)建目標(biāo)微調(diào)模型；基于所述訓(xùn)練數(shù)據(jù)對目標(biāo)微調(diào)模型進(jìn)行偏好對齊優(yōu)化訓(xùn)練；基于優(yōu)化完成的目標(biāo)微調(diào)模型確定目標(biāo)語音識別模型。本發(fā)明能夠引導(dǎo)目標(biāo)微調(diào)模型學(xué)習(xí)偏好樣本的同時(shí)，避免生成非偏好樣本，能夠有效提高模型效果。

技術(shù)研發(fā)人員：鄭小林,陳超超,鮑力成,李巖
受保護(hù)的技術(shù)使用者：杭州金智塔科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/7/28

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭小林,陳超超,鮑力成,李巖
技術(shù)所有人：杭州金智塔科技有限公司
我是此專利的發(fā)明人

上一篇：一種真空清掃防堵塞的大顆粒預(yù)處理器的制作方法
下一篇：門底密封裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

語音識別預(yù)訓(xùn)練模型微調(diào)的方法及系統(tǒng)、語音識別方法及系統(tǒng)與流程