本發(fā)明涉及語音交互領(lǐng)域,特別涉及一種語音識(shí)別方法、服務(wù)器和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、相關(guān)技術(shù)中,利用流式語音識(shí)別系統(tǒng)對(duì)用戶語音請(qǐng)求進(jìn)行識(shí)別的情況下,往往能夠通過固定長(zhǎng)度的滑動(dòng)窗口對(duì)語音請(qǐng)求進(jìn)行截取,并對(duì)截取到的語音請(qǐng)求進(jìn)行解碼處理,從而得到與用戶語音請(qǐng)求向?qū)?yīng)的語音識(shí)別文本。然而如此,當(dāng)窗口邊界恰好切割發(fā)音單元時(shí),可能導(dǎo)致聲學(xué)特征碎片化,從而導(dǎo)致該發(fā)音單元信息缺失,引發(fā)誤識(shí)別,用戶體驗(yàn)不佳。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供了一種語音識(shí)別方法、服務(wù)器和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
2、本技術(shù)實(shí)施方式提供一種語音識(shí)別方法,所述方法包括:
3、確定當(dāng)前時(shí)間窗口內(nèi)的第一語音請(qǐng)求片段;
4、根據(jù)所述第一語音請(qǐng)求片段,確定與所述第一語音請(qǐng)求片段相關(guān)聯(lián)的第一初始建模單元集合;
5、在所述第一初始建模單元集合中存在第一目標(biāo)建模單元的情況下,根據(jù)所述第一目標(biāo)建模單元和所述第一初始建模單元集合,確定第一建模單元集合,其中,所述第一目標(biāo)建模單元位于距離所述當(dāng)前時(shí)間窗口的結(jié)束時(shí)刻的預(yù)定時(shí)間段內(nèi);
6、根據(jù)所述第一建模單元集合,確定所述當(dāng)前時(shí)間窗口內(nèi)的語音識(shí)別文本。
7、如此,服務(wù)器確定當(dāng)前時(shí)間窗口內(nèi)的第一語音請(qǐng)求片段。接著,服務(wù)器根據(jù)第一語音請(qǐng)求片段,確定與第一語音請(qǐng)求片段相關(guān)聯(lián)的第一初始建模單元集合。然后,在第一初始建模單元集合中存在第一目標(biāo)建模單元的情況下,根據(jù)第一目標(biāo)建模單元和第一初始建模單元集合,服務(wù)器確定第一建模單元集合,其中,第一目標(biāo)建模單元位于距離當(dāng)前時(shí)間窗口的結(jié)束時(shí)刻的預(yù)定時(shí)間段內(nèi)。最后,服務(wù)器根據(jù)第一建模單元集合,確定當(dāng)前時(shí)間窗口內(nèi)的語音識(shí)別文本。這樣,在流式語音識(shí)別處理過程中,通過對(duì)位于距離當(dāng)前時(shí)間窗口的結(jié)束時(shí)刻的預(yù)定時(shí)間段內(nèi)的第一目標(biāo)建模單元進(jìn)行動(dòng)態(tài)截?cái)?,將其延遲到下一時(shí)間窗口解碼,避免了建模單元的機(jī)械切分導(dǎo)致的識(shí)別錯(cuò)誤,從而提高語音請(qǐng)求片段的識(shí)別準(zhǔn)確率。
8、在某些實(shí)施方式中,所述根據(jù)所述第一語音請(qǐng)求片段,確定與所述第一語音請(qǐng)求片段相關(guān)聯(lián)的第一初始建模單元集合,包括:
9、在第二初始建模單元集合中存在第二目標(biāo)建模單元的情況下,根據(jù)第二語音請(qǐng)求子片段和所述第一語音請(qǐng)求片段,確定目標(biāo)語音請(qǐng)求片段,其中,所述第二初始建模單元集合根據(jù)上一時(shí)間窗口內(nèi)的第二語音請(qǐng)求片段確定,所述上一時(shí)間窗口與所述當(dāng)前時(shí)間窗口相鄰,所述第二目標(biāo)建模單元位于距離所述上一時(shí)間窗口的結(jié)束時(shí)刻的所述預(yù)定時(shí)間段內(nèi),所述第二語音請(qǐng)求子片段為距離所述上一時(shí)間窗口的結(jié)束時(shí)刻的所述預(yù)定時(shí)間段內(nèi)的語音請(qǐng)求子片段;
10、根據(jù)所述目標(biāo)語音請(qǐng)求片段,確定所述第一初始建模單元集合。
11、如此,在第二初始建模單元集合中存在第二目標(biāo)建模單元的情況下,服務(wù)器根據(jù)第二語音請(qǐng)求子片段和第一語音請(qǐng)求片段,確定目標(biāo)語音請(qǐng)求片段,其中,第二初始建模單元集合根據(jù)上一時(shí)間窗口內(nèi)的第二語音請(qǐng)求片段確定,上一時(shí)間窗口與當(dāng)前時(shí)間窗口相鄰,第二目標(biāo)建模單元位于距離上一時(shí)間窗口的結(jié)束時(shí)刻的預(yù)定時(shí)間段內(nèi),第二語音請(qǐng)求子片段為距離上一時(shí)間窗口的結(jié)束時(shí)刻的預(yù)定時(shí)間段內(nèi)的語音請(qǐng)求子片段。接著,服務(wù)器根據(jù)目標(biāo)語音請(qǐng)求片段,確定第一初始建模單元集合。這樣,在第二初始建模單元集合中存在第二目標(biāo)建模單元的情況下,通過將與第二目標(biāo)建模單元關(guān)聯(lián)的第二語音請(qǐng)求子片段和第一語音請(qǐng)求片段結(jié)合,確定目標(biāo)語音請(qǐng)求片段,以對(duì)延遲到當(dāng)前時(shí)間窗口的第二語音請(qǐng)求子片段和第一語音請(qǐng)求片段進(jìn)行處理,確定第一初始建模單元集合,避免了建模單元的機(jī)械切分,提高了第二語音請(qǐng)求子片段識(shí)別的準(zhǔn)確率。
12、在某些實(shí)施方式中,所述根據(jù)所述目標(biāo)語音請(qǐng)求片段,確定所述第一初始建模單元集合,包括:
13、基于預(yù)設(shè)分類模型,對(duì)所述目標(biāo)語音請(qǐng)求片段進(jìn)行解析,確定與所述當(dāng)前時(shí)間窗口相關(guān)聯(lián)的建模單元,所述建模單元包括漢字和/或英文單詞;
14、根據(jù)所述建模單元,確定所述第一初始建模單元集合。
15、如此,基于預(yù)設(shè)分類模型,服務(wù)器對(duì)目標(biāo)語音請(qǐng)求片段進(jìn)行解析,確定與當(dāng)前時(shí)間窗口相關(guān)聯(lián)的建模單元,建模單元包括漢字和/或英文單詞。接著,服務(wù)器根據(jù)建模單元,確定第一初始建模單元集合。這樣,通過預(yù)設(shè)分類模型,對(duì)目標(biāo)語音請(qǐng)求片段進(jìn)行解析,確定第一初始建模單元集合,能夠提升后續(xù)語音片段識(shí)別的準(zhǔn)確率。并且,確定完成的第一初始建模單元能夠用于后續(xù)步驟。
16、在某些實(shí)施方式中,所述根據(jù)所述第一語音請(qǐng)求片段,確定與所述第一語音請(qǐng)求片段相關(guān)聯(lián)的第一初始建模單元集合,包括:
17、在所述第二初始建模單元集合中不存在所述第二目標(biāo)建模單元的情況下,基于所述預(yù)設(shè)分類模型,對(duì)所述第一語音請(qǐng)求片段進(jìn)行解析,確定所述建模單元;
18、根據(jù)所述建模單元,確定所述第一初始建模單元集合。
19、如此,在第二初始建模單元集合中不存在第二目標(biāo)建模單元的情況下,基于預(yù)設(shè)分類模型,服務(wù)器對(duì)第一語音請(qǐng)求片段進(jìn)行解析,確定建模單元。接著,根據(jù)建模單元,確定第一初始建模單元集合。這樣,在第二初始建模單元集合中不存在第二目標(biāo)建模單元的情況下,直接通過預(yù)設(shè)分類模型對(duì)第一語音請(qǐng)求片段進(jìn)行解析,能夠提升后續(xù)語音片段識(shí)別的準(zhǔn)確率。
20、在某些實(shí)施方式中,所述在所述第一初始建模單元集合中存在第一目標(biāo)建模單元的情況下,根據(jù)所述第一目標(biāo)建模單元和所述第一初始建模單元集合,確定第一建模單元集合,包括:
21、根據(jù)所述第一初始建模單元集合中除所述第一目標(biāo)建模單元外的所述建模單元,確定所述第一建模單元集合。
22、如此,服務(wù)器根據(jù)第一初始建模單元集合中除第一目標(biāo)建模單元外的建模單元,確定第一建模單元集合。這樣,通過移除當(dāng)前窗口內(nèi)需跨窗口處理的冗余建模單元,優(yōu)化第一初始建模單元集合質(zhì)量,避免建模單元的機(jī)械切分導(dǎo)致的識(shí)別錯(cuò)誤,從而提升解碼效率與準(zhǔn)確性。
23、在某些實(shí)施方式中,所述根據(jù)所述第一建模單元集合,確定所述當(dāng)前時(shí)間窗口內(nèi)的語音識(shí)別文本,包括:
24、根據(jù)所述第一建模單元集合和第二建模單元集合,確定所述語音識(shí)別文本,所述第二建模單元集合根據(jù)所述第二初始建模單元集合確定。
25、如此,服務(wù)器根據(jù)第一建模單元集合和第二建模單元集合,確定語音識(shí)別文本,第二建模單元集合根據(jù)第二初始建模單元集合確定。這樣,通過結(jié)合第一建模單元集合和第二建模單元集合,模型可以全面地理解語音片段,從而提高語音識(shí)別文本的識(shí)別準(zhǔn)確率。
26、在某些實(shí)施方式中,所述根據(jù)所述第一建模單元集合和第二建模單元集合,確定所述語音識(shí)別文本,包括:
27、根據(jù)所述第二建模單元集合和所述第一建模單元集合,確定歷史建模單元集合;
28、根據(jù)所述歷史建模單元集合,對(duì)所述第一建模單元集合進(jìn)行輔助解碼處理,確定所述語音識(shí)別文本。
29、如此,服務(wù)器根據(jù)第二建模單元集合和第一建模單元集合,確定歷史建模單元集合。接著,服務(wù)器根據(jù)歷史建模單元集合,對(duì)第一建模單元集合進(jìn)行輔助解碼處理,確定語音識(shí)別文本。這樣,通過利用歷史建模單元集合,提升對(duì)當(dāng)前時(shí)間窗口內(nèi)的語音片段的理解能力,優(yōu)化解碼結(jié)果,從而提高識(shí)別準(zhǔn)確率。
30、在某些實(shí)施方式中,所述方法還包括:
31、在所述第一初始建模單元集合中不存在第一目標(biāo)建模單元的情況下,將所述第一初始建模單元集合確定為所述第一建模單元集合。
32、如此,在所述第一初始建模單元集合中不存在第一目標(biāo)建模單元的情況下,服務(wù)器將所述第一初始建模單元集合確定為所述第一建模單元集合。這樣,當(dāng)?shù)谝怀跏冀卧现胁淮嬖诘谝荒繕?biāo)建模單元時(shí),直接將該第一初始建模單元集合確定為第一建模單元集合,可以簡(jiǎn)化解碼過程,提高解碼效率。
33、本技術(shù)實(shí)施方式提供了一種服務(wù)器,所述服務(wù)器包括處理器和存儲(chǔ)器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)上述的方法。
34、本技術(shù)實(shí)施方式提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行的情況下,實(shí)現(xiàn)如上述方法的步驟。
35、本技術(shù)的實(shí)施方式的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術(shù)的實(shí)施方式的實(shí)踐了解到。