中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

命令詞識別、喚醒詞識別方法、電子設(shè)備、存儲介質(zhì)與流程

文檔序號:42427191發(fā)布日期:2025-07-11 19:22閱讀:71來源:國知局

本申請涉及語音識別,尤其涉及命令詞識別、喚醒詞識別方法、電子設(shè)備、存儲介質(zhì)。


背景技術(shù):

1、隨著智能可穿戴設(shè)備(特別是智能眼鏡)的發(fā)展,音頻識別技術(shù)在智能可穿戴設(shè)備等設(shè)備中的應(yīng)用越來越普遍,為用戶提供了更為方便的人機交互方式,也提高了用戶使用智能可穿戴設(shè)備的體驗。在智能可穿戴設(shè)備中,音頻識別技術(shù)多采用的是識別音頻中是否命中了離線命令詞,若命中了某一個離線命令詞,則結(jié)束識別并執(zhí)行該離線命令詞所對應(yīng)的操作。

2、但是相關(guān)技術(shù)中,普遍存在命令詞識別效率低、準(zhǔn)確率低的技術(shù)問題,針對這一技術(shù)問題,尚未提出有效地解決方案。


技術(shù)實現(xiàn)思路

1、本申請實施例提供了命令詞識別、喚醒詞識別方法、電子設(shè)備、存儲介質(zhì),以至少解決相關(guān)技術(shù)中智能眼鏡命令詞識別效率低、準(zhǔn)確率低的技術(shù)問題。

2、根據(jù)本申請實施例的一個方面,提供了一種命令詞識別方法,應(yīng)用于智能眼鏡,包括:將待識別音頻的音頻特征數(shù)據(jù)輸入一個語音識別模型,得到多個候選字符串和每個候選字符串對應(yīng)的概率;獲取當(dāng)前場景對應(yīng)的命令詞集合;將所述多個候選字符串和所述命令詞集合中的命令詞逐一進(jìn)行匹配;判斷當(dāng)前情況是否需要調(diào)整匹配閾值;判定所述多個候選字符串的匹配最高得分達(dá)到所述匹配閾值;獲得所述命令詞集合中匹配得分最高的命令詞作為識別結(jié)果。

3、可選的,所述匹配閾值開始時為一個初始匹配閾值,所述判斷當(dāng)前情況是否需要調(diào)整匹配閾值,包括:在所述多個候選字符串的匹配最高得分低于所述初始匹配閾值時,判斷所述匹配最高得分與所述初始匹配閾值之間的差值是否等于或者小于一個預(yù)設(shè)差值閾值;在所述差值等于或者小于所述預(yù)設(shè)差值閾值時,將所述匹配閾值下調(diào)至所述多個候選字符串的匹配最高得分。

4、可選的,所述初始匹配閾值的確定方式包括:將所述語音識別模型訓(xùn)練時使用的多個訓(xùn)練樣本,與預(yù)設(shè)場景對應(yīng)的命令詞集合中的命令詞逐一進(jìn)行匹配,得到所述多個訓(xùn)練樣本中每一個訓(xùn)練樣本的匹配最高得分;使用所述每一個訓(xùn)練樣本的匹配最高得分遍歷備選閾值范圍,將多個備選閾值對應(yīng)的精確率和召回率曲線的平衡點確定為所述初始匹配閾值。

5、可選的,所述方法還包括對所述語音識別模型進(jìn)行訓(xùn)練,其中,對所述語音識別模型進(jìn)行訓(xùn)練包括:將當(dāng)前訓(xùn)練批次中的訓(xùn)練樣本輸入至所述語音識別模型,得到所述訓(xùn)練樣本的預(yù)測值,其中,所述訓(xùn)練樣本包括:喚醒詞樣本、命令詞樣本;基于所述訓(xùn)練樣本的預(yù)測值確定喚醒詞樣本的損失,以及命令詞樣本的損失;通過以下公式確定目標(biāo)損失:

6、(1+β)losskws+(1-β)losscw

7、其中,losskws為一個訓(xùn)練樣本是否是喚醒詞的損失,losscw為一個訓(xùn)練樣本是否是命令詞的損失,β為大于0的指定系數(shù);使用所述目標(biāo)損失對所述語音識別模型進(jìn)行網(wǎng)絡(luò)參數(shù)調(diào)整,得到訓(xùn)練后的語音識別模型。

8、可選的,所述語音識別模型至少具備喚醒詞識別功能和命令詞識別功能,所述方法還包括:在訓(xùn)練過程中,基于保證喚醒的準(zhǔn)確度,調(diào)整所述指定系數(shù)變大。

9、可選的,所述語音識別模型至少具備喚醒詞識別功能和命令詞識別功能,所述方法還包括:在訓(xùn)練過程中,當(dāng)命令詞樣本收斂太差,調(diào)整所述指定系數(shù)變小。

10、可選的,將待識別音頻的音頻特征數(shù)據(jù)輸入一個語音識別模型,得到多個候選字符串和每個候選字符串對應(yīng)的概率,包括:將待識別音頻的音頻特征數(shù)據(jù)輸入至所述語音識別模型,得到每幀對應(yīng)的字符和每個字符對應(yīng)的概率;對所述每幀對應(yīng)的字符和每個字符對應(yīng)的概率進(jìn)行連接時序分類ctc解碼,得到所述多個候選字符串和每個候選字符串對應(yīng)的概率。

11、根據(jù)本申請實施例的另一方面,還提供了一種喚醒詞識別方法,應(yīng)用于智能眼鏡,包括:將后續(xù)待識別音頻的音頻特征數(shù)據(jù)輸入至上述命令詞識別方法中的所述語音識別模型,得到后續(xù)多個候選字符串和每個后續(xù)候選字符串對應(yīng)的概率;判斷后續(xù)當(dāng)前場景為需要喚醒;將所述多個后續(xù)候選字符串和喚醒詞逐一進(jìn)行匹配得到喚醒匹配得分;判定至少一個喚醒匹配得分達(dá)到喚醒詞匹配閾值。

12、根據(jù)本申請實施例的再一方面,還提供了一種電子設(shè)備,包括:處理器,以及存儲程序的存儲器,程序包括指令,指令在由處理器執(zhí)行時使處理器執(zhí)行以上任一實施例中的方法。

13、根據(jù)本申請實施例的再一方面,還提供了一種存儲有計算機指令的非瞬時機器可讀介質(zhì),計算機指令用于使計算機執(zhí)行以上任一實施例中的方法。

14、根據(jù)本申請實施例的再一方面,還提供了一種計算機程序產(chǎn)品,包括計算機程序,計算機程序在被計算機的處理器執(zhí)行時用于使計算機執(zhí)行以上任一實施例中的方法。

15、在本申請實施例中,將待識別音頻的音頻特征數(shù)據(jù)輸入一個語音識別模型,得到多個候選字符串和每個候選字符串對應(yīng)的概率;獲取當(dāng)前場景對應(yīng)的命令詞集合;將該多個候選字符串和該命令詞集合中的命令詞逐一進(jìn)行匹配;判斷當(dāng)前情況是否需要調(diào)整匹配閾值;判定該多個候選字符串的匹配最高得分達(dá)到該匹配閾值;獲得該命令詞集合中匹配得分最高的命令詞作為識別結(jié)果。也就是說,本申請實施例結(jié)合智能眼鏡的當(dāng)前場景,約束支持的命令詞種類,縮短了命令詞匹配時間,并在命令詞匹配時放松匹配閾值,即使用戶輸出的語音指令不太標(biāo)準(zhǔn)也可以命中命令詞,提升了用戶體驗,進(jìn)而解決了相關(guān)技術(shù)中智能眼鏡命令詞識別效率低、準(zhǔn)確率低的技術(shù)問題,達(dá)到了提高智能眼鏡命令詞識別效率以及準(zhǔn)確率的技術(shù)效果。

16、本申請的一個或多個實施例的細(xì)節(jié)在以下附圖和描述中提出,以使本申請的其他特征、目的和優(yōu)點更加簡明易懂。



技術(shù)特征:

1.一種命令詞識別方法,應(yīng)用于智能眼鏡,包括:

2.根據(jù)權(quán)利要求1所述的方法,其中,所述匹配閾值開始時為一個初始匹配閾值,所述判斷當(dāng)前情況是否需要調(diào)整匹配閾值,包括:

3.根據(jù)權(quán)利要求2所述的方法,其中,所述初始匹配閾值的確定方式包括:

4.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括對所述語音識別模型進(jìn)行訓(xùn)練,其中,對所述語音識別模型進(jìn)行訓(xùn)練包括:

5.根據(jù)權(quán)利要求4所述的方法,其中,所述語音識別模型至少具備喚醒詞識別功能和命令詞識別功能,所述方法還包括:

6.根據(jù)權(quán)利要求5所述的方法,其中,所述語音識別模型至少具備喚醒詞識別功能和命令詞識別功能,所述方法還包括:

7.根據(jù)權(quán)利要求1所述的方法,將待識別音頻的音頻特征數(shù)據(jù)輸入一個語音識別模型,得到多個候選字符串和每個候選字符串對應(yīng)的概率,包括:

8.一種喚醒詞識別方法,應(yīng)用于智能眼鏡,包括:

9.一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上的計算機程序,所述處理器在執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至8中任一項所述的方法。

10.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)內(nèi)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至8中任一項所述的方法。


技術(shù)總結(jié)
本申請涉及命令詞識別、喚醒詞識別方法、電子設(shè)備、存儲介質(zhì)。其中,命令詞識別方法包括:將待識別音頻的音頻特征數(shù)據(jù)輸入一個語音識別模型,得到多個候選字符串和每個候選字符串對應(yīng)的概率;獲取當(dāng)前場景對應(yīng)的命令詞集合;將該多個候選字符串和該命令詞集合中的命令詞逐一進(jìn)行匹配;判斷當(dāng)前情況是否需要調(diào)整匹配閾值;判定該多個候選字符串的匹配最高得分達(dá)到該匹配閾值;獲得該命令詞集合中匹配得分最高的命令詞作為識別結(jié)果。通過本申請,解決了相關(guān)技術(shù)中智能眼鏡命令詞識別效率低、準(zhǔn)確率低的技術(shù)問題,達(dá)到了提高智能眼鏡命令詞識別效率以及準(zhǔn)確率的技術(shù)效果。

技術(shù)研發(fā)人員:李林峰,黃海榮,夏杰
受保護(hù)的技術(shù)使用者:湖北星紀(jì)魅族集團有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/7/10
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1