一種基于3D虛擬的語(yǔ)音交互方法及系統(tǒng)與流程

文檔序號(hào)：42588604發(fā)布日期：2025-07-29 17:41閱讀：9來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及智能語(yǔ)音交互，具體為一種基于3d虛擬的語(yǔ)音交互方法及系統(tǒng)。

背景技術(shù)：

1、隨著計(jì)算機(jī)技術(shù)和人工智能的迅猛發(fā)展，語(yǔ)音識(shí)別技術(shù)已經(jīng)成為人機(jī)交互的重要手段之一。尤其是在虛擬現(xiàn)實(shí)（vr）和增強(qiáng)現(xiàn)實(shí)（ar）等沉浸式環(huán)境中，語(yǔ)音識(shí)別不僅為用戶提供了更加自然的交互方式，還極大地提升了用戶體驗(yàn)。然而，現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)在真實(shí)世界應(yīng)用中仍面臨許多挑戰(zhàn)，如語(yǔ)音清晰度差異、背景噪聲干擾、發(fā)音障礙用戶的適應(yīng)性問題，以及復(fù)雜環(huán)境中的上下文理解等。

2、傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)通?；陟o態(tài)模型，利用固定的特征和算法對(duì)語(yǔ)音信號(hào)進(jìn)行處理。這些系統(tǒng)雖然能夠處理標(biāo)準(zhǔn)語(yǔ)音輸入，但在面對(duì)不同用戶的發(fā)音、口音、語(yǔ)速變化以及環(huán)境噪聲等問題時(shí)，往往表現(xiàn)不佳。此外，現(xiàn)有的語(yǔ)音識(shí)別模型在處理復(fù)雜場(chǎng)景和上下文變化時(shí)缺乏足夠的自適應(yīng)能力。例如，用戶在虛擬環(huán)境中的行為、語(yǔ)境、歷史命令等信息，往往沒有得到有效利用，導(dǎo)致指令的生成和響應(yīng)速度受限，影響了用戶的交互體驗(yàn)。

3、目前的一些優(yōu)化方法雖然引入了深度學(xué)習(xí)等技術(shù)，改善了語(yǔ)音識(shí)別的精度，但大多局限于單一的語(yǔ)音輸入分析，忽視了用戶歷史命令和環(huán)境上下文的結(jié)合使用。具體來(lái)說(shuō)，現(xiàn)有技術(shù)尚未能夠有效結(jié)合用戶的歷史交互行為和實(shí)時(shí)環(huán)境上下文信息，以動(dòng)態(tài)地優(yōu)化語(yǔ)音識(shí)別模型和候選指令集合的生成，進(jìn)一步提高語(yǔ)音識(shí)別系統(tǒng)在實(shí)際應(yīng)用中的精準(zhǔn)度和響應(yīng)速度。

技術(shù)實(shí)現(xiàn)思路

1、鑒于上述存在的問題，提出了本發(fā)明。

2、因此，本發(fā)明解決的技術(shù)問題是：現(xiàn)有語(yǔ)音識(shí)別系統(tǒng)在復(fù)雜環(huán)境中無(wú)法有效結(jié)合用戶歷史命令和3d環(huán)境上下文，導(dǎo)致指令生成不精準(zhǔn)、響應(yīng)速度慢的問題。

3、為解決上述技術(shù)問題，本發(fā)明提供如下技術(shù)方案：一種基于3d虛擬的語(yǔ)音交互方法，包括：接收用戶的實(shí)時(shí)語(yǔ)音并進(jìn)行預(yù)處理，建立語(yǔ)音識(shí)別模型，分析用戶的發(fā)音特征和清晰度；

4、基于用戶的發(fā)音特征和清晰度，對(duì)語(yǔ)音識(shí)別模型進(jìn)行優(yōu)化；

5、結(jié)合用戶的歷史命令和當(dāng)前3d環(huán)境上下文，利用優(yōu)化后的語(yǔ)音識(shí)別模型生成用戶下一步的候選預(yù)測(cè)指令集合；所述候選預(yù)測(cè)指令集合包括多個(gè)候選指令；

6、識(shí)別每個(gè)候選指令的優(yōu)先級(jí)，將優(yōu)先級(jí)最高的候選指令作為用戶下一步的預(yù)測(cè)指令，優(yōu)先加載預(yù)測(cè)指令的相關(guān)資源，快速響應(yīng)用戶需求；所述識(shí)別每個(gè)候選指令的優(yōu)先級(jí)包括，根據(jù)語(yǔ)音清晰度評(píng)分、歷史命令的執(zhí)行頻率，以及指令與當(dāng)前環(huán)境的匹配度計(jì)算每個(gè)候選指令的優(yōu)先級(jí)。

7、作為本發(fā)明所述的基于3d虛擬的語(yǔ)音交互方法的一種優(yōu)選方案，其中：所述預(yù)處理包括，利用wiener濾波算法去除所述實(shí)時(shí)語(yǔ)音的噪聲，將去噪后的實(shí)時(shí)語(yǔ)音劃分為多個(gè)連續(xù)幀音頻，每一幀之間重疊部分為；利用梅爾頻率倒譜系數(shù)提取每一幀音頻的時(shí)頻特征，建立時(shí)頻特征矩陣；其中，表示重疊長(zhǎng)度；

8、所述時(shí)頻特征包括音頻的頻譜、音高、音量、基本頻率和頻譜平坦度。

9、作為本發(fā)明所述的基于3d虛擬的語(yǔ)音交互方法的一種優(yōu)選方案，其中：所述語(yǔ)音識(shí)別模型包括，卷積神經(jīng)網(wǎng)絡(luò)層、池化層和全連接層；

10、將所述時(shí)頻特征矩陣輸入所述卷積神經(jīng)網(wǎng)絡(luò)層進(jìn)行卷積操作，提取局部特征，形成局部特征圖；所述池化層利用最大池化法減少局部特征的維度，得到關(guān)鍵局部特征圖；所述全連接層將局部特征圖和關(guān)鍵局部特征圖轉(zhuǎn)化為特征向量，構(gòu)建為全局特征圖。

11、作為本發(fā)明所述的基于3d虛擬的語(yǔ)音交互方法的一種優(yōu)選方案，其中：分析用戶的發(fā)音清晰度包括，使用小波變化法從所述全局特征圖提取出高頻系數(shù)和低頻系數(shù)；計(jì)算所述高頻系數(shù)的能量與所述低頻系數(shù)的能量；基于所述高頻能量與低頻能量的比值，確定語(yǔ)音的清晰度評(píng)分；設(shè)定清晰度評(píng)分閾值，當(dāng)所述清晰度評(píng)分清晰度評(píng)分閾值時(shí)，判定語(yǔ)音清晰度不足，調(diào)高容錯(cuò)率；

12、分析用戶的發(fā)音特征包括，使用滑動(dòng)窗口法對(duì)高頻細(xì)節(jié)系數(shù)進(jìn)行局部能量計(jì)算，找到局部能量峰值，判定為重音部分；通過計(jì)算相鄰局部能量峰值之間的平均時(shí)間間隔；設(shè)定快語(yǔ)速閾值和慢語(yǔ)速閾值，當(dāng)平均時(shí)間間隔快語(yǔ)速閾值時(shí)，判定語(yǔ)速偏快，增加卷積神經(jīng)網(wǎng)絡(luò)中高頻濾波器的權(quán)重，增強(qiáng)快速變化音節(jié)的捕捉能力；當(dāng)平均時(shí)間間隔慢語(yǔ)速閾值，判定語(yǔ)速偏慢，增加卷積神經(jīng)網(wǎng)絡(luò)中低頻濾波器的權(quán)重，增強(qiáng)慢節(jié)奏語(yǔ)音的識(shí)別能力。

13、作為本發(fā)明所述的基于3d虛擬的語(yǔ)音交互方法的一種優(yōu)選方案，其中：所述生成用戶下一步的候選預(yù)測(cè)指令集合包括，接收用戶的歷史指令序列；利用長(zhǎng)短期記憶網(wǎng)絡(luò)將所述歷史命令序列轉(zhuǎn)化為時(shí)序特征，生成歷史命令的隱狀態(tài)，并通過遞歸更新所述隱狀態(tài)，學(xué)習(xí)歷史指令中的信息得到歷史命令狀態(tài)；

14、利用優(yōu)化后的語(yǔ)音識(shí)別模型，分析接收到的實(shí)時(shí)語(yǔ)音輸入，得到實(shí)時(shí)語(yǔ)音特征；構(gòu)建多層深度模型，逐層推演用戶可能的操作意圖，生成用戶下一步的候選預(yù)測(cè)指令集合。

15、作為本發(fā)明所述的基于3d虛擬的語(yǔ)音交互方法的一種優(yōu)選方案，其中：所述多層深度模型包括，lstm層、gcn層和輸出層；

16、在所述lstm層中，結(jié)合歷史命令狀態(tài)和實(shí)時(shí)語(yǔ)音特征，利用lstm生成初步候選指令集合；將所述歷史命令狀態(tài)與實(shí)時(shí)語(yǔ)音特征結(jié)合，利用lstm生成實(shí)時(shí)候選指令集合；

17、所述gcn層包括，基于用戶的歷史指令序列，采用元學(xué)習(xí)框架離線進(jìn)行規(guī)則引擎的預(yù)訓(xùn)練，建立用戶專屬規(guī)則模型；在用戶開始語(yǔ)音交互時(shí)，基于當(dāng)前指令語(yǔ)音清晰度評(píng)分和當(dāng)前指令中所有音節(jié)間隔的平均值，從歷史交互數(shù)據(jù)中采樣指令語(yǔ)音清晰度評(píng)分和當(dāng)前指令中所有音節(jié)間隔的平均值均相同的子樣本構(gòu)建支持集，對(duì)元模型參數(shù)進(jìn)行快速微調(diào)，生成當(dāng)前用戶個(gè)性化的規(guī)則引擎；針對(duì)每個(gè)候選指令，利用所述支持集提取語(yǔ)義-行為聯(lián)合特征向量；基于所述語(yǔ)義-行為聯(lián)合特征向量，構(gòu)建異構(gòu)圖譜；構(gòu)建異構(gòu)圖譜的節(jié)點(diǎn)集合包括：指令節(jié)點(diǎn)、目標(biāo)對(duì)象節(jié)點(diǎn)和上下文語(yǔ)義節(jié)點(diǎn)；設(shè)異構(gòu)圖譜中任意兩個(gè)節(jié)點(diǎn)i,j，對(duì)應(yīng)的語(yǔ)義-行為聯(lián)合特征向量為和，當(dāng)時(shí)，在i,j之間建立邊，邊的權(quán)重為；其中，表示特征相似度，表示設(shè)定的結(jié)構(gòu)連接閾值。

18、作為本發(fā)明所述的基于3d虛擬的語(yǔ)音交互方法的一種優(yōu)選方案，其中：通過多層圖卷積網(wǎng)絡(luò)對(duì)所述異構(gòu)圖譜進(jìn)行結(jié)構(gòu)傳播，獲取候選指令的圖結(jié)構(gòu)嵌入表示，并通過預(yù)測(cè)頭結(jié)構(gòu)輸出指令預(yù)測(cè)結(jié)果；將所述預(yù)測(cè)結(jié)果與真實(shí)交互行為標(biāo)簽進(jìn)行對(duì)比，識(shí)別預(yù)測(cè)誤差，當(dāng)所述預(yù)測(cè)誤差超過設(shè)定閾值時(shí)，提取所述候選指令的結(jié)構(gòu)風(fēng)險(xiǎn)因子，構(gòu)建結(jié)構(gòu)歸因矩陣；

19、所述結(jié)構(gòu)風(fēng)險(xiǎn)因子包括語(yǔ)義模糊性因子與路徑?jīng)_突性因子；所述語(yǔ)義模糊性因子為候選指令節(jié)點(diǎn)指向多個(gè)對(duì)象或語(yǔ)義節(jié)點(diǎn)時(shí)，語(yǔ)義集中程度的量化指標(biāo)；提取所述候選指令節(jié)點(diǎn)的所有邊及其對(duì)應(yīng)的邊權(quán)重，將所述邊權(quán)重集合歸一化為概率分布后，基于shannon熵計(jì)算概率分布的不確定性程度，將得到的熵值經(jīng)歸一化處理后作為語(yǔ)義模糊性因子的值；所述路徑?jīng)_突性因子表示候選指令節(jié)點(diǎn)所在路徑與圖結(jié)構(gòu)中相鄰候選路徑在結(jié)構(gòu)邊集上的重疊程度，定義節(jié)點(diǎn)所在的路徑為，提取的邊集；根據(jù)圖中與存在直接連接的指令節(jié)點(diǎn)構(gòu)造鄰居路徑集合，分別提取每條鄰居路徑的邊集，并計(jì)算與之間的結(jié)構(gòu)jaccard相似度，取結(jié)構(gòu)jaccard相似度中的最大值作為；

20、將所述結(jié)構(gòu)歸因矩陣作為調(diào)節(jié)因子，引入個(gè)性化規(guī)則引擎的參數(shù)更新路徑中，利用更新后的個(gè)性化規(guī)則引擎計(jì)算每個(gè)候選指令的個(gè)性化偏好評(píng)分，引導(dǎo)元模型在后續(xù)任務(wù)中規(guī)避結(jié)構(gòu)高風(fēng)險(xiǎn)區(qū)域；融合所述個(gè)性化偏好評(píng)分與語(yǔ)義適配得分，生成候選指令的綜合得分，并按得分高低進(jìn)行排序，選取前m個(gè)候選指令作為環(huán)境上下文候選指令集合；所述語(yǔ)義適配得分為圖卷積網(wǎng)絡(luò)結(jié)構(gòu)傳播后經(jīng)預(yù)測(cè)頭輸出的嵌入概率值，用于衡量候選指令與圖中目標(biāo)對(duì)象及上下文節(jié)點(diǎn)的結(jié)構(gòu)語(yǔ)義貼合程度；所述輸出層通過注意力機(jī)制，將所述初步候選指令集合、所述實(shí)時(shí)候選指令集合和所述環(huán)境上下文候選指令集合進(jìn)行加權(quán)融合，生成用戶下一步的候選預(yù)測(cè)指令集合。

21、一種基于3d虛擬的語(yǔ)音交互系統(tǒng)，其中：

22、數(shù)據(jù)模塊，接收用戶的實(shí)時(shí)語(yǔ)音并進(jìn)行預(yù)處理，建立語(yǔ)音識(shí)別模型，分析用戶的發(fā)音特征和清晰度；

23、優(yōu)化模塊，基于用戶的發(fā)音特征和清晰度，對(duì)語(yǔ)音識(shí)別模型進(jìn)行優(yōu)化；

24、預(yù)測(cè)模塊，結(jié)合用戶的歷史命令和當(dāng)前3d環(huán)境上下文，利用優(yōu)化后的語(yǔ)音識(shí)別模型生成用戶下一步的候選預(yù)測(cè)指令集合；所述候選預(yù)測(cè)指令集合包括多個(gè)候選指令；

25、加載模塊，識(shí)別每個(gè)候選指令的優(yōu)先級(jí)，將優(yōu)先級(jí)最高的候選指令作為用戶下一步的預(yù)測(cè)指令，優(yōu)先加載預(yù)測(cè)指令的相關(guān)資源，快速響應(yīng)用戶需求。

26、一種計(jì)算機(jī)設(shè)備，包括：存儲(chǔ)器和處理器；所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，其特征在于：所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)本發(fā)明中任一項(xiàng)所述的方法的步驟。

27、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于：所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明中任一項(xiàng)所述的方法的步驟。

28、本發(fā)明的有益效果：本發(fā)明提供的基于3d虛擬的語(yǔ)音交互方法通過結(jié)合優(yōu)化后的語(yǔ)音識(shí)別模型、用戶歷史命令和3d環(huán)境上下文，提出了一種多層深度模型的候選指令生成方法，顯著提升了語(yǔ)音交互的準(zhǔn)確性和實(shí)時(shí)響應(yīng)能力。通過多層深度學(xué)習(xí)結(jié)構(gòu)逐步推理和融合語(yǔ)音輸入、歷史數(shù)據(jù)和環(huán)境信息，本發(fā)明能夠動(dòng)態(tài)優(yōu)化指令生成過程，確保系統(tǒng)在復(fù)雜場(chǎng)景中更精確地預(yù)測(cè)用戶需求。此外，采用容錯(cuò)率調(diào)整機(jī)制和基于清晰度的優(yōu)化策略，使得系統(tǒng)能夠有效應(yīng)對(duì)發(fā)音不清晰或語(yǔ)音干擾等問題，提升了系統(tǒng)的魯棒性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：席魯江,耿建峰,錢海平,胡燕,張佳陽(yáng)
技術(shù)所有人：長(zhǎng)江龍新媒體有限公司
我是此專利的發(fā)明人

上一篇：一種零件輸送裝置的制作方法
下一篇：一種PET塑鋼帶加工輸送裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

一種基于3D虛擬的語(yǔ)音交互方法及系統(tǒng)與流程