本申請涉及計(jì)算機(jī),特別是涉及一種用于智能眼鏡的語音信息處理方法、裝置及智能眼鏡。
背景技術(shù):
1、當(dāng)前的智能眼鏡在多人實(shí)時(shí)對話的多語言翻譯場景下存在明顯的技術(shù)瓶頸。首先,這些設(shè)備在進(jìn)行語音識別時(shí),通常難以準(zhǔn)確區(qū)分不同說話者的身份。當(dāng)多名用戶同時(shí)或交替發(fā)言時(shí),智能眼鏡所依賴的語音識別系統(tǒng)無法有效地識別每個(gè)發(fā)言者是誰,從而導(dǎo)致語音內(nèi)容的歸屬混淆,影響后續(xù)的個(gè)性化處理和翻譯結(jié)果的準(zhǔn)確性。其次,盡管智能眼鏡所依賴的語音識別系統(tǒng)具備語音識別和翻譯功能,但當(dāng)對話涉及多種語言時(shí),智能眼鏡所依賴的語音識別系統(tǒng)無法實(shí)時(shí)識別并分別翻譯多個(gè)說話者所使用的不同語言,限制了其在復(fù)雜、多語言交互場景中的實(shí)用性。因此,當(dāng)前智能眼鏡面臨著無法實(shí)現(xiàn)說話者身份識別及多語言同步翻譯的雙重挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、基于上述問題,本申請?zhí)峁┝艘环N用于智能眼鏡的語音信息處理方法、裝置及智能眼鏡,目的是實(shí)現(xiàn)準(zhǔn)確的說話者身份識別和多語言同步翻譯,以提升智能眼鏡在多人實(shí)時(shí)對話中的實(shí)用性。
2、本申請實(shí)施例公開了如下技術(shù)方案:
3、一種用于智能眼鏡的語音信息處理方法,其特征在于,所述方法包括:
4、接收智能眼鏡采集的標(biāo)注有記錄時(shí)間段的環(huán)境音頻;所述環(huán)境音頻包括至少一個(gè)發(fā)言用戶的發(fā)言;
5、利用預(yù)先構(gòu)建的多模態(tài)轉(zhuǎn)換模型,對所述環(huán)境音頻進(jìn)行多模態(tài)解析翻譯處理,得到多個(gè)輸出項(xiàng);每個(gè)輸出項(xiàng)包括語言詞元和該語言詞元對應(yīng)的音色向量;所述語言詞元標(biāo)注有時(shí)間標(biāo)記,時(shí)間標(biāo)記與所述記錄時(shí)間段相對應(yīng);
6、針對每個(gè)輸出項(xiàng),基于包含的音色向量在音色庫中進(jìn)行檢索,確認(rèn)該輸出項(xiàng)對應(yīng)的發(fā)言用戶;
7、針對同一發(fā)言用戶對應(yīng)的所有輸出項(xiàng)中的語言詞元,基于各個(gè)輸出項(xiàng)對應(yīng)的時(shí)間標(biāo)記進(jìn)行時(shí)序拼接,得到該發(fā)言用戶的目標(biāo)數(shù)據(jù);所述目標(biāo)數(shù)據(jù)標(biāo)注有發(fā)言時(shí)間,所述發(fā)言時(shí)間與所述目標(biāo)數(shù)據(jù)中首個(gè)語言詞元的時(shí)間標(biāo)記對應(yīng),以指示所述目標(biāo)數(shù)據(jù)的起始時(shí)間;
8、將各個(gè)發(fā)言用戶對應(yīng)的目標(biāo)數(shù)據(jù)通過所述智能眼鏡進(jìn)行輸出和顯示。
9、一種用于智能眼鏡的語音信息處理裝置,所述裝置包括:
10、接收單元,用于接收智能眼鏡采集的標(biāo)注有記錄時(shí)間段的環(huán)境音頻;所述環(huán)境音頻包括至少一個(gè)發(fā)言用戶的發(fā)言;
11、輸出項(xiàng)獲取單元,用于利用預(yù)先構(gòu)建的多模態(tài)轉(zhuǎn)換模型,對所述環(huán)境音頻進(jìn)行多模態(tài)解析翻譯處理,得到多個(gè)輸出項(xiàng);每個(gè)輸出項(xiàng)包括語言詞元和該語言詞元對應(yīng)的音色向量;所述語言詞元標(biāo)注有時(shí)間標(biāo)記,時(shí)間標(biāo)記與所述記錄時(shí)間段相對應(yīng);
12、第二發(fā)言用戶確認(rèn)單元,用于針對每個(gè)輸出項(xiàng),基于包含的音色向量在音色庫中進(jìn)行檢索,確認(rèn)該輸出項(xiàng)對應(yīng)的發(fā)言用戶;
13、轉(zhuǎn)換內(nèi)容生成單元,用于針對同一發(fā)言用戶對應(yīng)的所有輸出項(xiàng)中的語言詞元,基于各個(gè)輸出項(xiàng)對應(yīng)的時(shí)間標(biāo)記進(jìn)行時(shí)序拼接,得到該發(fā)言用戶的目標(biāo)數(shù)據(jù);所述目標(biāo)數(shù)據(jù)標(biāo)注有發(fā)言時(shí)間,所述發(fā)言時(shí)間與所述目標(biāo)數(shù)據(jù)中首個(gè)語言詞元的時(shí)間標(biāo)記對應(yīng),以指示所述目標(biāo)數(shù)據(jù)的起始時(shí)間;
14、輸出顯示單元,用于將各個(gè)發(fā)言用戶對應(yīng)的目標(biāo)數(shù)據(jù)通過所述智能眼鏡進(jìn)行輸出和顯示。
15、一種智能眼鏡,所述智能眼鏡包括用于識別用戶語音和用戶手動配置信息的信息處理系統(tǒng),所述信息處理系統(tǒng)包括:顯示模塊、傳輸模塊、傳感器和控制模塊;所述顯示模塊包括智能顯示鏡片;所述傳感器包括麥克風(fēng)和揚(yáng)聲器模塊;?所述控制模塊包括所述智能眼鏡的計(jì)算單元和用戶交互控制單元
16、所述傳輸模塊,用于發(fā)送環(huán)境音頻、注冊語音和用戶檔案,并接收轉(zhuǎn)換音頻和轉(zhuǎn)換文本;
17、所述智能顯示鏡片,用于呈現(xiàn)轉(zhuǎn)換文本和交互信息;
18、所述麥克風(fēng),用于采集環(huán)境音頻和用戶語音輸入;
19、所述揚(yáng)聲器模塊,用于播放轉(zhuǎn)換音頻及提示音;
20、所述計(jì)算單元,用于處理所述傳感器采集的數(shù)據(jù);
21、所述用戶交互控制單元,用于接收用戶輸入指令和用戶檔案。
22、相較于現(xiàn)有技術(shù),本申請具有以下有益效果:
23、本申請實(shí)施例首先接收智能眼鏡采集的標(biāo)注有記錄時(shí)間段的環(huán)境音頻。然后,利用預(yù)先構(gòu)建的多模態(tài)轉(zhuǎn)換模型對環(huán)境音頻進(jìn)行多模態(tài)解析翻譯處理,得到多個(gè)輸出項(xiàng),每個(gè)輸出項(xiàng)包括語言詞元和音色向量。這些輸出項(xiàng)的時(shí)間標(biāo)記與記錄時(shí)間段中的具體時(shí)間點(diǎn)相對應(yīng),確保了詞元在環(huán)境音頻中的具體時(shí)間位置。針對每個(gè)輸出項(xiàng),基于其音色向量在音色庫中檢索確認(rèn)對應(yīng)的發(fā)言用戶。接著,針對同一發(fā)言用戶的所有輸出項(xiàng),基于各個(gè)輸出項(xiàng)對應(yīng)的時(shí)間標(biāo)記進(jìn)行時(shí)序拼接,生成該發(fā)言用戶的目標(biāo)數(shù)據(jù)。最后,將各個(gè)發(fā)言用戶的目標(biāo)數(shù)據(jù)通過智能眼鏡進(jìn)行輸出和顯示。
24、本申請通過利用多模態(tài)轉(zhuǎn)換模型,將采集的環(huán)境音頻轉(zhuǎn)換為帶有時(shí)間標(biāo)記的語言詞元及音色向量,實(shí)現(xiàn)了對多說話者語音內(nèi)容的精準(zhǔn)識別和翻譯。通過基于音色向量在音色庫中的檢索,能夠準(zhǔn)確確認(rèn)每個(gè)輸出項(xiàng)對應(yīng)的具體發(fā)言用戶,有效解決了傳統(tǒng)設(shè)備中說話者身份混淆的問題。同時(shí),基于時(shí)間標(biāo)記將同一用戶的語言詞元內(nèi)容進(jìn)行時(shí)序拼接,生成連續(xù)且同步的轉(zhuǎn)換結(jié)果,保證了翻譯內(nèi)容的連貫性和時(shí)序準(zhǔn)確性。
1.一種用于智能眼鏡的語音信息處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多模態(tài)轉(zhuǎn)換模型有多個(gè),每個(gè)多模態(tài)轉(zhuǎn)換模型對應(yīng)并專用于處理單一且特定的輸出語種;
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述音色庫包括多個(gè)用戶聲紋記錄條目;每條所述用戶聲紋記錄條目包括用戶標(biāo)識id、用戶聲紋特征和用戶檔案。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述針對每個(gè)輸出項(xiàng),基于包含的音色向量在音色庫中進(jìn)行檢索,確認(rèn)該輸出項(xiàng)對應(yīng)的發(fā)言用戶,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,若所述多個(gè)相似度中不存在大于相似度閾值的相似度,所述方法還包括:
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多模態(tài)轉(zhuǎn)換模型包括多模態(tài)編碼單元和多模態(tài)解碼單元;所述多模態(tài)解碼單元包括具有多模態(tài)跨語言理解功能的多個(gè)解碼單元;所述多個(gè)解碼單元由多個(gè)不同的基礎(chǔ)解碼單元共同逐步進(jìn)行語音合成訓(xùn)練、語言翻譯訓(xùn)練和跨語種轉(zhuǎn)換訓(xùn)練得到;所述多模態(tài)編碼單元通過基礎(chǔ)編碼單元逐步進(jìn)行文本音頻對齊訓(xùn)練、音色對齊訓(xùn)練和語種對齊訓(xùn)練得到;
9.一種用于智能眼鏡的語音信息處理裝置,其特征在于,所述裝置包括:
10.一種智能眼鏡,其特征在于,所述智能眼鏡包括用于識別用戶語音和用戶手動配置信息的信息處理系統(tǒng),所述信息處理系統(tǒng)包括:顯示模塊、傳輸模塊、傳感器和控制模塊;所述顯示模塊包括智能顯示鏡片;所述傳感器包括麥克風(fēng)和揚(yáng)聲器模塊;?所述控制模塊包括所述智能眼鏡的計(jì)算單元和用戶交互控制單元