中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

一種于多尺度空洞注意力的自學(xué)習(xí)多模態(tài)情緒識(shí)別方法

文檔序號(hào):42592394發(fā)布日期:2025-07-29 17:45閱讀:20來源:國知局

本發(fā)明屬于計(jì)算機(jī)視覺與模式識(shí)別,具體為一種于多尺度空洞注意力的自學(xué)習(xí)多模態(tài)情緒識(shí)別方法。


背景技術(shù):

1、情緒不僅綜合了人類的各種感覺、思想和行為的生理狀態(tài),還是各種外部刺激產(chǎn)生的心理和生理反應(yīng)。準(zhǔn)確地識(shí)別情緒在醫(yī)療領(lǐng)域、智能家居、自動(dòng)駕駛、商業(yè)和護(hù)理陪伴等領(lǐng)域都具有重要意義。

2、現(xiàn)有的情緒識(shí)別研究按照采集信號(hào)的類型分成了兩類:基于行為表現(xiàn)層面的情緒識(shí)別和基于神經(jīng)生理信號(hào)的情緒識(shí)別。行為表現(xiàn)層面的信號(hào)易于采集,如面部表情可以直觀地表現(xiàn)一個(gè)人的情緒狀態(tài),但帶有主觀色彩,被采集者可以偽裝隱藏真實(shí)的情緒感受,影響情緒識(shí)別的效果。而神經(jīng)生理信號(hào),如腦電信號(hào)雖然采集條件極為嚴(yán)格,易受噪聲干擾,但由于其難以被掩飾,因而具有可靠的識(shí)別結(jié)果。由于情緒是一種復(fù)雜的心理生理現(xiàn)象,僅靠單一信號(hào)難以建立健全的情緒識(shí)別模型,多模態(tài)情緒識(shí)別研究逐漸成為該領(lǐng)域的研究熱點(diǎn)和重要發(fā)展方向。然而腦電信號(hào)和面部表情不同模態(tài)的重要性會(huì)隨著情緒的波動(dòng)產(chǎn)生變化、每種模態(tài)信號(hào)在任務(wù)中的表現(xiàn)力不同,決策級(jí)融合時(shí)存在各個(gè)模態(tài)置信度不同的問題。

3、此外,人臉面部表情由多個(gè)不同的面部動(dòng)作單元(action?units,au)構(gòu)成,這些au的重要性不同,例如嘴巴、眼睛處的動(dòng)作單元通常會(huì)比鼻子處的重要。且表情中存在不同距離的依賴關(guān)系,如眉毛與眼睛的距離比較近,與嘴巴的距離比較遠(yuǎn),普通的神經(jīng)網(wǎng)絡(luò)無法精確捕捉到關(guān)鍵au特征以及不同距離的au之間的關(guān)聯(lián)性,且會(huì)引入一些無用信息。有研究采用多尺度網(wǎng)絡(luò)挖掘不同距離的信息。zhao等提出了一種全局多尺度局部注意力網(wǎng)絡(luò)(ma-net)用于野外環(huán)境下的fer,通過融合全局多尺度特征和局部注意力特征,有效解決了遮擋和非正面姿態(tài)問題。li等提出了一種輕量級(jí)的swin?transformer與多尺度特征融合模塊組合的人臉表情識(shí)別方法,減少了模型的參數(shù)數(shù)量,實(shí)現(xiàn)模型的輕量化。倪錦園等利用金字塔卷積結(jié)構(gòu)中不同層次的特征圖來獲取不同尺度的信息。以上獲取多尺度信息的方法中,都是提取連續(xù)區(qū)域的多尺度特征。然而,表情中也存在一些不連續(xù)的信息,若采用上述方式提取多尺度特征,則會(huì)引入一些無用信息。目前對(duì)表情多尺度信息的研究主要考慮不同大小的區(qū)域,卻很少考慮不連續(xù)區(qū)域的交互。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種于多尺度空洞注意力的自學(xué)習(xí)多模態(tài)情緒識(shí)別方法,通過兩個(gè)并行的網(wǎng)絡(luò)分支分別對(duì)面部表情和腦電信號(hào)進(jìn)行情緒識(shí)別,隨后在決策級(jí)融合兩個(gè)模態(tài)的輸出得到最終的分類結(jié)果,能夠解決面部各個(gè)基本動(dòng)作單元重要性不同、關(guān)鍵動(dòng)作單元之間距離不同導(dǎo)致識(shí)別精度不高的問題,以及決策級(jí)融合時(shí)各個(gè)模態(tài)置信度不同的問題。

2、本發(fā)明為解決其技術(shù)問題所采用的技術(shù)方案是:

3、一種于多尺度空洞注意力的自學(xué)習(xí)多模態(tài)情緒識(shí)別方法,步驟包括:

4、對(duì)獲取的面部表情圖像進(jìn)行預(yù)處理后輸入多尺度空洞注意力卷積模塊,多尺度空洞注意力卷積模塊通過并行的三分支卷積結(jié)構(gòu)提取不同尺度特征,所述三分支卷積結(jié)構(gòu)設(shè)置為每個(gè)分支卷積核大小相同、空洞率互不相同;三分支卷積結(jié)構(gòu)輸出的特征在通道維度拼接后,經(jīng)注意力機(jī)制校準(zhǔn),得到增強(qiáng)后的面部表情特征圖送入全連接層進(jìn)行情緒識(shí)別;

5、將原始腦電信號(hào)輸入時(shí)頻空三維特征提取網(wǎng)絡(luò),時(shí)頻空三維特征提取網(wǎng)絡(luò)將原始腦電信號(hào)分解后進(jìn)行微分熵特征計(jì)算,微分熵特征計(jì)算結(jié)果經(jīng)包括頻譜注意力模塊、空間注意力模塊和時(shí)間注意力模塊的全局注意力模塊處理后輸出時(shí)頻空多維特征表示,并通過全連接層進(jìn)行情緒識(shí)別;

6、將面部表情情緒識(shí)別結(jié)果與腦電信號(hào)情緒識(shí)別結(jié)果輸入自學(xué)習(xí)權(quán)重模塊,通過動(dòng)態(tài)加權(quán)融合生成最終情緒識(shí)別結(jié)果。

7、進(jìn)一步的,所述多尺度空洞注意力卷積模塊內(nèi)執(zhí)行的具體操作為:預(yù)處理后的面部表情圖像數(shù)據(jù)經(jīng)過兩個(gè)卷積組,每個(gè)卷積組包含兩層卷積層,以提取圖像數(shù)據(jù)中的全局低級(jí)特征;全局低級(jí)特征輸入至三分支卷積結(jié)構(gòu)內(nèi),三個(gè)分支提取不同尺度的特征,在通道維度上進(jìn)行拼接,合并成一個(gè)綜合特征圖;合并后的綜合特征圖并行經(jīng)過通道注意力機(jī)制和空間注意力機(jī)制的校準(zhǔn);最后通道注意力機(jī)制和空間注意力機(jī)制的輸出特征圖進(jìn)行融合,得到最終增強(qiáng)后的特征圖;增強(qiáng)后的特征圖經(jīng)過一個(gè)卷積組以及最大池化層和批歸一化層后送入全連接層進(jìn)行情緒識(shí)別。

8、進(jìn)一步的,所述三分支卷積結(jié)構(gòu)的具體設(shè)置為:第一分支使用3×3卷積核,空洞率為1,;第二分支使用3×3卷積核,空洞率為2,;第三分支使用3×3卷積核,空洞率為3。

9、進(jìn)一步的,通道注意力機(jī)制首先對(duì)綜合特征圖進(jìn)行全局平均池化,得到每個(gè)通道的全局特征,通過兩個(gè)全連接層學(xué)習(xí)每個(gè)通道的重要性權(quán)重,然后將這些權(quán)重與原始綜合特征圖逐通道相乘,實(shí)現(xiàn)通道加權(quán);空間注意力機(jī)制對(duì)綜合特征圖在通道維度上進(jìn)行全局池化,得到空間特征圖,空間特征圖通過一個(gè)1×1卷積和sigmoid激活函數(shù),學(xué)習(xí)每個(gè)空間位置的重要性權(quán)重,將這些權(quán)重與原始綜合特征圖逐元素相乘,實(shí)現(xiàn)空間加權(quán)。

10、進(jìn)一步的,所述時(shí)頻空三維特征提取網(wǎng)絡(luò)內(nèi)執(zhí)行的具體操作為:首先將原始腦電信號(hào)按照每段t秒分為n段等長的信號(hào),然后對(duì)每段信號(hào)使用帶通濾波的方式將其分解到四個(gè)頻帶中,對(duì)每段信號(hào)在每個(gè)頻帶上分別計(jì)算其0.5s的微分熵特征;根據(jù)32導(dǎo)電極相對(duì)位置將微分熵特征矢量轉(zhuǎn)化為2d圖,構(gòu)造出一個(gè)8×9的二維矩陣,其中未放置電極的位置使用零補(bǔ)充,然后將不同頻帶的二維微分熵特征圖堆疊到一起,得到4×8×9的三維特征矩陣;三維特征矩陣經(jīng)頻譜注意力模塊、空間注意力模塊、時(shí)間注意力模塊處理后輸出時(shí)頻空多維特征表示,并通過全連接層得到最終情緒識(shí)別結(jié)果。

11、進(jìn)一步的,所述自學(xué)習(xí)權(quán)重模塊內(nèi)執(zhí)行的具體操作為:將面部表情情緒識(shí)別結(jié)果與腦電信號(hào)情緒識(shí)別結(jié)果沿特征維度拼接,得到融合后的特征表示,通過多層全連接網(wǎng)絡(luò)對(duì)融合后的特征表示進(jìn)行非線性變換,將非線性變換后的特征重塑為序列形式,輸入到多頭自注意力層進(jìn)行處理,該層通過多個(gè)注意力頭同時(shí)對(duì)特征序列進(jìn)行加權(quán)求和,每個(gè)注意力頭獨(dú)立計(jì)算查詢、鍵和值的線性變換,動(dòng)態(tài)學(xué)習(xí)面部表情模態(tài)和腦電信號(hào)模態(tài)對(duì)情緒分類的貢獻(xiàn)權(quán)重,所有注意力頭的輸出拼接后經(jīng)過線性變換得到最終的加權(quán)系數(shù);最后根據(jù)得到的加權(quán)系數(shù)在不同情緒下自適應(yīng)加權(quán)各個(gè)模態(tài)的信息,再次經(jīng)過一系列全連接層將特征映射到目標(biāo)分類維度,并通過激活函數(shù)輸出分類識(shí)別概率。

12、本發(fā)明的有益效果包括:

13、本發(fā)明設(shè)計(jì)了一個(gè)多尺度空洞注意力卷積模塊來進(jìn)行面部表情情緒識(shí)別,通過應(yīng)用不同的空洞率在不增加額外參數(shù)量的情況下增加感受野大小,實(shí)現(xiàn)圖像細(xì)節(jié)信息與全局特征的聯(lián)合提取,并引入通道注意力機(jī)制和空間注意力機(jī)制增強(qiáng)了面部情緒特征表達(dá),能夠?qū)W習(xí)非連續(xù)、跨區(qū)域的面部情緒信息,提升模型性能。對(duì)于腦電信號(hào)的情緒識(shí)別,本發(fā)明采用時(shí)頻空三維特征提取網(wǎng)絡(luò),能夠同時(shí)保留腦電信號(hào)中的時(shí)域、空間和頻域特征,結(jié)合全局注意力機(jī)制,從多個(gè)維度對(duì)腦電信號(hào)進(jìn)行全局特征提取,以最大程度的利用腦電信號(hào)的情感信息。針對(duì)腦電信號(hào)和面部表情不同模態(tài)的重要性會(huì)隨著情緒的波動(dòng)產(chǎn)生變化、每種模態(tài)信號(hào)在任務(wù)中的表現(xiàn)力不同的問題,本發(fā)明設(shè)計(jì)了一個(gè)自學(xué)習(xí)權(quán)重模塊進(jìn)行決策級(jí)融合,使得網(wǎng)絡(luò)能夠動(dòng)態(tài)的調(diào)整模態(tài)權(quán)重,自行學(xué)習(xí)兩個(gè)模態(tài)的決策分布,關(guān)注到更加有利的信息,防止低置信度模態(tài)干擾識(shí)別結(jié)果,提高多模態(tài)情緒識(shí)別的準(zhǔn)確率和魯棒性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1