日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

基于雙重跨模態(tài)注意力的表情運動單元檢測方法

文檔序號:42170275發(fā)布日期:2025-06-13 16:27閱讀:27來源:國知局

本發(fā)明屬于表情運動單元檢測,主要涉及一種基于雙重跨模態(tài)注意力的表情運動單元檢測方法。


背景技術(shù):

1、面部表情是人類傳遞情感的重要途經(jīng)。為了全面且客觀的描述人臉表情,心理學(xué)家ekman等人構(gòu)建了面部動作編碼系統(tǒng)(facial?action?coding?system,facs)。該系統(tǒng)基于解剖學(xué)原理,將復(fù)雜多樣的面部表情分解為可量化的人臉局部肌肉運動,即表情運動單元(action?unit,au)。這些運動單元通過不同的組合方式,能夠精確刻畫出各類面部表情,從而揭示個體的情感狀態(tài)。因此,表情運動單元檢測是計算機(jī)視覺和情感計算領(lǐng)域的研究重點,其目標(biāo)是從圖像中自動識別表情運動單元的激活狀態(tài),進(jìn)而分析面部表情所傳遞的情感信息。這種自動化的面部表情檢測技術(shù)在人機(jī)交互以及心理健康評估等領(lǐng)域展現(xiàn)出廣泛的應(yīng)用前景。

2、表情運動單元檢測任務(wù)面臨標(biāo)注數(shù)據(jù)不足和個體差異顯著等挑戰(zhàn)。具體而言:一)表情運動單元的數(shù)據(jù)標(biāo)注需要專業(yè)知識且耗時較長,導(dǎo)致可用于模型訓(xùn)練的標(biāo)注樣本數(shù)量有限,嚴(yán)重制約了模型性能;二)不同個體的面部特征存在差異,且易受光照、姿態(tài)、遮擋等因素的干擾,進(jìn)一步增加了表情運動單元檢測的難度。

3、現(xiàn)有的表情運動單元檢測方法主要可分為“基于關(guān)聯(lián)學(xué)習(xí)”和“基于區(qū)域?qū)W習(xí)”兩類,具體如下:

4、1)基于關(guān)聯(lián)學(xué)習(xí)的表情運動單元檢測方法:

5、公開號為cn114842542a、cn116416667a、cn117765596a,名稱為基于自適應(yīng)注意力與時空關(guān)聯(lián)的面部動作單元識別方法及裝置、基于動態(tài)關(guān)聯(lián)信息嵌入的面部動作單元檢測方法、一種基于多任務(wù)學(xué)習(xí)的面部動作單元檢測模型建立方法的發(fā)明專利申請,其主要技術(shù)手段包括:通過構(gòu)建圖注意力網(wǎng)絡(luò)、動態(tài)更新的au關(guān)聯(lián)圖譜、自適應(yīng)時空圖卷積神經(jīng)網(wǎng)絡(luò),以捕捉au之間的依賴關(guān)系。這些方法采用圖神經(jīng)網(wǎng)絡(luò)建模au間的關(guān)聯(lián)性,嚴(yán)重依賴數(shù)據(jù)集中的標(biāo)簽分布,模型泛化能力低。

6、2)基于區(qū)域?qū)W習(xí)的表情運動單元檢測方法:

7、公開號為cn117576765a、cn115862120a、cn111626113a,名稱為一種基于分層特征對齊的面部動作單元檢測模型構(gòu)建方法、可分離變分自編碼器解耦的面部動作單元識別方法及設(shè)備、一種基于面部動作單元的面部表情識別方法和裝置的發(fā)明專利申請,其主要技術(shù)手段包括:通過卷積神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等技術(shù)提升模型對關(guān)鍵局部信息的感知能力。由于不同個體的面部特征存在顯著差異,以及面部局部區(qū)域的動作變化迅速且微小,這些方法在提高對關(guān)鍵局部信息捕捉能力的同時,容易引入噪聲,導(dǎo)致檢測準(zhǔn)確率下降。


技術(shù)實現(xiàn)思路

1、為解決現(xiàn)有技術(shù)過度依賴有限的標(biāo)注數(shù)據(jù)集導(dǎo)致魯棒性不足的問題,本發(fā)明提供一種基于雙重跨模態(tài)注意力的表情運動單元檢測方法。

2、為了達(dá)成上述目的,本發(fā)明的解決方案是:

3、一種基于雙重跨模態(tài)注意力的表情運動單元檢測方法,包括:

4、步驟1,獲取包括圖像數(shù)據(jù)和文本數(shù)據(jù)的多模態(tài)表情運動單元au數(shù)據(jù)集d;

5、步驟2,構(gòu)建多模態(tài)au檢測網(wǎng)絡(luò);

6、步驟3,將au數(shù)據(jù)集d劃分為訓(xùn)練集和驗證集,對多模態(tài)au檢測網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測試,獲得多模態(tài)au檢測模型;

7、步驟4,利用多模態(tài)au檢測模型,實現(xiàn)au檢測。

8、優(yōu)選地,所述多模態(tài)表情運動單元au數(shù)據(jù)集的獲取步驟包括:

9、步驟1.1,獲取包括面部圖像及對應(yīng)標(biāo)簽的圖像數(shù)據(jù)集v;

10、步驟1.2,基于面部動作編碼系統(tǒng)facs手冊,收集au的文本描述,獲取由au的文本描述構(gòu)成的文本數(shù)據(jù)集t;

11、步驟1.3,整合圖像數(shù)據(jù)集v和文本數(shù)據(jù)集t,形成包括圖像和文本數(shù)據(jù)的au數(shù)據(jù)集d。

12、優(yōu)選地,所述多模態(tài)au檢測網(wǎng)絡(luò)的構(gòu)建步驟包括:

13、構(gòu)建視覺編碼器對圖像數(shù)據(jù)進(jìn)行特征提取,得到全局視覺特征;

14、構(gòu)建n個參數(shù)獨立的局部感知注意力矩陣,以全局視覺特征為輸入,得到對應(yīng)的n個局部視覺特征;

15、構(gòu)建au內(nèi)部編碼器,以文本數(shù)據(jù)為輸入,得到單詞級特征表示;對單詞級特征表示進(jìn)行池化操作,得到句子級特征表示;將句子級特征表示輸入au交互語義編碼器,得到文本特征表示;

16、以全局視覺特征作為查詢,文本特征表示作為鍵和值,利用跨模態(tài)注意力機(jī)制計算全局交互特征;

17、以局部視覺特征作為查詢,文本特征表示作為鍵和值,利用跨模態(tài)注意力機(jī)制計算局部交互特征;

18、將全局交互特征、局部交互特征與局部視覺特征進(jìn)行特征融合,得到融合特征;

19、構(gòu)建au分類器,以融合特征為輸入,得到對應(yīng)的預(yù)測概率。

20、優(yōu)選地,采用基于余弦相似度差異性損失函數(shù)計算損失:

21、

22、其中,i表示單位矩陣,表示單詞級特征表示中單詞的數(shù)量,表示單詞級特征表示。

23、優(yōu)選地,所述跨模態(tài)注意力機(jī)制定義為:

24、,

25、其中,為作為查詢的模態(tài)特征,為作為鍵和值的模態(tài)特征,,,是可學(xué)習(xí)的參數(shù)矩陣,為縮放因子。

26、優(yōu)選地,所述多模態(tài)au檢測網(wǎng)絡(luò)的構(gòu)建步驟還包括:

27、對n個局部視覺特征執(zhí)行全局平均池化操作,得到特征集合;

28、構(gòu)建圖神經(jīng)網(wǎng)絡(luò),以每個au的局部視覺特征作為圖神經(jīng)網(wǎng)絡(luò)的節(jié)點,并定義任意兩個節(jié)點之間的余弦相似度為圖神經(jīng)網(wǎng)絡(luò)的邊;

29、對圖神經(jīng)網(wǎng)絡(luò)的每個節(jié)點,選擇相似度最大的k個鄰居節(jié)點,并通過圖卷積聚合鄰居節(jié)點信息,獲取每個節(jié)點的精細(xì)化特征表示;

30、構(gòu)建au分類器,以節(jié)點的精細(xì)化特征表示作為輸入,得到對應(yīng)的預(yù)測概率。

31、優(yōu)選地,采用帶權(quán)重的非對稱損失函數(shù)計算損失:

32、

33、其中,、和分別表示第個au的預(yù)測概率、真實值和損失權(quán)重。

34、優(yōu)選地,的計算公式為:,其中表示訓(xùn)練集中的第個au的出現(xiàn)頻率,表示訓(xùn)練集中的第個au的出現(xiàn)頻率。

35、本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),所述計算可讀存儲介質(zhì)上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述基于雙重跨模態(tài)注意力的表情運動單元檢測方法的步驟。

36、本發(fā)明還提供一種電子設(shè)備,包括:

37、存儲器,用于存儲計算機(jī)程序;

38、處理器,用于執(zhí)行所述計算機(jī)程序時實現(xiàn)上述基于雙重跨模態(tài)注意力的表情運動單元檢測方法的步驟。

39、本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點是:本發(fā)明實現(xiàn)了au視覺模態(tài)和文本模態(tài)之間的深度交互,特別地,通過視覺編碼器、局部感知注意力矩陣和圖卷積網(wǎng)絡(luò)獲得精細(xì)化的多粒度視覺特征表示;利用多層次編碼過程,先建模au描述中單詞間的語義關(guān)聯(lián),后建模不同au描述之間的句子級的語義關(guān)聯(lián),有效挖掘au描述中的豐富語義信息,顯著增強(qiáng)au文本特征的表達(dá)能力;設(shè)計了一種全局與局部協(xié)同的雙重跨模態(tài)注意力策略,以實現(xiàn)視覺與文本模態(tài)深度交互,幫助模型更全面地理解視覺和文本模態(tài)之間的復(fù)雜語義關(guān)聯(lián),增強(qiáng)au特征表示。最終,通過結(jié)合多粒度視覺特征和多層次文本特征,以及雙重跨模態(tài)注意力的協(xié)同作用,構(gòu)建了一個強(qiáng)大的深度學(xué)習(xí)框架,有效提升表情運動單元檢測的性能。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1