日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

針對低質視頻的人體行為識別方法、裝置、設備及介質

文檔序號:42132238發布日期:2025-06-10 17:27閱讀:26來源:國知局

本技術涉及計算機視覺,特別涉及一種針對低質視頻的人體行為識別方法、裝置、設備及介質。


背景技術:

1、隨著智能設備和監控系統的廣泛應用,人體行為識別技術在公共安全、醫療監管和智能家居等領域發揮著重要作用。然而,由于設備老化及其他不可控因素,拍攝視頻可能存在失焦、過曝、低分辨率等情況。如何在這樣的低質視頻上保持人體行為識別的準確率成為關鍵挑戰。現有的行為識別方法普遍是先使用公開的目標檢測算法(如yolo)檢測出人體,然后再識別該人體的人體行為。但是,在對低質量視頻進行人體行為識別時,會因為視頻質量差而影響人體檢測的準確性,進而影響識別到的人體行為的準確性。

2、因而現有技術還有待改進和提高。


技術實現思路

1、本技術要解決的技術問題在于,針對現有技術的不足,提供一種針對低質視頻的人體行為識別方法、裝置、設備及介質。

2、為了解決上述技術問題,本技術第一方面提供了一種針對低質視頻的人體行為識別方法,其中,所述的針對低質視頻的人體行為識別方法具體包括:

3、獲取待識別視頻序列中的每幀視頻幀與其對應的前序視頻幀間的前序幀差異圖,與其對應的后序視頻幀間的后序幀差異圖和與所述待識別視頻序列的平均幀間的平均幀差異圖;

4、對每幀視頻幀對應的前序幀差異圖、后序幀差異圖以及平均幀差異圖進行跨幀語義聚合,以得到每幀視頻幀對應的特征表示;

5、基于待識別視頻序列中的每幀視頻幀對應特征表示,確定所述待識別視頻序列的行為標簽。

6、所述的針對低質視頻的人體行為識別方法,其中,所述獲取待識別視頻序列中的每幀視頻幀與其對應的前序視頻幀間的前序幀差異圖,與其對應的后序視頻幀間的后序幀差異圖和與所述待識別視頻序列的平均幀間的平均幀差異圖具體包括:

7、獲取所述待識別視頻序列的平均幀以及每幀視頻幀的前序視頻幀和后序視頻幀;

8、分別對每幀視頻幀與每幀視頻幀的前序視頻幀、每幀視頻幀的視頻幀和所述平均幀進行幀差異操作,以得到每幀視頻幀對應的前序幀差異圖、后序幀差異圖和平均幀差異圖。

9、所述的針對低質視頻的人體行為識別方法,其中,所述視頻幀的前序視頻幀和后序視頻幀的獲取過程具體包括:

10、讀取所述視頻幀的主體占比和運動幅度,并基于所述主體占比以及所述運動幅度確定所述視頻幀對應的幀間隔;

11、按照所述幀間隔在所述待識別視頻序列中為所述視頻幀選取前序視頻幀和后序視頻幀。

12、所述的針對低質視頻的人體行為識別方法,其中,所述對每幀視頻幀對應的前序幀差異圖、后序幀差異圖以及平均幀差異圖進行跨幀語義聚合,以得到每幀視頻幀對應的特征表示具體包括:

13、獲取每幀視頻幀對應的前序幀差異圖的前序權重、后序幀差異圖對應的后序權重以及平均幀差異圖對應的平均權重;

14、基于前序權重、后序權重以及平均權重將每幀視頻幀對應的前序幀差異圖、后序幀差異圖以及平均幀差異圖進行加權結合,得到每幀視頻幀的融合幀差異圖;

15、對每幀視頻幀的融合幀差異圖進行特征提取,以得到每幀視頻幀的特征表示。

16、所述的針對低質視頻的人體行為識別方法,其中,所述基于待識別視頻序列中的每幀視頻幀對應特征表示,確定所述待識別視頻序列的行為標簽具體包括:

17、獲取所述待識別視頻序列對應的文本信息,并通過clip模型中的文本編碼器確定所述文本信息對應的文本表示;

18、通過clip模型中的視頻編碼器基于所述待識別視頻序列中的每幀視頻幀對應的特征表示確定高維特征表示,并基于每幀視頻幀的高維特征表示確定全局視頻表示;

19、基于所述文本表示以及所述全局視頻表示,確定所述待識別視頻序列的行為標簽。

20、所述的針對低質視頻的人體行為識別方法,其中,所述基于每幀視頻幀的高維特征表示確定全局視頻表示具體包括:

21、將每幀視頻幀對應的高維特征表示輸入跨幀交互transformer,通過所述跨幀交互模塊輸出每幀視頻幀對應的時空特征表示;

22、將每幀視頻幀的時空特征表示輸入時空融合模塊,通過所述時空融合模塊輸出全局視頻表示。

23、所述的針對低質視頻的人體行為識別方法,其中,所述基于所述文本表示以及所述全局視頻表示,確定所述待識別視頻序列的行為標簽具體包括:

24、將所述文本表示以及所述全局視頻表示輸入視頻特定提示生成器;

25、通過所述視頻特定提示生成器中的自注意力機制捕捉文本表示與全局視頻表示間的依賴關聯以形成中間文本表示;

26、通過所述視頻特定提示生成器中的前饋網絡基于所述中間文本表示和所述全局視頻表示確定視頻特定提示;

27、將所述視頻特定提示與所述文本表示進行融合,以得到增強文本表示;

28、計算所述增強文本表示以及所述全局視頻表示的相似度,并基于所述相似度確定所述待識別視頻序列的行為標簽。

29、本技術第二方面提供了一種針對低質視頻的人體行為識別裝置,其中,所述的針對低質視頻的人體行為識別裝置具體包括:

30、幀間噪聲抑制模塊,用于獲取待識別視頻序列中的每幀視頻幀與其對應的前序視頻幀間的前序幀差異圖,與其對應的后序視頻幀間的后序幀差異圖和與所述待識別視頻序列的平均幀間的平均幀差異圖;

31、跨幀語義聚合模塊,用于對每幀視頻幀對應的前序幀差異圖、后序幀差異圖以及平均幀差異圖進行跨幀語義聚合,以得到每幀視頻幀對應的特征表示;

32、行為識別模塊,用于基于待識別視頻序列中的每幀視頻幀對應特征表示,確定所述待識別視頻序列的行為標簽。

33、本技術第三方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執行,以實現如上任一所述的針對低質視頻的人體行為識別方法中的步驟。

34、本技術第四方面提供了一種終端設備,其包括:處理器和存儲器;

35、所述存儲器上存儲有可被所述處理器執行的計算機可讀程序;

36、所述處理器執行所述計算機可讀程序時實現如上任一所述的針對低質視頻的人體行為識別方法中的步驟。

37、有益效果:與現有技術相比,本技術提供了一種針對低質視頻的人體行為識別方法、裝置、設備及介質,所述方法包括獲取待識別視頻序列中的每幀視頻幀與其對應的前序視頻幀間的前序幀差異圖,與其對應的后序視頻幀間的后序幀差異圖和與所述待識別視頻序列的平均幀間的平均幀差異圖;對每幀視頻幀對應的前序幀差異圖、后序幀差異圖以及平均幀差異圖進行跨幀語義聚合,以得到每幀視頻幀對應的特征表示;基于待識別視頻序列中的每幀視頻幀對應的特征表示,確定所述待識別視頻序列的行為標簽。本技術先獲取前序幀差異圖、后序幀差異圖以及平均幀差異圖來進行幀間噪聲抑制,然后基于前序幀差異圖、后序幀差異圖以及平均幀差異圖進行跨幀語義聚合以聚合豐富的時空信息,這樣不但可以在保持關鍵的輪廓信息的前提下減少背景噪聲和干擾,而且可以獲取到豐富的時空信息,有效提升加密視頻中的行為識別準確性,特別是對于低質量視頻,也可以在消除干擾、突出主體的同時,保持了對人體行為的高效準確地識別。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1