日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

一種基于音視頻特征聯合判斷的倒地識別系統的制作方法

文檔序號:42170187發布日期:2025-06-13 16:26閱讀:24來源:國知局

本發明涉及倒地識別,特別是涉及一種基于音視頻特征聯合判斷的倒地識別系統。


背景技術:

1、近年來,隨著人工智能技術的快速發展,基于視頻與音頻聯合的監控系統(如跨模態注意力機制)在音視頻同步和特征對齊方面取得進展,但現有音視頻信號的物理傳播延遲與設備采樣率差異未被有效補償,導致跨模態時序錯位,而時序異步性很容易引發特征錯位與誤檢。

2、傳播延遲未補償具體是,聲音傳播速度(約340m/s)顯著低于光速,當目標距離傳感器3米時,撞擊聲相較觸地動作視頻幀存在約8.8ms延遲。而現有方法強制對齊或忽略此差異,導致動作與聲音特征錯位(如視頻幀t與音頻幀t+1匹配失效)。比如當視頻中行人快速蹲下(非跌倒)與同時段遠處關門聲因時序錯位被錯誤關聯,觸發誤報警,嚴重影響了基于音視頻特征聯合判斷的倒地識別系統的使用效果與準確性。


技術實現思路

1、針對上述情況,本發明通過動態校準音頻傳輸延遲,同時融合音視頻特征,計算音視頻特征融合值,分級判斷音視頻信號,根據場景類型動態設定報警敏感度閾值,執行分級響應策略,提高了基于音視頻特征聯合判斷的倒地識別系統的使用效果與準確性。

2、其解決的技術方案是,一種基于音視頻特征聯合判斷的倒地識別系統,包括多模態采集模塊、延遲校準模塊和決策控制模塊,所述多模態采集模塊同步采集視頻流骨骼關鍵點序列與音頻流時空頻特征,并且將視頻流骨骼關鍵點序列和音頻流時空頻特征同步對齊;

3、所述延遲校準模塊動態校準音頻傳輸延遲,計算音視頻特征融合值m,m=s×0.3+at3×0.2+as3×0.2+ac3×0.3+ε,其中ε為m的誤差校正值,s為視頻骨骼觸地狀態系數,at3、as3、ac3分別為音頻信號的時間維度、空間維度、頻域維度特征系數;

4、所述決策控制模塊根據音視頻特征融合值m分級觸發響應,m大于0.8時,標記為倒地狀態并報警,m小于等于0.8大于0.6時,標記為異常信號,m小于等于0.6時,標記為正常信號,并且基于異常信號與正常信號構建訓練樣本,通過機器學習動態調整權重值,根據場景類型動態設定報警敏感度閾值,執行差異化響應,高風險場景,m>0.8時觸發聲光報警及短信通知,中風險場景:m>0.9時觸發聲光報警,低風險場景:m>0.95時觸發后臺記錄。

5、進一步地,所述多模態采集模塊同步采集視頻流骨骼關鍵點序列與音頻流時空頻特征,視頻流骨骼關鍵點序列為17個人體骨骼關節在三維空間中的坐標,音頻流時空頻特征為從音頻信號中提取的時間、空間、頻域三維聯合表征a,并提取時間維度特征at、空間維度特征as、頻域維度特征ac。

6、進一步地,所述多模態采集模塊包括視頻采集端和音頻采集端,視頻采集端采用fpga硬件模塊生成時間戳t1,通過mipi接口嵌入視頻幀頭部,音頻采集端使用支持ieee1588精確時間協議(ptp)的音頻編解碼芯片,將麥克風陣列采集的原始音頻數據包附加硬件級時間戳t2,然后將時間戳t1和時間戳t2對齊,根據對齊的時間戳將視頻流骨骼關鍵點序列和音頻流時空頻特征同步對齊。

7、進一步地,所述延遲校準模塊包括自適應校準模塊,所述自適應校準模塊實時識別視頻流骨骼關鍵點序列在三維空間中的坐標,當識別到出現倒地情況發生時,記錄此刻的視頻時間戳t11,然后提取t11+8ms至t11+10ms內音頻信號a1,并且提取音頻信號a1的時間維度特征at1、空間維度特征as1、頻域維度特征ac1,調取數據庫中對應的時間維度特征閾值at2、空間維度特征閾值as2、頻域維度特征閾值ac2,當at1小于等于at2、as1小于等于as2且ac1小于等于ac2條件同時滿足時,記錄此時音頻信號的時間戳t21,以視頻時間戳t11、音頻時間戳t21對齊為基準,同步對齊視頻流骨骼關鍵點序列和音頻流時空頻特征。

8、進一步地,所述延遲校準模塊還包括跨模態融合模塊,基于視頻時間戳t11與音頻時間戳t21的時序對齊結果,計算音視頻特征融合值m,m=s×0.3+at3×0.2+as3×0.2+ac3×0.3+ε,ε為m的誤差校正值,其中識別視頻流骨骼關鍵點序列在三維空間中的坐標接觸地面時,s取1,反之,s取0,at1小于等于at2時,at3取1,反之,at3取0,as1小于等于as2時,as3取1,反之,as3取0,ac1小于等于ac2時,ac3取1,反之,ac3取0。

9、進一步地,所述決策控制模塊包括決策分析模塊、反饋優化模塊和多閾值報警模塊,所述決策分析模塊根據音視頻特征融合值m識別判斷,當m大于0.8時,識別標記此時的音視頻信號為倒地狀態,發送預警信號至多閾值報警模塊;

10、m小于等于0.8大于0.6時,識別標記此時的音視頻信號為異常音視頻信號,發送異常音視頻信號至反饋優化模塊;

11、m小于等于0.6時,識別標記此時的音視頻信號為正常音視頻信號,發送正常音視頻信號至反饋優化模塊。

12、進一步地,所述反饋優化模塊將異常音視頻信號作為正確樣本,正常音視頻信號作為錯誤樣本,正確樣本和或錯誤樣本存儲數據庫內,以樣本數據進行機器學習,更新優化該系統中音視頻特征融合值m的權重值。

13、進一步地,所述多閾值報警模塊根據場景類型動態設定報警敏感度閾值,執行分級響應策略,審訊室、羈押室標記為高風險場景,采用高敏感度閾值,m大于0.8.觸發聲光報警及短信通知;

14、值班室、審訊室標記為中風險場景,采用中敏感度閾值,m大于0.9,觸發聲光報警;

15、會議室、接待大廳標記為低風險場景,采用低敏感度閾值,m大于0.95,觸發后臺記錄。

16、進一步地,所述17個人體骨骼關節包括頭頂、頸部、左右肩、左右肘、左右腕、胸部或脊柱中心、左右髖、左右膝、左右踝、左右腳。

17、由于以上技術方案的采用,本發明與現有技術相比具有如下優點;

18、1.視頻采集端采用fpga硬件模塊生成時間戳t1,音頻采集端將麥克風陣列采集的原始音頻數據包附加硬件級時間戳t2,然后將時間戳t1和時間戳t2對齊,根據對齊的時間戳將視頻流骨骼關鍵點序列和音頻流時空頻特征同步對齊,提高了音視頻特征信號的準確性。

19、2.實時識別視頻流骨骼關鍵點序列在三維空間中的坐標,當識別到出現倒地情況發生時,記錄此刻的視頻時間戳t11,然后提取t11+8ms至t11+10ms內音頻信號a1,當at1小于等于at2、as1小于等于as2且ac1小于等于ac2條件同時滿足時,記錄此時音頻信號的時間戳t21,以視頻時間戳t11、音頻時間戳t21對齊為基準,同步對齊視頻流骨骼關鍵點序列和音頻流時空頻特征,動態校準音頻傳輸延遲,克服了現有技術中動作與聲音特征錯位問題。

20、3.分級判斷音視頻信號,并且動態調整融合權重值,根據場景類型動態設定報警敏感度閾值,執行分級響應策略,提高了提高了基于音視頻特征聯合判斷的倒地識別系統的使用效果與準確性。



技術特征:

1.一種基于音視頻特征聯合判斷的倒地識別系統,其特征在于,包括多模態采集模塊、延遲校準模塊和決策控制模塊,所述多模態采集模塊同步采集視頻流骨骼關鍵點序列與音頻流時空頻特征,并且將視頻流骨骼關鍵點序列和音頻流時空頻特征同步對齊;

2.如權利要求1所述一種基于音視頻特征聯合判斷的倒地識別系統,其特征在于,所述多模態采集模塊同步采集視頻流骨骼關鍵點序列與音頻流時空頻特征,視頻流骨骼關鍵點序列為17個人體骨骼關節在三維空間中的坐標,音頻流時空頻特征為從音頻信號中提取的時間、空間、頻域三維聯合表征a,并提取時間維度特征at、空間維度特征as、頻域維度特征ac。

3.如權利要求2所述一種基于音視頻特征聯合判斷的倒地識別系統,其特征在于,所述多模態采集模塊包括視頻采集端和音頻采集端,視頻采集端采用fpga硬件模塊生成時間戳t1,通過mipi接口嵌入視頻幀頭部,音頻采集端使用支持ieee1588精確時間協議(ptp)的音頻編解碼芯片,將麥克風陣列采集的原始音頻數據包附加硬件級時間戳t2,然后將時間戳t1和時間戳t2對齊,根據對齊的時間戳將視頻流骨骼關鍵點序列和音頻流時空頻特征同步對齊。

4.如權利要求3所述一種基于音視頻特征聯合判斷的倒地識別系統,其特征在于,所述延遲校準模塊包括自適應校準模塊,所述自適應校準模塊實時識別視頻流骨骼關鍵點序列在三維空間中的坐標,當識別到出現倒地情況發生時,記錄此刻的視頻時間戳t11,然后提取t11+8ms至t11+10ms內音頻信號a1,并且提取音頻信號a1的時間維度特征at1、空間維度特征as1、頻域維度特征ac1,調取數據庫中對應的時間維度特征閾值at2、空間維度特征閾值as2、頻域維度特征閾值ac2,當at1小于等于at2、as1小于等于as2且ac1小于等于ac2條件同時滿足時,記錄此時音頻信號的時間戳t21,以視頻時間戳t11、音頻時間戳t21對齊為基準,同步對齊視頻流骨骼關鍵點序列和音頻流時空頻特征。

5.如權利要求4所述一種基于音視頻特征聯合判斷的倒地識別系統,其特征在于,所述延遲校準模塊還包括跨模態融合模塊,基于視頻時間戳t11與音頻時間戳t21的時序對齊結果,計算音視頻特征融合值m,m=s×0.3+at3×0.2+as3×0.2+ac3×0.3+ε,ε為m的誤差校正值,其中識別視頻流骨骼關鍵點序列在三維空間中的坐標接觸地面時,s取1,反之,s取0,at1小于等于at2時,at3取1,反之,at3取0,as1小于等于as2時,as3取1,反之,as3取0,ac1小于等于ac2時,ac3取1,反之,ac3取0。

6.如權利要求5所述一種基于音視頻特征聯合判斷的倒地識別系統,其特征在于,所述決策控制模塊包括決策分析模塊、反饋優化模塊和多閾值報警模塊,所述決策分析模塊根據音視頻特征融合值m識別判斷,當m大于0.8時,識別標記此時的音視頻信號為倒地狀態,發送預警信號至多閾值報警模塊;

7.如權利要求6所述一種基于音視頻特征聯合判斷的倒地識別系統,其特征在于,所述反饋優化模塊將異常音視頻信號作為正確樣本,正常音視頻信號作為錯誤樣本,正確樣本和或錯誤樣本存儲數據庫內,以樣本數據進行機器學習,更新優化該系統中音視頻特征融合值m的權重值。

8.如權利要求6所述一種基于音視頻特征聯合判斷的倒地識別系統,其特征在于,所述多閾值報警模塊根據場景類型動態設定報警敏感度閾值,執行分級響應策略,審訊室、羈押室標記為高風險場景,采用高敏感度閾值,m大于0.8.觸發聲光報警及短信通知;

9.如權利要求2-8任一權利要求所述一種基于音視頻特征聯合判斷的倒地識別系統,其特征在于,所述17個人體骨骼關節包括頭頂、頸部、左右肩、左右肘、左右腕、胸部或脊柱中心、左右髖、左右膝、左右踝、左右腳。


技術總結
本發明公開了一種基于音視頻特征聯合判斷的倒地識別系統,涉及倒地識別技術領域,包括多模態采集模塊、延遲校準模塊和決策控制模塊,所述多模態采集模塊同步采集視頻流骨骼關鍵點序列與音頻流時空頻特征,并且將視頻流骨骼關鍵點序列和音頻流時空頻特征同步對齊;所述延遲校準模塊動態校準音頻傳輸延遲,同時融合音視頻特征,計算音視頻特征融合值;所述決策控制模塊進行倒地識別判斷,分級判斷音視頻信號,并且動態調整融合權重值,根據場景類型動態設定報警敏感度閾值,執行分級響應策略,提高了基于音視頻特征聯合判斷的倒地識別系統的使用效果與準確性。

技術研發人員:王燦,董長春,黃其
受保護的技術使用者:沈陽華安信科技有限公司
技術研發日:
技術公布日:2025/6/12
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1