本發明涉及人工智能,更具體地說,涉及一種結合人體關鍵點特征的csi多模態動作識別方法及看護系統。
背景技術:
1、在現有技術中,人體動作識別和姿態估計主要依賴于視覺方法,如攝像頭捕捉圖像并通過計算機視覺算法進行分析。然而,這些方法存在隱私泄露和設備成本高等問題。因此,許多研究嘗試用wifi-csi技術進行人體姿態估計和動作識別。
2、然而,動作識別只使用信道狀態信息csi提取的波形數據進行動作識別,忽視了人體本身信息特征,導致對人體姿態和動作的理解不夠準確。部分研究嘗試將wifi信號的信道狀態信息csi與攝像頭估計的人體骨架圖相結合,攝像頭捕捉骨架序列作為輔助信息,而wifi設備提供信道狀態信息csi的原始數據,以提高動作識別的準確性,但這種方法需要同時使用wifi設備和攝像頭,這不僅增加了設備成本和復雜性,還可能導致隱私泄露問題,因此限制了系統的實用性。另外,目前基于wifi-csi的檢測方式僅局限于動作識別且動作單一,缺乏對關鍵點檢測與動作識別的聯合處理,無法實現對人體姿態和動作的全面理解,限制了該方式在居家看護等場景中的應用。
技術實現思路
1、本發明的目的在于克服現有技術中的缺點與不足,提供一種結合人體關鍵點特征的csi多模態動作識別方法,該csi多模態動作識別方法融合了csi的振幅、相位、多普勒頻移(dfs)三個模態特征,并引入csi人體關鍵點信息作為輔助特征,有效提升動作識別的魯棒性與準確性。本發明還提供一種看護系統,可對居家環境中人員的實時監護,為用戶提供更具針對性的看護。
2、為了達到上述目的,本發明通過下述技術方案予以實現:一種結合人體關鍵點特征的csi多模態動作識別方法,其特征在于:包括以下步驟:
3、第一步,同步采集視頻數據和csi數據,并進行時間戳對齊操作;對視頻數據的人體關鍵點數據進行標注,并獲取人體關鍵點數據對應的csi數據;同時對csi數據中的振幅數據、相位數據和多普勒頻移數據進行提取并預處理;
4、第二步,將人體關鍵點數據和csi數據作為數據集,并將數據集劃分為訓練集和測試集;其中,數據集內的每一幀數據都包含以下數據:
5、
6、xampsample為csi振幅模態單幀數據,xpsample為csi相位模態單幀數據,xdfssample為csi多普勒頻移模態單幀數據,gkpssample為單幀csi對應的17個動作真實人體關鍵點位置,gaction為人體關鍵點數據此時的17個動作標簽,按照動作的順序以向量形式排列;
7、第三步,建立csi人體關鍵點檢測預訓練網絡,在訓練集上對csi人體關鍵點檢測預訓練網絡進行訓練,得到訓練好的csi人體關鍵點檢測預訓練網絡;
8、通過csi人體關鍵點檢測預訓練網絡對人體關鍵點進行估計,得到人體關鍵點的二維坐標,實現對人體關鍵點的高精度定位;
9、第四步,建立融合關鍵點特征的多模態動作識別網絡,在訓練集上使用滑動窗口方法獲得csi振幅模態數據、csi相位模態數據和csi多普勒頻移模態數據作為輸入數據;融合關鍵點特征的多模態動作識別網絡包含特征提取模塊、第三步獲得的csi人體關鍵點檢測預訓練網絡、關鍵點特征降維模塊、特征融合模塊、時空建模網絡和動作分類器;
10、特征提取模塊由3個子特征提取模塊組成,分別針對csi振幅模態數據、csi相位模態數據和csi多普勒頻移模態數據進行特征提取;csi人體關鍵點檢測預訓練網絡用于輸出中間層特征;關鍵點特征降維模塊對中間層特征進行降維,作為人體關鍵點特征;特征融合模塊將特征提取模塊輸出的csi振幅特征、csi相位特征、csi多普勒頻移特征以及關鍵點特征降維模塊輸出的人體關鍵點特征進行融合,得到融合特征,以整合多模態信息,增強特征表達能力;
11、時空建模網絡由多層時空建模模塊級聯而成,每個時空建模模塊均由tcn網絡和空間自注意力機制組成,以捕捉到融合特征數據中的時序關系和空間信息;通過時空建模網絡輸出的動作特征經過動作分類器完成動作的分類;
12、第五步,采用訓練好的融合關鍵點特征的多模態動作識別網絡對動作進行識別,實現人體多模態動作識別。
13、第三步中,將csi振幅模態單幀數據xampsample進行歸一化處理,得到的xin∈r3×90×5作為csi人體關鍵點檢測預訓練網絡的輸入:
14、
15、其中,3表示接收天線數,90表示子載波數量,5表示空間通道數,μ為每個子載波維度的均值,σ為為每個子載波維度的方差;
16、該csi人體關鍵點檢測預訓練網絡包括多分支多尺度卷積特征提取模塊、特征融合模塊、多頭自注意力機制模塊、解碼器與關鍵點回歸模塊、全連接層和損失函數;
17、所述多分支多尺度卷積特征提取模塊采用三條并行卷積分支對xin分別提取局部細節、中尺度區域和大尺度全局信息;在每個分支中,均采用兩層卷積操作,每層卷積后依次連接批歸一化和relu激活函數,再通過最大池化降低空間分辨率;通過第一分支得到的特征輸出x1∈rc×h×w為:
18、
19、其中,d為空洞率;
20、第二分支與第三分支的結構與第一分支的結構相同,第二分支和第三分支的空洞率分別設置為2和3,特征輸出分別為x2與x3;
21、特征融合模塊將特征輸出x1、x2和x3進行融合,通過softmax函數計算特征輸出x1、x2和x3的融合權重,得到3個分支的權重:
22、α1,α2,α3=softmax(w(concat[x1,x2,x3]))
23、對各分支輸出的動態加權融合,最終形成統一的特征輸出xfused∈rc×h×w:
24、xfused=α1x1+α2x2+α3x3。
25、多頭自注意力機制模塊將融合后的特征輸出xfused∈rc×h×w重排為二維序列s,使得每個空間位置成為一個序列元素:
26、s∈rc×l,l=h×w
27、s=reshape(xfused)
28、通過可學習的線性映射矩陣生成多頭自注意力機制中的查詢、鍵和值的向量:
29、q=swq,k=swk,v=swv,
30、其中為參數矩陣;
31、多頭自注意力機制模塊從多個子空間捕捉不同的全局關系,將各頭的輸出拼接后,通過投影參數矩陣wo重排回空間格式,并進行reshape操作,最終得到增強后的特征圖xatt∈rc×h×w:
32、xatt=reshape([head1;…headn]wo),
33、
34、其中dk是k的維數。wo是投影參數矩陣。
35、解碼器與關鍵點回歸模塊首先對xatt進行第一組卷積處理,輸出中間特征:
36、
37、然后將作為輸入,通過第二組卷積處理得到更深層次的抽象特征:
38、
39、將轉換為固定長度的全局語義表達,采用全局自適應平均池化操作,對每個通道進行空間平均得到全局特征向量xglobal∈rc:
40、
41、其中,h為特征圖的高度,w為特征圖的寬度,c為特征圖的通道數,i和j為遍歷每一個通道后的索引值,i∈1,…,h,i∈1,…,w,
42、通過全連接層將全局語義映射到人體姿態關鍵點坐標空間,全連接層作為一次線性映射,最終將輸出形狀變換成17*2的人體關鍵點表示形狀,其計算公式為:
43、ykp=reshape(linear(xglobal))
44、輸出ykp∈r17×2的每一行分別對應人體一個關鍵點在二維平面上的(x,y)坐標;
45、損失函數采用mse,用以衡量預測關鍵點與真實標簽之間的差異,具體計算公式為
46、
47、其中,ykp是從csi振幅數據估計出的人體關鍵點位置,gkpsample為單幀csi對應的真實人體關鍵點位置;
48、根據損失函數判斷csi人體關鍵點檢測預訓練網絡是否訓練完成。
49、第四步中,在訓練集上使用滑動窗口方法獲得csi振幅模態數據、csi相位模態數據和csi多普勒頻移模態數據作為輸入數據是指:
50、使用滑動窗口的方法從訓練集中取出時間長度為t幀的數據:
51、
52、其中,xa為csi的振幅模態輸入數據,xp為csi相位模態輸入數據,xd為csi多普勒頻移模態輸入數據;
53、所述特征提取模塊包括3個子特征提取模塊,分別對xa,xp,xd進行特征提取。
54、每一個子特征提取模塊的結構相同,均采用3層卷積層對xa,xp和xd進行下采樣,僅在第一層卷積層使用最大池化進行降維,第二層和第三層卷積層設置填充;對csi的振幅模態輸入數據xa提取振幅特征:
55、
56、其中,c是通道數,h是高度維數,w是寬度維數;
57、將在(h,w)維度進行展平并使用全連接層擴展最后一個維度的信息,得到降維后的數據dim是全連接層的輸出維度;
58、
59、對csi相位模態輸入數據xp提取相位特征以及對csi多普勒頻移模態輸入數據xd提取多普勒頻移特征的方式與對csi的振幅模態輸入數據xa提取振幅特征的方式相同,最終csi特征數據為:
60、
61、所述csi人體關鍵點檢測預訓練網絡使用第三步訓練好的模型,用于輸出中間層結果是指:將csi的振幅模態輸入數據xa的每一幀數據取出csi振幅模態單幀數據xampsample輸入至第三步中已經訓練好的csi人體關鍵點檢測預訓練網絡,輸出多頭自注意力機制模塊的特征圖xattseq∈rt×c×h×w作為中間層結果;
62、關鍵點特征降維模塊將xattseq降維至fkp∈rt×c×dim,使其形狀與一致,則fkp為人體關鍵點特征:
63、fkp=lineor(reshape(xattseq))。
64、所述特征融合模塊將特征提取模塊輸出的csi振幅特征、csi相位特征、csi多普勒頻移特征以及關鍵點特征降維模塊輸出的人體關鍵點特征進行融合,得到融合特征,以整合多模態信息,增強特征表達能力是指:
65、特征融合模塊首先對振幅特征相位特征和多普勒頻移特征進行加權融合:
66、
67、其中,αamp,αphase,αdfs是權重參數,w是可學習參數矩陣,concat代表將分支的結果進行拼接;
68、將權重參數與分支的結果進行逐元素點乘,得到最終分支融合結果fapd,fapd∈rt×c×dim,將作為時空建模模塊的輸入:
69、
70、然后,將融合特征fapd與人體關鍵點特征fkp進行拼接,得到時空模塊的起始輸入f0∈rt×c×d,d=2dim:
71、f0=concat([fapd,fkp])。
72、所述時空建模模塊由采用tcn網絡的時間模塊和采用空間自注意力機制的空間模塊組成;
73、時間模塊將上一個時空建模模塊的輸出的c和d所在維度進行展平,得到當前時間模塊的輸入其中,i代表第i個時空建模模塊,i∈1,…,n,ti-1代表上一個時空建模模塊的時間維度;
74、采用門控機制對進行點積相乘,得到作為門控單元的輸出結果:
75、
76、其中,ti代表當前時空建模模塊的時間維度,ti=ti-1-(k-1)·d,其中,k為當前時間模塊因果tcn卷積核大小,d為擴張因子大小;
77、將加入殘差連接,得到作為時間模塊的輸出結果:
78、
79、其中,[:ti]代表選取數據的前ti個時間維度。
80、所述空間模塊由空間多頭自注意力機制組成;
81、遍歷的ti個空間維度,每個時間模塊的輸出結果用同一個空間模塊進行空間學習,其中,每一個時間模塊上的空間特征為
82、使用空間多頭自注意力機制獲得自注意力機制中的查詢、鍵和值向量
83、
84、其中,分別是可學習的投影矩陣,i代表第i個時空建模模塊,i∈1,…,n,;h代表第h個頭數,h∈1,…,h;
85、最終得到空間多頭自注意力機制的輸出smhsa:
86、
87、其中,是投影參數矩陣,dk是ks的維數,i∈1,…,n,;h代表第h個頭數,h∈1,…,h,;
88、輸出smhsa被進一步送入多層感知機中,然后經過殘差連接并使用層歸一化;最終空間模塊的輸出為也作為當前時空建模模塊的最終輸出;
89、第n層時空建模模塊的輸出為
90、
91、動作分類器使用一層transformer模塊,再次學習剩余tn個時間節點的特征;取最后一個節點的結果,展平后通過兩層全連接層,最終輸出全部動作的分類向量:
92、
93、計算交叉熵損失:
94、
95、其中,是存儲動作標簽的向量,j為動作的真實標簽的數量,為模型預測的當前輸入數據屬于第j個動作的概率;yp為最終動作分類器輸出的概率分布;
96、根據交叉熵損失判斷融合關鍵點特征的多模態動作識別網絡是否訓練完成。
97、一種看護系統,其特征在于:包括實現上述結合人體關鍵點特征的csi多模態動作識別方法的csi多模態動作識別與關鍵點檢測聯合估計裝置、wifi發射與接收設備、本地堆棧模塊、有人檢測模塊和用戶交互與功能實現模塊;
98、所述csi多模態動作識別與關鍵點檢測聯合估計裝置包括數據輸入模塊、csi人體關鍵點檢測預訓練網絡和融合關鍵點特征的多模態動作識別網絡;所述wifi發射與接收設備、本地堆棧模塊、有人檢測模塊、數據輸入模塊、csi人體關鍵點檢測預訓練網絡、融合關鍵點特征的多模態動作識別網絡和用戶交互與功能實現模塊依次連接;有人檢測模塊與用戶交互與功能實現模塊連接;數據輸入模塊與融合關鍵點特征的多模態動作識別網絡連接;
99、該csi人體關鍵點檢測預訓練網絡與融合關鍵點特征的多模態動作識別網絡相連,用于提供中間層特征;csi人體關鍵點檢測預訓練網絡與用戶交互與功能實現模塊相連,提供人體關鍵點二維坐標信息,用于實現人體骨架圖像的可視化展示。
100、該融合關鍵點特征的多模態動作識別網絡與用戶交互與功能實現模塊連接,實現將人體多模態動作識別結果輸出至用戶交互與功能實現模塊。
101、所述有人檢測模塊內置了一個支持向量機分類器,采用0人以及17種不同動作下的有人數據對支持向量機分類器進行訓練;
102、所述用戶交互與功能實現模塊設置可交互的ui界面;
103、所述本地堆棧模塊實時將wifi發射與接收設備輸入的csi數據傳送至有人檢測模塊;訓練好的支持向量機分類器對csi數據進行分析,判斷場景中是否存在人體:當判斷有人體時,將csi數據通過數據輸入模塊輸入至csi人體關鍵點檢測預訓練網絡和融合關鍵點特征的多模態動作識別網絡;csi人體關鍵點檢測預訓練網絡將人體關鍵點的二維坐標輸出至用戶交互與功能實現模塊,實現人體骨架圖像的可視化,同時將中間層特征輸出至融合關鍵點特征的多模態動作識別網絡,作為動作識別的輔助特征。融合關鍵點特征的多模態動作識別網絡將動作識別結果輸出至用戶交互與功能實現模塊,實現動作結果的可視化;當判斷無人體時,則將無人體判斷結果輸送至用戶交互與功能實現模塊;
104、該動作可視化包括正常行為、睡眠動作和異常行為;用戶交互與功能實現模塊識別到正常行為時,對人體進行活動量檢測并生成健康報告和建議;用戶交互與功能實現模塊識別到睡眠動作時,對人體進行睡眠質量檢測并生成健康報告和建議;用戶交互與功能實現模塊識別到異常行為時,進行報警。
105、本發明的優點:
106、1、多模態特征融合,提升識別精度:
107、相較于現有技術僅利用csi中的少量模態信息,本發明融合了csi特征數據的振幅、相位、多普勒頻移(dfs)三個模態特征,并引入人體關鍵點特征作為輔助特征,有效提升動作識別的魯棒性與準確性。人體關鍵點特征由csi人體關鍵點檢測預訓練網絡提取,無需攝像頭即可獲得人體在csi中的坐標信息和骨架信息。融合關鍵點特征的多模態動作識別網絡可同時輸出動作分類結果。
108、2、融合關鍵點特征的多模態動作識別網絡采用時空建模網絡,時空建模模塊由采用tcn網絡的時間模塊和采用空間自注意力機制的空間模塊組成,能夠精確捕捉到csi特征數據中的時序關系和空間信息
109、3、采用融合關鍵點特征的多模態動作識別網絡的看護系統可滿足居家應用需求:
110、該看護系統僅需wifi發射與接收設備即可實現對居家環境中人員的實時監護,包括是否有人、動作識別和人體骨架可視化。根據動作識別判斷正常行為、睡眠動作和異常行為,具有活動量檢測、異常報警、睡眠監測和健康報告生成等功能。動作識別信息將用于用戶的健康分析,為用戶提供更具針對性的看護。
111、與現有技術相比,本發明具有如下優點與有益效果:
112、1、本發明結合人體關鍵點特征的csi多模態動作識別方法融合了csi的振幅、相位、多普勒頻移(dfs)三個模態特征,并引入csi人體關鍵點信息作為輔助特征,有效提升動作識別的魯棒性與準確性。
113、2、本發明的看護系統可對居家環境中人員的實時監護,為用戶提供更具針對性的看護。