日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

基于視覺Mamba的RGB數(shù)據(jù)與事件數(shù)據(jù)融合的目標(biāo)跟蹤方法

文檔序號(hào):42132248發(fā)布日期:2025-06-10 17:27閱讀:26來源:國知局

本發(fā)明涉及計(jì)算機(jī)視覺,尤其涉及一種基于視覺mamba的rgb數(shù)據(jù)與事件數(shù)據(jù)融合的目標(biāo)跟蹤方法。


背景技術(shù):

1、目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的重要應(yīng)用方向,其任務(wù)是通過連續(xù)幀的視頻數(shù)據(jù),準(zhǔn)確定位并跟蹤指定目標(biāo)的位置,廣泛應(yīng)用于自動(dòng)駕駛、智能監(jiān)控、機(jī)器人導(dǎo)航和人機(jī)交互等場(chǎng)景,對(duì)動(dòng)態(tài)環(huán)境中目標(biāo)的實(shí)時(shí)感知和行為分析具有重要意義。在實(shí)際使用中,隨著視頻數(shù)據(jù)復(fù)雜度的提高,目標(biāo)跟蹤面臨目標(biāo)遮擋、快速運(yùn)動(dòng)、光照變化及背景復(fù)雜性等挑戰(zhàn)。傳統(tǒng)依賴手工設(shè)計(jì)特征和濾波器的跟蹤方法在復(fù)雜場(chǎng)景中表現(xiàn)受限。

2、近年來深度學(xué)習(xí)為目標(biāo)跟蹤提供了強(qiáng)大的特征提取能力,使算法在多種場(chǎng)景下表現(xiàn)出較高的魯棒性和準(zhǔn)確性,但在實(shí)時(shí)性和計(jì)算資源需求上仍存在瓶頸。多模態(tài)目標(biāo)跟蹤通過融合來自不同模態(tài)的數(shù)據(jù),顯著提升了跟蹤系統(tǒng)的魯棒性,使其更能適應(yīng)遮擋、動(dòng)態(tài)變化和極端光照等復(fù)雜場(chǎng)景,同時(shí)通過信息提取與交互降低單一模態(tài)處理的復(fù)雜性,實(shí)現(xiàn)高效實(shí)時(shí)跟蹤。這一技術(shù)在自動(dòng)駕駛、智能交通、無人機(jī)視覺和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域具有廣泛應(yīng)用價(jià)值,不僅在算法層面具有創(chuàng)新意義,還為多模態(tài)感知與融合提供了實(shí)踐基礎(chǔ)。

3、事件相機(jī)是一種新型的視覺傳感器,與傳統(tǒng)幀圖像相機(jī)不同,它不以固定幀率捕捉場(chǎng)景,而是根據(jù)像素級(jí)亮度變化觸發(fā)事件輸出。事件相機(jī)以高時(shí)間分辨率和稀疏數(shù)據(jù)的形式記錄動(dòng)態(tài)場(chǎng)景信息,能夠?qū)崟r(shí)捕捉快速運(yùn)動(dòng)目標(biāo)的變化,具有低延遲、高動(dòng)態(tài)范圍和低功耗的優(yōu)勢(shì)。這些特點(diǎn)使其在動(dòng)態(tài)場(chǎng)景感知和極端光照條件下表現(xiàn)優(yōu)異。rgb相機(jī)與事件相機(jī)是兩種具有互補(bǔ)特性的視覺感知設(shè)備,rgb相機(jī)能夠捕捉豐富的紋理和顏色信息,但在動(dòng)態(tài)范圍較高或低光照?qǐng)鼍爸斜憩F(xiàn)較差;事件相機(jī)以其高時(shí)間分辨率和稀疏數(shù)據(jù)表達(dá)特點(diǎn),能夠高效捕捉運(yùn)動(dòng)變化,但無法記錄靜態(tài)目標(biāo)的細(xì)節(jié)或顏色信息。

4、近年來,開始出現(xiàn)兩種相機(jī)的數(shù)據(jù)融合以實(shí)現(xiàn)更魯棒的視覺感知和目標(biāo)跟蹤,其中事件相機(jī)補(bǔ)充了動(dòng)態(tài)場(chǎng)景中的運(yùn)動(dòng)信息,而rgb相機(jī)提供了靜態(tài)目標(biāo)的豐富細(xì)節(jié)。兩者在特征層或決策層的融合顯著提升了極端場(chǎng)景下的跟蹤性能,但現(xiàn)有方法多基于transformer架構(gòu),雖然性能較高,卻因計(jì)算復(fù)雜度和內(nèi)存占用較大而在實(shí)時(shí)性要求高的應(yīng)用場(chǎng)景中受到限制。

5、狀態(tài)空間模型(state?space?model,ssm)源自經(jīng)典的動(dòng)態(tài)系統(tǒng)建模方法,能夠有效描述序列數(shù)據(jù)的動(dòng)態(tài)變化。與傳統(tǒng)的rnn或transformer架構(gòu)相比,ssm的計(jì)算復(fù)雜度為線性o(n),在處理長序列數(shù)據(jù)時(shí)具有顯著的計(jì)算效率優(yōu)勢(shì),從而ssm被廣泛應(yīng)用于自然語言處理、時(shí)間序列分析和計(jì)算機(jī)視覺等領(lǐng)域。ssm的狀態(tài)方程為: x′( t)= fx( t)+ du( t)+ ω( t),這個(gè)方程描述了系統(tǒng)內(nèi)部狀態(tài) x(t)隨時(shí)間的演化。其中, x′(t)是關(guān)于時(shí)間的微分,表示系統(tǒng)狀態(tài)的變化率; f是系統(tǒng)矩陣,描述了系統(tǒng)狀態(tài)之間的關(guān)系,以及它們?nèi)绾坞S時(shí)間自然演化(無控制輸入時(shí)),是一個(gè) n?×?n矩陣; x(t)是系統(tǒng)狀態(tài)變量,包含所有必要的變量來描述系統(tǒng)在任意時(shí)刻的狀況,是一個(gè)n維向量; d是輸入矩陣,描述了控制輸入如何影響系統(tǒng)狀態(tài),是一個(gè) n×m矩陣; u(t)?是控制輸入向量,表示外部輸入或控制信號(hào)的影響,是一個(gè)m維向量; ω(t)是過程噪聲,它代表系統(tǒng)內(nèi)部的不確定性,一般假設(shè)為高斯噪聲。ssm的觀測(cè)方程為: y( t)= mx( t)+ gu( t)+ e( t),這個(gè)方程描述了系統(tǒng)的輸出 y(t)如何依賴于系統(tǒng)狀態(tài)和控制輸入,其中, y(t)是輸出向量或者觀測(cè)向量,包含所有的測(cè)量或觀測(cè)到的變量,是一個(gè)p維向量; m是輸出矩陣,描述了系統(tǒng)狀態(tài)如何影響輸出,是一個(gè) p?≤?n矩陣; g是直達(dá)傳遞矩陣,表示控制輸入直接對(duì)輸出的影響,是一個(gè) n×m矩陣; e(t)是測(cè)量噪聲,它代表了測(cè)量過程中的不確定性或誤差,一般假設(shè)為高斯噪聲。

6、mamba作為一種基于狀態(tài)空間模型的時(shí)間序列建模框架,采用了選擇性狀態(tài)空間機(jī)制,能夠高效建模長序列數(shù)據(jù)中的時(shí)間動(dòng)態(tài)特性,同時(shí)保留足夠的表達(dá)能力。mamba在視覺任務(wù)中的應(yīng)用進(jìn)一步發(fā)展了ssm的能力,通過引入跨模態(tài)學(xué)習(xí)模塊,實(shí)現(xiàn)模態(tài)間的交互式特征融合,有效提升了多模態(tài)跟蹤任務(wù)的性能。在框架設(shè)計(jì)上,mamba采用輕量化的架構(gòu),顯著減少了內(nèi)存占用和計(jì)算負(fù)擔(dān),為資源受限設(shè)備上的實(shí)時(shí)處理提供了可能。

7、在實(shí)現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:

8、rgb數(shù)據(jù)與事件數(shù)據(jù)對(duì)齊與融合效率低、目標(biāo)定位精度不足,難以在動(dòng)態(tài)場(chǎng)景中實(shí)現(xiàn)高效、精準(zhǔn)的目標(biāo)跟蹤。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于視覺mamba的rgb數(shù)據(jù)與事件數(shù)據(jù)融合的目標(biāo)跟蹤方法,以解決現(xiàn)有技術(shù)中存在的rgb數(shù)據(jù)與事件數(shù)據(jù)對(duì)齊與融合效率低、目標(biāo)定位精度不足,難以在動(dòng)態(tài)場(chǎng)景中實(shí)現(xiàn)高效、精準(zhǔn)的目標(biāo)跟蹤的技術(shù)問題。本發(fā)明提供的諸多技術(shù)方案中的優(yōu)選技術(shù)方案所能產(chǎn)生的諸多技術(shù)效果詳見下文闡述。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了以下技術(shù)方案:

3、本發(fā)明提供的一種基于視覺mamba的rgb數(shù)據(jù)與事件數(shù)據(jù)融合的目標(biāo)跟蹤方法,包括以下步驟:s100:基于rgb相機(jī)和事件相機(jī)的特性,對(duì)rgb相機(jī)的原始rgb圖和事件相機(jī)的原始事件流進(jìn)行幀級(jí)同步及轉(zhuǎn)換,生成rgb輸入數(shù)據(jù)、事件輸入數(shù)據(jù);s200:通過mamba網(wǎng)絡(luò)的特征提取模塊將rgb輸入數(shù)據(jù)、事件輸入數(shù)據(jù)切分為固定大小的圖像塊,得到rgb特征圖、事件特征圖;s300:通過交互模塊對(duì)rgb特征圖、事件特征圖進(jìn)行線性變換和深度卷積操作,并通過特征圖切分、交替融合、二維選擇性掃描ss2d進(jìn)行跨模態(tài)特征的動(dòng)態(tài)交互與還原,得到rgb特征、事件特征;s400:通過融合模塊進(jìn)行二維選擇性掃描ss2d、深度卷積、層歸一化及殘差連接操作,對(duì)模態(tài)內(nèi)和模態(tài)間的rgb特征、事件特征進(jìn)行動(dòng)態(tài)融合,得到跨模態(tài)融合特征并進(jìn)行輸出;s500:通過對(duì)齊模塊進(jìn)行搜索特征切分、模板特征降采樣及搜索特征與模板特征的交替融合,進(jìn)行模板特征與搜索特征的對(duì)齊,跨模態(tài)融合特征進(jìn)行重建生成對(duì)齊特征圖;s600:基于對(duì)齊特征圖,通過目標(biāo)跟蹤檢測(cè)模塊生成目標(biāo)分類得分圖、局部偏移量和歸一化邊界框尺寸,完成目標(biāo)定位與跟蹤。

4、優(yōu)選的,s100步驟具體包括:s110:使用同步的rgb相機(jī)、事件相機(jī)采集附加時(shí)間戳的目標(biāo)場(chǎng)景數(shù)據(jù),rgb相機(jī)生成連續(xù)幀的原始rgb圖,事件相機(jī)生成稀疏的原始事件流;s120:基于附加時(shí)間戳讀取每一幀原始rgb圖,提取其時(shí)間戳信息,將幀劃分為對(duì)應(yīng)的時(shí)間窗口;s130:對(duì)原始rgb圖調(diào)整圖像尺寸并對(duì)顏色空間進(jìn)行標(biāo)準(zhǔn)化處理;s140:根據(jù)每一幀原始rgb圖的時(shí)間戳劃分原始事件流,篩選出屬于兩幀之間時(shí)間窗口的原始事件數(shù)據(jù),生成圖像形式的原始事件流;s150:將原始事件流與對(duì)應(yīng)的原始rgb圖通過時(shí)間戳進(jìn)行對(duì)齊,以檢查原始rgb圖、原始事件流在空間分辨率、像素尺度的一致性,得到rgb圖和事件圖;s160:將rgb圖、事件圖以張量形式輸出,并保存為標(biāo)準(zhǔn)化數(shù)據(jù)格式,得到rgb輸入數(shù)據(jù)、事件輸入數(shù)據(jù)。

5、優(yōu)選的,s200步驟包括:s210:通過兩次卷積操作將rgb輸入數(shù)據(jù)、事件輸入數(shù)據(jù)切分為固定大小的局部區(qū)域patch并映射到目標(biāo)嵌入維度;s220:將局部區(qū)域patch嵌入表示映射到狀態(tài)空間中,作為動(dòng)態(tài)更新起點(diǎn);s230:對(duì)每個(gè)局部區(qū)域patch進(jìn)行特征提取和變換,將當(dāng)前狀態(tài)與輸入特征進(jìn)行聯(lián)合更新,進(jìn)行rgb輸入數(shù)據(jù)、事件輸入數(shù)據(jù)的交互;s240:通過映射操作輸出結(jié)合時(shí)間與空間維度的動(dòng)態(tài)rgb特征圖、事件特征圖。

6、優(yōu)選的,s210步驟的兩次卷積操作中,第一次卷積提取rgb輸入數(shù)據(jù)、事件輸入數(shù)據(jù)的低維特征并進(jìn)行歸一化處理,隨后通過非線性激活函數(shù)增強(qiáng)特征表達(dá),再通過第二次卷積提取rgb輸入數(shù)據(jù)、事件輸入數(shù)據(jù)的高維特征。

7、優(yōu)選的,s300步驟具體包括:s310:rgb特征圖、事件特征圖通過線性層和深度卷積層進(jìn)行特征增強(qiáng);s320:將增強(qiáng)后的特征切分為固定大小的rgb特征塊、事件特征塊,rgb特征塊、事件特征塊捕獲局部區(qū)域patch的關(guān)鍵特征,并保留全局上下文信息;s330:將rgb特征塊、事件特征塊按交替順序輸入到二維選擇性掃描ss2d模塊,進(jìn)行模態(tài)間的動(dòng)態(tài)交互,得到融合后的跨模態(tài)特征;s340:將跨模態(tài)特征還原為事件模態(tài)、rgb模態(tài)的單模態(tài)特征,并分別通過歸一化操作平衡特征分布;s350:分別對(duì)歸一化后的rgb模態(tài)和事件模態(tài)的特征通過線性層進(jìn)行特征維度映射,生成rgb特征、事件特征。

8、優(yōu)選的,s400步驟具體包括:s410:對(duì)rgb特征、事件特征通過線性層進(jìn)行變換,得到線性變換后的特征;s420:將線性變換后的特征經(jīng)過深度可分離卷積處理,以增強(qiáng)模態(tài)內(nèi)部的特征表達(dá)能力,得到rgb模態(tài)初步增強(qiáng)特征、事件模態(tài)初步增強(qiáng)特征;s430:將rgb模態(tài)初步增強(qiáng)特征、事件模態(tài)初步增強(qiáng)特征輸入至二維選擇性掃描ss2d模塊,分別進(jìn)行空間信息、時(shí)間信息整合;s440:通過層歸一化操作,使兩種模態(tài)的特征在數(shù)值分布上達(dá)到一致性,并將層歸一化后的兩種模態(tài)的模態(tài)特征與本模塊的輸入特征進(jìn)行逐像素相乘,通過注意力機(jī)制篩選和突出主要信息;s450:rgb模態(tài)和事件模態(tài)特征在通道維度上進(jìn)行拼接,生成統(tǒng)一的跨模態(tài)特征;s460:將拼接后的跨模態(tài)特征被輸入到視覺狀態(tài)空間vssb模塊,進(jìn)行動(dòng)態(tài)融合處理,輸出跨模態(tài)融合特征。

9、優(yōu)選的,s500步驟具體包括:s510:通過線性層對(duì)模板特征、搜索特征的特征維度進(jìn)行線性變換,以減少冗余信息并保留主要語義特征;s520:將搜索特征切分為固定大小的特征塊,捕獲局部特征并保留部分全局上下文信息,并對(duì)模板特征通過降采樣進(jìn)行尺寸縮減,統(tǒng)一模板特征和搜索特征的特征尺度;s530:將分割后的搜索特征塊與降采樣后的模板特征交替輸入交替融合模塊,通過模態(tài)間的動(dòng)態(tài)交互機(jī)制進(jìn)行特征信息的整合;s540:通過二維選擇性掃描ss2d對(duì)交替融合后的特征進(jìn)行深度整合,得到模板特征和搜索特征的融合特征表示;s550:對(duì)模板特征進(jìn)行上采樣操作以恢復(fù)特征圖的原始尺寸,對(duì)搜索特征直接進(jìn)行特征合并;s560:將還原后的搜索特征、模板特征分別進(jìn)行層歸一化處理,以平衡特征的數(shù)值分布,并通過線性層對(duì)特征進(jìn)行進(jìn)一步增強(qiáng);s570:將歸一化處理后的搜索特征與初始的跨模態(tài)融合特征輸入進(jìn)行殘差操作,生成對(duì)齊特征圖。

10、優(yōu)選的,s600步驟具體包括:s610:將搜索特征作為目標(biāo)跟蹤檢測(cè)模塊的特征輸入,搜索區(qū)域的標(biāo)記填充序列重新解釋為二維空間特征圖,以提供完整的空間分布信息;s620:將對(duì)齊特征圖輸入到全卷積網(wǎng)絡(luò)fcn,通過全卷積網(wǎng)絡(luò)fcn生成目標(biāo)分類得分圖、局部偏移量,并預(yù)測(cè)目標(biāo)的邊界框尺寸,輸出為歸一化的值;s630:通過目標(biāo)分類得分圖,選擇分類得分最高的位置作為目標(biāo)中心點(diǎn),同時(shí)結(jié)合局部偏移量校正位置,確定目標(biāo)的最終坐標(biāo)。

11、優(yōu)選的,s610步驟中,采用三種損失函數(shù)聯(lián)合優(yōu)化目標(biāo)跟蹤檢測(cè)模塊:focal?loss損失函數(shù)使目標(biāo)分類中的正負(fù)樣本保持平衡;l1?loss損失函數(shù)用于邊界框偏移量的精確回歸,優(yōu)化預(yù)測(cè)框與真實(shí)框的誤差;giou?loss損失函數(shù)用于衡量預(yù)測(cè)框與真實(shí)框的重疊程度,以提高目標(biāo)定位的準(zhǔn)確性。

12、優(yōu)選的,s620步驟中,全卷積網(wǎng)絡(luò)fcn包括l層卷積、批歸一化和relu激活,通過多層卷積操作對(duì)特征進(jìn)行進(jìn)一步提取和壓縮,生成多個(gè)目標(biāo)相關(guān)的輸出,包括目標(biāo)分類得分圖、局部偏移量和歸一化邊界框尺寸。

13、實(shí)施本發(fā)明上述技術(shù)方案中的一個(gè)技術(shù)方案,具有如下優(yōu)點(diǎn)或有益效果:

14、本發(fā)明通過幀級(jí)同步、動(dòng)態(tài)上下文建模和高效模態(tài)融合,同時(shí),結(jié)合二維選擇性掃描ss2d機(jī)制、狀態(tài)空間建模和多模態(tài)交互操作,在動(dòng)態(tài)場(chǎng)景中實(shí)現(xiàn)高效處理。通過高效模態(tài)融合與狀態(tài)空間模型,顯著提升動(dòng)態(tài)場(chǎng)景中的目標(biāo)跟蹤精度和魯棒性,實(shí)現(xiàn)了良好的多模態(tài)目標(biāo)跟蹤性能。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1