本技術涉及栽培,具體而言,涉及一種基于vla的雙孢菇自主采摘方法及系統。
背景技術:
1、雙孢菇作為一種重要的食用菌,其工廠化栽培已逐漸向高密度、立體化模式發展。在雙孢菇的自動化采摘作業中,準確識別成熟菇體并生成精細的機械臂控制指令是實現無人化作業的關鍵。近年來,隨著具身智能(embodied?ai)技術的興起,視覺-語言-動作(vision-language-action,vla)大模型因其能夠理解自然語言指令并直接生成動作序列的能力,成為農業機器人控制領域的研究熱點。
2、現有的通用vla模型,如rt-2等在處理視覺信息時,通常采用標準的視覺變換器(vision?transformer,?vit)架構,將輸入的視覺觀測圖像直接切割成固定大小的圖像塊(patches),并將這些圖像塊線性映射為長序列的視覺標記(visual?tokens),隨后與文本指令標記拼接輸入模型主干進行推理。然而,這種通用的視覺編碼方式在面對雙孢菇栽培環境時顯露出不足。
3、雙孢菇的生長場景具有高度的非結構化和密集特征,栽培架上往往混雜著菌袋、覆蓋土、支架等復雜的背景結構,且不同生長周期的蘑菇尺寸差異大,并存在相互遮擋。現有的直接圖像塊切分方法一視同仁地處理前景目標與背景噪聲,導致生成的視覺特征序列中包含了大量表征泥土或支架的冗余信息,稀釋了關鍵的蘑菇特征;同時,單一尺度的圖像塊編碼難以兼顧對微小幼菇的捕捉和巨大成熟菇的整體表征。這些問題直接導致vla模型在推理時難以從嘈雜的視覺輸入中精準聚焦作業對象,進而造成采摘動作生成偏差、定位不準甚至誤傷周圍菌株。
4、因此,如何在復雜密集的非結構化場景下,提高vla模型對關鍵視覺信息的提取能力,以增強動作生成的準確性和魯棒性,成為當前基于vla的農業采摘機器人亟待解決的技術難題。
技術實現思路
1、針對現有技術的不足,本技術提供了一種基于vla的雙孢菇自主采摘方法及系統。
2、第一方面,本技術提供了一種基于vla的雙孢菇自主采摘方法,包括:
3、獲取目標場景的采摘任務描述信息及視覺觀測數據;對所述視覺觀測數據進行編碼,得到視覺特征序列;
4、基于所述視覺特征序列構建多尺度視覺特征圖,并利用對象查詢向量與所述多尺度視覺特征圖之間的交叉注意力計算,生成對象級視覺標記序列;
5、將所述采摘任務描述信息編碼為文本標記序列,并將所述文本標記序列與所述對象級視覺標記序列映射至統一語義空間并拼接,得到聯合語義序列;將所述聯合語義序列輸入預訓練的vla模型主干,通過自回歸預測生成動作標記序列;
6、根據所述動作標記序列解碼得到采摘控制指令,并基于所述采摘控制指令控制采摘設備執行雙孢菇采摘動作。
7、可選的,所述對所述視覺觀測數據進行編碼,得到視覺特征序列包括:
8、在預設時間窗口內獲取連續多幀視覺觀測圖像,將所述多幀視覺觀測圖像劃分為多個圖像塊,并將不同時間幀中空間位置對應的圖像塊組合構成時空單元;
9、對各所述時空單元執行線性映射與時空位置編碼,生成時序視覺標記序列,作為所述視覺特征序列。
10、可選的,所述對各所述時空單元執行線性映射與時空位置編碼包括:
11、根據預先標定的雙孢菇栽培架幾何布局信息,為各所述時空單元分配對應的層級索引、行索引和列索引,將所述層級索引、行索引和列索引經嵌入映射得到結構位置編碼,并將所述結構位置編碼與針對圖像塊的空間位置編碼疊加后作為所述時空位置編碼,以在所述時序視覺標記序列中區分不同層級、行列的時空單元。
12、可選的,在對各所述時空單元執行線性映射與時空位置編碼之前,還包括:
13、基于雙孢菇栽培圖像對各幀視覺觀測圖像中的菌蓋邊緣區域進行標定,將落入所述菌蓋邊緣區域的時空單元標記為高敏感區域,將落入背景結構區域的時空單元標記為低敏感區域;
14、其中,所述背景結構區域包括菌袋區域、支架區域以及不包含雙孢菇菌蓋的栽培基質區域,并且在對所述高敏感區域的時空單元進行所述時空位置編碼時采用第一時間權重,在對所述低敏感區域的時空單元進行所述時空位置編碼時采用區別于所述第一時間權重的第二時間權重,以生成對菌蓋邊緣局部形變更敏感的所述時序視覺標記序列。
15、可選的,所述對各幀視覺觀測圖像中的菌蓋邊緣區域進行標定包括:
16、利用針對雙孢菇訓練得到的分割網絡或檢測網絡,對所述視覺觀測圖像進行推理,獲得表征菌蓋區域的分割掩膜或目標框;
17、基于菌蓋外輪廓的幾何形狀特征和灰度分布特征對所述視覺觀測圖像執行邊緣檢測和區域生長,提取菌蓋邊緣所在區域,作為所述菌蓋邊緣區域。
18、可選的,所述基于所述視覺特征序列構建多尺度視覺特征圖包括:
19、基于所述視覺特征序列獲得至少兩個空間分辨率不同的視覺特征圖;
20、對各所述視覺特征圖在預設局部鄰域內計算幾何響應指標,所述幾何響應指標反映所述局部鄰域內的邊緣曲率或二階梯度強度;
21、針對同一空間位置,依據該空間位置在不同空間分辨率下的幾何響應指標確定幾何顯著性權重,并根據所述幾何顯著性權重對各所述視覺特征圖在對應空間位置進行加權融合,得到所述多尺度視覺特征圖。
22、可選的,所述對各所述視覺特征圖在預設局部鄰域內計算幾何響應指標包括:
23、基于各所述時空單元的層級索引、行索引以及列索引,為視覺特征圖中的每一空間位置定義與雙孢菇栽培架結構對齊的局部鄰域,所述局部鄰域沿栽培架行向和列向延展,并限定在同一層級和/或相鄰層級對應的空間位置范圍內;
24、在所述局部鄰域內對各所述視覺特征圖執行水平方向和垂直方向的一階導數卷積,得到梯度分量,并基于所述梯度分量構建局部結構張量并求取所述結構張量的主方向梯度強度,所述主方向梯度強度作為所述幾何響應指標。
25、可選的,所述生成對象級視覺標記序列包括:
26、基于各所述時空單元的層級索引、行索引以及列索引,確定與雙孢菇栽培架結構單元對應的結構錨點,并將各所述結構錨點經嵌入映射得到的結構錨點向量與預設可學習查詢基向量組合,生成帶有栽培架結構位置信息的對象查詢向量;
27、基于各所述結構錨點在所述多尺度視覺特征圖中的對應空間位置,構建與相應栽培架層級和行列單元對齊的注意力掩模區域,所述注意力掩模區域限定在與所述結構錨點處于同一層級和/或相鄰層級的預設行列鄰域內;
28、在各所述注意力掩模區域內,以對應的所述對象查詢向量為查詢向量、以所述多尺度視覺特征圖中落入所述注意力掩模區域的特征向量為鍵向量和值向量執行交叉注意力計算,將交叉注意力輸出作為對應結構錨點的對象級視覺標記,得到所述對象級視覺標記序列。
29、可選的,所述得到聯合語義序列包括:
30、基于預設語義字典,將所述文本標記序列和所述對象級視覺標記序列輸入統一語義映射模塊,分別映射為位于共同語義表示空間內的第一語義表示和第二語義表示,所述語義字典包括用于表征雙孢菇栽培架層級、行列位置以及目標蘑菇成熟度、尺寸和與栽培架支撐結構相對位置關系的多個語義原子;
31、在所述共同語義表示空間內,針對所述第一語義表示求解關于所述語義字典的稀疏系數向量,得到第一語義稀疏系數;針對各所述第二語義表示分別求解關于所述語義字典的稀疏系數向量,得到與各對象級視覺標記一一對應的第二語義稀疏系數集合;
32、將所述第一語義稀疏系數與各所述第二語義稀疏系數中分別對應于用于表征栽培架層級、行列位置、目標蘑菇成熟度、尺寸以及目標蘑菇與栽培架支撐結構之間相對位置關系的語義原子的系數項,作為語義約束系數附加到對應的對象級視覺標記上,并與所述文本標記序列一起排列,形成所述聯合語義序列。
33、第二方面,本技術提供了一種基于vla的雙孢菇自主采摘系統,包括:
34、采集模塊,用于獲取目標場景的采摘任務描述信息及視覺觀測數據;對所述視覺觀測數據進行編碼,得到視覺特征序列;
35、第一生成模塊,基于所述視覺特征序列構建多尺度視覺特征圖,并利用對象查詢向量與所述多尺度視覺特征圖之間的交叉注意力計算,生成對象級視覺標記序列;
36、第二生成模塊,用于將所述采摘任務描述信息編碼為文本標記序列,并將所述文本標記序列與所述對象級視覺標記序列映射至統一語義空間并拼接,得到聯合語義序列;將所述聯合語義序列輸入預訓練的vla模型主干,通過自回歸預測生成動作標記序列;
37、控制模塊,用于根據所述動作標記序列解碼得到采摘控制指令,并基于所述采摘控制指令控制采摘設備執行雙孢菇采摘動作。
38、與現有技術相比,本技術通過在vla前端構建面向采摘任務的視覺表示與語義表示,形成從視覺特征序列、多尺度視覺特征圖、對象級視覺標記到聯合語義序列再到動作標記序列的統一決策鏈路,使得模型在復雜密集栽培架場景下能夠針對性地強化與采摘決策相關的關鍵視覺信息。一方面,基于視覺特征序列構建多尺度視覺特征圖,并引入對象查詢向量與多尺度視覺特征圖之間的交叉注意力計算,在對象級粒度上抽取視覺標記序列,使vla模型關注到具體雙孢菇目標及其空間關系,而不僅是全局粗粒度圖像特征,從而在遮擋嚴重、背景結構復雜的條件下,仍能獲得具有較高區分度的對象級視覺表征。
39、另一方面,本技術將采摘任務描述信息編碼為文本標記序列,并與對象級視覺標記序列映射至統一語義空間并拼接,構建聯合語義序列,再由預訓練vla模型主干以自回歸方式直接生成動作標記序列,實現從自然語言任務描述和視覺場景到采摘動作序列的端到端多模態推理。與現有檢測結果、規則規劃、控制指令分段式架構相比,本技術在同一模型內部聯合建模任務語義、對象級視覺信息和動作決策,使動作生成過程能夠更緊密地依賴關鍵視覺線索和任務約束,減少中間表示轉換帶來的信息損失和工程耦合問題,有利于在復雜密集的非結構化栽培場景下提升動作生成的準確性和魯棒性,降低誤采、漏采和軌跡不穩定的風險。