本發明屬于無人機搜索路徑規劃領域,尤其涉及一種基于d2d通信的無人機搜索路徑規劃方法及設備。
背景技術:
1、隨著無人機技術的快速發展,無人機在搜索、救援、偵察等領域的應用越來越廣泛。特別是在復雜環境中,如山區、城市建筑群等,無人機的搜索效率和能力顯得尤為重要。傳統的無人機搜索路徑規劃方法大多依賴于預設的地圖和路徑,然而,在實際應用中,由于環境復雜多變,預設路徑往往無法滿足實際需求,導致搜索效率低下,甚至可能遺漏目標區域。
2、此外,當使用多個無人機進行分布式協同搜索時,如何確保各個無人機之間的信息共享和協同決策,從而為無人機確定搜索路徑成為一個關鍵問題。傳統的無人機協同方法通常依賴于地面控制站進行集中控制,這不僅增加了通信延遲,還限制了無人機的自主性和靈活性。而分布式無人機協同決策方案在一定程度上提高了無人機的自主性和靈活性,但求解全局最優解的算法往往非常復雜,受環境變化影響較大,甚至可能出現決策結果偏離全局最優解的情況。
3、近年來,d2d(device-to-device,設備到設備)通信技術因其能夠減少延遲、提高能效和增加網絡容量等優點,被廣泛應用于無人機通信中。然而,無人機通過d2d通信進行信息共享時,存在頻譜沖突的問題,這成為制約其應用的關鍵因素之一。具體來說,當多個無人機在同一頻段進行d2d通信時,由于頻譜資源的有限性,可能導致嚴重的頻譜沖突,進而影響通信質量和效率。這種沖突在無人機數量較多或通信環境復雜的情況下尤為顯著,可能導致信息傳輸的中斷或延遲,從而影響無人機之間的信息共享和協同決策,無法實現無人機搜索路徑規劃。
4、因此,亟需一種新型的基于d2d通信的無人機搜索路徑規劃方法及設備,該方法和設備能夠實現無人機之間的信息共享和分布式協同決策,提高無人機搜索路徑規劃的智能化水平,從而提高無人機搜索作業效率。
技術實現思路
1、針對上述現有技術中存在的缺陷,本發明提供一種基于d2d通信的無人機搜索路徑規劃方法,所述無人機的數量大于等于兩個,每個無人機均作為一個獨立的智能體,所述方法包括以下步驟:
2、s1:每個所述無人機均通過傳感器實時采集周圍環境信息,基于所述周圍環境信息構建與自身對應的三維環境模型,所述三維環境模型至少包括地形信息和障礙物位置信息,所述三維環境模型根據所述無人機采集的周圍環境信息動態更新;
3、s2:基于所述三維環境模型,每個所述無人機利用改進的深度確定性策略梯度模型進行初步路徑規劃,確定當前三維環境模型中,所述無人機從當前位置到目標區域的初步最優路徑;
4、s3:所述無人機通過d2d通信進行信息共享,所述信息包括所述初步最優路徑、地形信息、障礙物信息以及所述無人機的電池狀態信息;所述無人機包括d2d通信單元,所述d2d通信單元包括頻譜感知模塊和頻譜分配模塊;
5、s4:基于所述共享的信息,所述無人機之間基于一致性算法進行分布式協同決策,確保多個無人機在搜索過程中保持一致的搜索方向和搜索速度,同時避免碰撞和重復搜索,根據所述分布式協同決策結果,確定每個無人機的搜索策略,其中,所述搜索策略包括最終搜索路徑;
6、s5:所述無人機按照所述搜索策略進行搜索,并對所述三維環境模型進行更新,返回步驟s2,重新進行搜索路徑規劃,直至多個所述無人機完成搜索任務。
7、所述步驟s2中,所述改進的深度確定性策略梯度模型通過預訓練得到,所述訓練包括以下步驟:
8、s21:定義所述無人機的狀態空間s和動作空間a,狀態空間s={p,v,g},其中,p=(x,y,z),表示所述無人機在三維空間中的位置信息,x、y和z分別表示所述無人機在三個軸向上的位置;表示所述無人機在三維空間中的速度信息,,和分別表示所述無人機在三個軸向上的速度;?,表示所述無人機姿態信息,,和分別表示所述無人機的橫滾角、俯仰角和偏航角;動作空間a表示所述無人機在飛行過程中采取的所有可能動作,動作向量是動作空間a中的一個元素,,其中表示所述無人機在三維空間中的速度變化情況,,,分別表示所述無人機在三個軸向上的速度變化,,和分別表示所述無人機的橫滾角變化率、俯仰角變化率和偏航角變化率;
9、s22:初始化actor網絡和critic網絡,其中actor網絡為,critic網絡為,其中s表示所述無人機狀態,,和分別表示所述actor網絡和critic網絡的權重參數;經驗回放池d,用于存儲狀態、動作、獎勵和下一狀態的元組;目標網絡參數和,作為和的副本,用于穩定訓練過程;設置獎勵函數為,其中是狀態的即時獎勵;
10、s23:將元組存儲到經驗回放池d中;
11、s234:從經驗回放池d中采樣一批元組;
12、s235:計算目標q值:
13、,;
14、其中,是該批元組對應的目標q值;是折扣因子,和是目標網絡;
15、s236:使用均方誤差損失函數更新critic網絡:
16、;
17、使用策略梯度方法更新actor網絡:
18、;
19、其中,和均為學習率;
20、s237:在每個時間步后,使用軟更新規則更新目標網絡的參數:
21、;
22、;
23、其中,是軟更新系數,;表示賦值;
24、重復上述步驟,直至actor網絡收斂。
25、所述步驟s234中,所述從經驗回放池d中采樣一批元組,具體包括:
26、對于每個存儲的經驗元組,計算其優先級;
27、;;;
28、其中,為校正參數;
29、將優先級與經驗元組一并存儲在經驗回放池;
30、根據優先級概率分布從經驗回放池中采樣一批元組,所述優先級概率分布通過下式計算得到:
31、?;
32、其中,ext表示調節優先級影響程度的參數,m和n表示第m和第n個經驗元組。
33、所述頻譜感知模塊用于對所述無人機的無線通信環境進行監測和分析,以確定頻譜感知結果,所述頻譜感知結果包括頻譜占用情況、信號強度和干擾水平;
34、所述頻譜分配模塊用于根據所述頻譜感知結果確定所述無人機的通信頻譜。
35、所述頻譜分配模塊用于根據所述頻譜感知結果確定所述無人機的通信頻譜,具體包括:
36、s31:所述頻譜分配模塊通過無線通信鏈路與其他無人機交換所述頻譜感知結果,從而獲得多個所述頻譜感知結果;
37、s32:基于所述多個頻譜感知結果構建頻譜相似度矩陣,所述頻譜相似度矩陣中的每個元素表示兩個頻譜資源之間的相似度;
38、s33:根據譜聚類算法和所述頻譜相似度矩陣,對頻譜資源進行聚類,得到頻譜聚類結果;
39、s34:基于所述頻譜聚類結果,根據預先設置的通信優先級,確定所述無人機自身的通信頻譜;
40、s35:將所述通信頻譜通過所述無線通信鏈路發送給其他無人機進行協商,在協商一致的情況下,所述頻譜分配模塊將所述通信頻譜確定為該無人機最終的可用通信頻譜;若協商不一致,根據所述通信頻譜對所述頻譜感知結果進行更新,返回步驟s31。
41、所述步驟s4中,所述一致性算法為raft算法,所述無人機之間基于一致性算法進行分布式協同決策,確保多個無人機在搜索過程中保持一致的搜索方向和搜索速度,同時避免碰撞和重復搜索,根據所述分布協同決策結果,確定每個無人機的搜索策略,包括:
42、所述領導者將接收到的所述初步最優路徑、地形信息、障礙物信息以及所述無人機的電池狀態信息作為日志條目寫入本地日志;其中,所述領導者由所述多個無人機進行投票確定;
43、在所述日志被提交后,所述領導者整合各個所述無人機的所述初步最優路徑、地形信息、障礙物信息以及所述無人機的電池狀態信息,判斷各個無人機的所述初步最優路徑是否發生沖突;
44、在發生沖突的情況下,根據所述地形信息、障礙物信息以及所述無人機的電池狀態信息對所述初步最優路徑進行優化,并將優化后的所述初步最優路徑作為該無人機的最終搜索路徑;
45、在未發生沖突的情況下,將所述無人機的所述初步最優路徑確定該無人機的最終搜索路徑;
46、所述領導者將所述最終搜索路徑作為協商后的搜索策略,發送給對應的所述無人機。
47、所述步驟s3中,所述信息還包括所述無人機的速度信息;所述領導者將接收到的所述初步最優路徑、地形信息、障礙物信息以及所述無人機的電池狀態信息、速度信息作為日志條目寫入本地日志,在所述日志被提交后,所述領導者對所述初步最優路徑、地形信息、障礙物信息以及所述無人機的電池狀態信息、速度信息進行整合。
48、在所述領導者將所述最終搜索路徑作為協商后的搜索策略后,所述領導者對各個所述最終搜索路徑進行微調,以確保每個所述無人機的搜索方向一致,并根據整合后的所述速度信息、所述地形信息、障礙物信息以及所述無人機的電池狀態信息為多個所述無人機設定統一的搜索速度;所述領導者將微調后的所述最終搜索路徑和所述統一的搜索速度作為協商后的所述搜索策略,發送給對應的所述無人機。
49、本發明還公開了一種電子設備,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現上述任一所述的方法的步驟。
50、本發明中每個無人機均作為一個獨立的智能體,根據強化學習算法確定自身所處三維環境模型的初步最優搜索路徑,并將初步最優搜索路徑、三維環境信息和自身狀態信息通過d2d通信共享給其他無人機,多個無人機之間基于上述信息通過一致性算法進行分布式協同決策。即本發明實現了在無人機作為智能體基于強化學習算法進行一次路徑規劃決策的基礎上,多個無人機之間通過一致性算法進行二次分布式協同決策,在二次分布式協同決策時僅需判斷初步最優搜索路徑是否發生沖突,避免了現有方案中無人機分布式協同決策時求取全局最優解算法復雜度較高的問題,同時提高了無人機路徑規劃決策的效率和準確性。在強化學習時采用優先經驗回放機制來提高采樣效率,減小參數更新的方差,加速算法收斂,使得算法更加適用于無人機計算資源受限的場景。本發明在無人機中設置頻譜感知模塊和頻譜分配模塊,通過協商確定無人機最終的可用通信頻譜,保障無人機初步最優搜索路徑等信息的準確傳輸,避免通信沖突等錯誤造成無人機協同決策參數和條件頻繁調整,提高了分布式協同決策的魯棒性。