本技術涉及搜索路徑規劃,具體涉及一種基于深度強化學習的搜索路徑規劃方法、裝置及評估方法。
背景技術:
1、在復雜環境中進行路徑規劃是無人機巡檢、機器人導航以及自動化搜索與救援等技術應用中的核心問題。
2、現有路徑規劃技術主要分為傳統算法與基于人工智能的強化學習方法兩大類。傳統路徑規劃算法(如a*算法、dijkstra算法等)通過靜態環境建模進行路徑優化,雖然計算效率較高,但在動態環境或大規模復雜場景中適應性和魯棒性較差。相比之下,深度強化學習因其自適應學習能力和對動態環境的高效處理,逐漸成為路徑規劃領域的重要研究方向。
3、現有技術在實際應用中仍存在以下兩大主要問題:首先,大多數強化學習路徑規劃方法以找到最優路徑為目標,缺乏對目標區域的覆蓋能力,尤其是在需要對環境進行全面信息采集或大范圍目標搜尋時存在明顯局限性,容易陷入局部最優;其次,現有的強化學習算法在面對復雜任務時往往難以同時兼顧效率與穩定性,可能導致路徑規劃時間過長或結果偏離全局最優,影響實際應用效果。
技術實現思路
1、本技術提供一種基于深度強化學習的搜索路徑規劃方法、裝置及評估方法,能夠解決現有技術中存在強化學習算法在面對復雜任務時往往難以同時兼顧效率與穩定性,可能導致路徑規劃時間過長或結果偏離全局最優,影響實際應用效果的問題。
2、為達到以上目的,本發明采取的技術方案是:
3、一方面,本發明提供一種基于深度強化學習的搜索路徑規劃方法,包括以下步驟:
4、基于搜索環境參數,建立關于探測能力的環境矩陣,并設定起點;
5、已訓練好的神經網絡基于智能體的當前位置、獎勵函數和環境矩陣,輸出各動作對應的q值,所述獎勵函數根據當前位置及其與目標點的距離、當前位置鄰域的探測能力以及未訪問區域數量設計;
6、智能體根據q值最大對應的動作執行每下一步動作。
7、在一些可選的方案中,獎勵函數根據當前位置及其與目標點的距離、當前位置鄰域的探測能力以及未訪問區域數量設計,包括:
8、根據當前位置,設計當前位置探測能力獎勵;
9、根據當前位置與目標點的距離,設計目標距離獎勵;
10、根據當前位置鄰域的探測能力,設計鄰域探測能力獎勵;
11、根據未訪問區域數量,設計未訪問區域獎勵;
12、根據當前位置探測能力獎勵、目標距離獎勵、鄰域探測能力獎勵和未訪問區域獎勵,設計獎勵函數。
13、在一些可選的方案中,所述獎勵函數為:
14、;
15、其中,代表智能體的當前位置,為執行動作 a后位于位置s處對應的多因素即時獎勵,為當前位置探測能力獎勵,為目標距離獎勵,為鄰域探測能力獎勵,為未訪問區域獎勵,為目標距離獎勵權重,為鄰域探測能力獎勵權重,為未訪問區域獎勵權重。
16、在一些可選的方案中,當前位置探測能力獎勵,其中,為當前位置的探測能力值,i,j分別為環境矩陣行列編號;
17、目標距離獎勵,其中,為智能體當前位置與目標點之間的歐幾里得距離,為距離獎勵的權重參數,為智能體當前位置,為目標點位置;
18、鄰域探測能力獎勵,其中,為當前位置的鄰域范圍,n為當前執行時間步序號,為時間步n時刻智能體位置的探測能力;
19、未訪問區域獎勵,其中,為調整獎勵的超參數,為時間步t時刻根據獎勵函數得到的多因素即時獎勵,為位置是否為未訪問區域的記錄,t為時間步序號,為當前位置的探測能力值。
20、在一些可選的方案中,所述智能體根據動作指令執行動作時,當執行動作會使智能體超出邊界條件或進入已搜索位置時,智能體保持當前位置不變。
21、在一些可選的方案中,在所述神經網絡基于智能體的當前位置、獎勵函數和環境矩陣,輸出各動作對應的q值前,還對神經網絡進行訓練,得到已訓練好的神經網絡,訓練時,神經網絡參數的每一次更新包括以下步驟:
22、根據各動作的獎勵值,確定最大獎勵值對應的目標q值;
23、根據該目標q值,確定均方誤差損失值;
24、根據均方誤差損失值,更新神經網絡的參數。
25、在一些可選的方案中,根據貝爾曼方程,確定目標q值;其中,為時間步t時刻根據獎勵函數得到的多因素即時獎勵,為折扣因子,為目標q值,為下一狀態所有可能動作的最大q值,為智能體時間步t+1時刻的位置,為最大q值對應的待執行動作,為神經網絡目標參數,表示完成任務,表示尚未完成任務;
26、根據均方誤差損失函數,均方誤差損失值;
27、其中,為目標q值,為當前q網絡對于給定位置狀態和動作的預測q值,為智能體時間步t時刻的位置,為智能體時間步t時刻的動作,為神經網絡當前參數,表示均方誤差損失函數,為均方誤差損失值。
28、第二方面,本發明提供一種基于深度強化學習的搜索路徑規劃裝置,包括:
29、環境建立模塊,其用于基于搜索環境參數,建立關于探測能力的環境矩陣;
30、神經網絡模塊,其用于基于智能體的當前位置、獎勵函數和環境矩陣,輸出各動作對應的q值,所述獎勵函數根據當前位置及其與目標點的距離、當前位置鄰域的探測能力以及未訪問區域數量設計;
31、智能體,其用于根據q值最大對應的動作執行每下一步動作。
32、第三方面,本發明一種搜索路徑規劃評估方法,其特征在于,用于評估上述任一項的搜索路徑規劃方法,該評估方法包括以下步驟:
33、初始化環境矩陣,并設定起點和目標點;
34、每一個路徑規劃步驟中,基于智能體的當前位置、獎勵函數和環境矩陣,利用神經網絡選擇最優動作;
35、同步更新記錄路徑和累計探測能力,并標記已搜索位置,直到到達最大的覆蓋面積或智能體經過若干步之后探測能力沒有增長,輸出規劃路徑;
36、基于規劃路徑中的已搜索位置索引,對規劃路徑進行效能評估。
37、在一些可選的方案中,所述的基于規劃路徑中的已搜索位置索引,對規劃路徑進行效能評估,包括:
38、根據路徑累積探測能力值,對覆蓋程度進行評估;
39、根據累計搜索覆蓋率,對搜索覆蓋率進行評估;
40、其中,為路徑累積探測能力值,t為路徑規劃的時間步數,k為路徑規劃的時間步序號,為第k時間步對應智能體位置的探測能力,為累計搜索覆蓋率,表示i行j列位置是否被訪問,1為訪問,0為未訪問,m環境矩陣行數,n為環境矩陣列數。
41、與現有技術相比,本發明的優點在于:通過根據當前位置及其與目標點的距離、當前位置鄰域的探測能力以及未訪問區域數量設計獎勵函數,綜合考慮覆蓋范圍和路徑優化的改進型獎勵函數,通過引入鄰域探測能力獎勵、未訪問點激勵及動態目標距離獎勵等多因素,提升路徑規劃的覆蓋均勻性和全局性能。以解決現有的強化學習算法在面對復雜任務時往往難以同時兼顧效率與穩定性,可能導致路徑規劃時間過長或結果偏離全局最優,影響實際應用效果的問題。