日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

一種基于元強化學習的星地融合網絡路由方法及系統與流程

文檔序號:41984816發布日期:2025-05-23 16:40閱讀:22來源:國知局

本發明涉及衛星網絡通信,尤其涉及一種基于元強化學習的星地融合網絡路由方法及系統。


背景技術:

1、建設空天地一體化網絡是未來無線通信系統發展的重要方向,深度結合天基網絡、空基網絡、地基網絡,充分發揮不同網絡的維度優勢,提供高帶寬、大連接的全域一致通信服務,實現廣域全覆蓋的互聯聯通。其中,星地一體化融合組網路由技術為網絡中數據包的傳輸提供最優路徑,是空天地一體化通信網絡的核心功能之一。合理的路由決策能夠更合理地利用網絡資源,提升網絡性能。星地融合網絡拓撲復雜、傳輸時延大、部署成本高,這嚴重制約了空天地一體化網絡的性能。因此,具有星間鏈路的星地一體化融合網絡面臨的主要挑戰是建立最優路由策略。為解決星地融合網絡最優路由,急需解決的問題包括以下四方面:(1)低軌衛星的高速運動會導致網絡拓撲頻繁動態變化;(2)相對定位不穩定和復雜空間結構會導致潛在鏈路失效;(3)衛星功率、內存和帶寬有限,會導致通信開銷下降;(4)超大規模融合網絡使得維持高效率的數據包轉發相對困難。

2、主流的動態路由方法大部分依賴于最短路徑算法,可能會導致數據流頻繁的在相同的源和目的節點上傳輸,大量的數據涌入最短轉發路徑。基于最短路徑的路由算法容易造成負載不均衡、局部網絡擁塞,進而造成數據幀丟失、時延增長和時延抖動問題。此外也有結合深度強化學習方法來處理路由鏈路切換中數據包丟失、鏈路負荷不均的問題。但是仍存在以下問題:(1)強化學習方法在處理大規模網絡時處理訓練速度慢的問題;(2)天基衛星和地面基站環境差異大,地面網絡適用的路由算法不一定適用于天基衛星網絡;(3)事先訓練的最優路由決策僅僅適用于當前網絡,在拓撲結構變化后可能會性能下降。


技術實現思路

1、針對上述問題,本發明提出了一種基于元強化學習的星地融合網絡路由方法及系統,通過元強化學習智能化路由策略,解決現有強化學習方法訓練速度慢、多環境適應性問題,適用于星地融合網絡中天基、空基和地基多任務環境,彌補現有路由算法對于星地融合網絡場景下的局限性,提高計算網絡的性能和資源利用率,實現更高效、智能的路由策略。本發明的上述目的是通過以下技術方案得以實現的:

2、本發明提供了一種基于元強化學習的星地融合網絡路由方法,包括,

3、步驟s1、利用stk工具包構建星地融合網絡數據庫,并生成網絡拓撲結構;

4、步驟s2、創建一個用于存儲元強化學習訓練樣本的多任務經驗池;

5、步驟s3、基于星地融合網絡拓撲結構,定義確定最優路由的評價指標,并根據馬爾科夫決策過程構建星地融合網絡的狀態空間、動作空間和獎勵函數;

6、步驟s4、基于狀態空間、動作空間和獎勵函數,在馬爾科夫決策過程中構建在線神經網絡和目標神經網絡,根據在線神經網絡確定當前狀態的狀態q值,并在目標神經網絡中bellman方程更新狀態q值,采用經驗回放和貪婪搜索方法進行元強化學習訓練并選擇對應的智能體動作;

7、步驟s5、初始化元強化學習更新頻率和更新步數,通過在多個網絡結構并行訓練實現最優路由策略,測試基于元強化學習算法的星地融合網絡路由模型,評價路由決策性能。

8、進一步地,在步驟s1中,利用stk工具包構建星地融合網絡數據庫,并生成星地融合網絡拓撲結構,包括,

9、利用stk工具包構建星地融合網絡數據庫,星地融合網絡數據庫包含天基衛星星座、空基網絡基站、地基網絡基站的數據;并根據星地融合網絡數據庫獲取每個時隙的衛星運行數據、中繼站和地基網絡位置,其中,衛星運行數據包括軌道數據、大地極坐標和角速度;

10、基于每個時隙的衛星運行數據、中繼站和地基網絡位置,構建對應的網絡拓撲結構;其中,

11、為星地融合網絡中所有鏈路集合;

12、為網絡拓撲結構中的節點集合,包括天基衛星星座集合、空基網絡基站集合和地基網絡基站的集合為。

13、進一步地,在步驟s2中,構建存放元強化學習算法訓練樣本數據的多任務經驗池;包括,

14、構建個星地融合網絡,且每個星地融合網絡的最優路由任務被定義為一個馬爾科夫決策過程,其中為狀態空間矩陣,為動作空間矩陣,狀態轉移矩陣,獎勵矩陣;

15、在星地融合網絡執行最優路由任務過程中,星地融合網絡與環境交互產生經驗數據,并存儲在經驗池中,所有最優路由任務的經驗池組合構成多任務經驗池d。

16、進一步地,在步驟s3中,評價指標包括路徑帶寬、路徑延遲和/或路徑丟包率,路徑為星地融合網絡的源到目的的路徑,公式為,

17、路徑帶寬:;

18、路徑延遲:;

19、路徑丟包率:;

20、為鏈路的帶寬,為鏈路的延遲,為鏈路的丟包率;

21、鏈路的帶寬為;

22、鏈路的延遲為;

23、鏈路的丟包率為;

24、其中,為鏈路的容量,為鏈路的吞吐量,分別為時間間隔內收到的字節數;和分別為鏈路數據實際到達耗時和理論到達耗時;為時刻發送數據量,為時刻接收數據量。

25、進一步地,狀態空間為智能體觀察到的狀態集,狀態集中每個狀態對應星地融合網絡的源-目的節點對;基于在步驟s1中建立的網絡拓撲結構,狀態空間的大小為;

26、動作空間為對狀態空間中的狀態采取的動作集合,對于狀態集中給定的當前狀態,每個動作對應于特定端到端路徑;

27、獎勵函數r中的獎勵值為基于路徑的評價指標計算,并給出動作空間中潛在路徑的成本,公式為,

28、歸一化路徑帶寬:

29、歸一化路徑延遲:

30、歸一化路徑丟包率:

31、其中,為各個指標在數據集中的最小值和最大值;

32、在獎勵函數中,獎勵值與路徑帶寬成反比,與路徑延遲和丟包率成正比,具體定義為:

33、;

34、其中為獎勵函數權值。

35、進一步地,步驟s4包括,

36、構建目標神經網絡和在線神經網絡用于元強化學習,并通過在線神經網絡估計當前狀態的q值,目標神經網絡通過bellman方程更新下一狀態的值;公式為,

37、;

38、并在每個學習步驟訓練在線神經網絡減少損失函數,公式為,;

39、其中,在學習過程開始時,在線神經網絡和目標神經網絡的權重相同,在訓練階段,目標神經網絡的權重通過預定義的學習步驟進行周期性地更新,來匹配在線神經網絡。

40、進一步地,在線神經網絡和目標神經網絡具有相同的結構,包括輸入層、隱藏層和輸出層,對于狀態空間中的每個狀態,智能體將每個源和目的對編碼為一個狀態,輸入層有一個神經元,用于接收狀態作為神經網絡的輸入,輸出層具有個神經元,用于輸出動作空間中的個動作,輸出層中的每個神經元估計與動作相關聯的值。

41、進一步地,步驟s4還包括,

42、智能體將過去的決策經驗以的形式存儲在數據集中,對經驗進行批量采樣并對觀察到的數據進行離線訓練;

43、智能體采用衰減的貪婪搜索方法,通過一個可調參數確定智能體以概率進搜索,根據表達式,在整個學習過程中值通常從最大值開始以衰減率線性下降到最小值;智能體根據以下公式來選擇特定狀態中的下一動作;

44、。

45、進一步地,在步驟s5中,包括,

46、步驟s51、基于多任務經驗池中設定批訓練樣本數和在個不同星地融合網絡中的訓練更新步數,針對星地融合網絡初始化經驗池,隨機生成在線神經網絡權重,目標網絡權重;

47、步驟s52、將星地融合網絡的網絡拓撲結構輸入在線神經網絡,隨機抽樣獲得星地融合網絡的最優路由執行動作后獲取到下一時刻狀態,根據步驟3中獎勵函數計算獲得獎勵,并將決策數據存儲至經驗池。

48、步驟s53、當經驗池中經驗數大于批訓練樣本數時,隨機抽取經驗樣本作為元強化學習算法的訓練數據,并在訓練時針對在線神經網絡和目標神經網絡的損失函數進行學習率為的梯度下降以更新網絡權重;通過在個不同的星地融合網絡中的網絡拓撲結構下對元強化學習算法進行訓練,獲得對于任務的網絡權重,;

49、步驟s54、判斷是否達到設定訓練更新步數,若達到設定的訓練更新步數,則執行目標神經網絡和在線神經網絡的元強化學習步驟;否則執行步驟s51至步驟s53;

50、步驟s55:對個不同的飛行環境獲得的網絡權重進行元學習更新;

51、基于元強化學習更新需要決策策略最大化個不同環境下的獎勵:

52、

53、元強化學習更新過程如下:

54、

55、其中,表示經過元學習更新的元策略網絡權重,表示對任務采用梯度下降算法學習得到的網絡權重,表示元學習更新學習率。

56、基于相同的發明構思,本發明提供了一種基于元強化學習的星地融合網絡路由系統,采用如上述的星地融合網絡路由方法,包括,

57、網絡拓撲構建模塊,用于利用stk工具包構建星地融合網絡數據庫,并生成網絡拓撲結構;

58、多任務經驗池構建模塊,用于創建一個用于存儲元強化學習訓練樣本的多任務經驗池;

59、數據處理模塊,用于基于星地融合網絡拓撲結構,定義確定最優路由的評價指標,并根據馬爾科夫決策過程構建星地融合網絡的狀態空間、動作空間和獎勵函數;

60、元強化學習優化模塊,用于基于狀態空間、動作空間和獎勵函數,在馬爾科夫決策過程中構建在線神經網絡和目標神經網絡,根據在線神經網絡確定當前狀態的狀態q值,并在目標神經網絡中bellman方程更新狀態q值,采用經驗回放和貪婪搜索方法進行元強化學習訓練并選擇對應的智能體動作;

61、決策執行模塊,用于初始化元強化學習更新頻率和更新步數,通過在多個網絡結構并行訓練實現最優路由策略,測試基于元強化學習算法的星地融合網絡路由模型,評價路由決策性能。

62、與現有技術相比,本發明包括以下至少一種有益效果是:

63、本專利方法適用于星地融合網絡中天基、空基和地基多任務應用環境,經過較少訓練就能在新的網絡環境中實現最優的路由策略,合理地利用了網絡資源,解決了現有強化學習方法訓練速度慢、多環境適應性問題,提高了計算網絡的性能和資源利用率,實現更高效、智能的路由策略

64、(1)通過元強化學習智能化路由策略,解決現有強化學習方法環境適應性問題,適用于星地融合網絡中天基、空基和地基多任務環境,僅需要較小的訓練就能在新的網絡環境中實現最優的路由策略,彌補了現有路由算法對于星地融合網絡場景下的局限性。

65、(2)在時變拓撲結構中可以智能優化路由決策,可以通過多任務環境并行訓練方法提高了計算網絡的性能和資源利用率,有效解決了由于數據包丟失、鏈路負荷不均的問題,實現更高效、智能的路由策略。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1