本發明涉及智能計算中心、智算中心及算力基礎設施,具體涉及一種智能計算中心的算力資源節點健康監控方法及裝置。
背景技術:
1、隨著人工智能技術的快速發展,“智能計算中心”和“智算中心”應運而生。
2、“智能計算中心”是指通過使用大規模異構算力資源,包括通用算力和智能算力,主要為人工智能應用(如人工智能深度學習模型開發、模型訓練和模型推理等場景)提供所需算力、數據和算法的設施。智能計算中心涵蓋設施、硬件、軟件,并可提供從底層算力到頂層應用使能的全棧能力。
3、“智能計算中心”包括但不限于“智算中心”。
4、“智算中心”即人工智能計算中心,是基于人工智能理論,采用人工智能計算架構,提供人工智能應用所需算力服務、數據服務和算法服務的一類算力基礎設施。
5、“算力”是“智能計算中心”和“智算中心”的核心,是計算機設備或計算/數據中心處理信息的能力,是計算機硬件和軟件配合共同執行某種計算需求的能力,是通過對信息數據進行處理,實現目標結果輸出的計算能力,是集信息計算力、網絡運載力、數據存儲力于一體的新型生產力,主要通過算力基礎設施向社會提供服務。
6、目前,智能計算中心在為用戶提供算力服務的過程中,算力資源中計算節點相關的監測數據需要用戶進行手動調取,使得用戶無法直接獲知當前算力資源中的計算節點健康,效率低且工作繁瑣,進而導致算力資源的運維效率很低的問題。
技術實現思路
1、本發明實施例提供一種智能計算中心的算力資源節點健康監控方法及裝置,用于解決算力資源的運維效率很低的問題。
2、為解決上述問題,本發明是這樣實現的:
3、第一方面,本發明實施例提供一種智能計算中心的算力資源節點健康監控方法,包括:
4、步驟s1、對算力資源中的多個計算節點進行監測,得到所述多個計算節點分別在目標時間段內的多個節點數據集合,所述節點數據集合包括所對應的計算節點的節點監測數據,所述節點監測數據包括以下至少一項:節點狀態數據、節點故障數據和節點資源利用率;
5、步驟s2、基于所述多個節點數據集合進行節點健康度計算,得到與所述多個計算節點一一對應的多個節點健康信息,其中,所述節點健康信息用于表征所對應的計算節點在所述目標時間段的節點健康狀態;
6、步驟s3、基于所述多個計算節點的節點健康信息生成可視化圖表,所述可視化圖表用于表征所述多個計算節點在所述目標時間段內的節點健康信息。
7、在一個實施例中,所述步驟s1包括:
8、步驟s11:基于預設時間間隔在所述目標時間段內確定多個時刻,所述多個時刻中,任意相鄰的兩個時刻之間的時間間隔為所述預設時間間隔;
9、步驟s12:按照所述多個時刻分別對所述多個計算節點中每個計算節點進行監測,得到所述每個計算節點分別在目標時間段內的節點數據集合;
10、其中,所述節點數據集合包括所述每個計算節點分別在所述多個時刻的所述節點監測數據,所述節點健康信息包括所述每個計算節點分別在所述多個時刻的節點健康度。
11、在一個實施例中,在目標節點健康度大于或者等于第一閾值的情況下,所述可視化圖表包括第一標記信息,所述第一標記信息用于指示所述目標節點健康度的健康等級為第一健康等級;
12、在目標節點健康度小于所述第一閾值,且所述目標節點健康度大于或者等于第二閾值的情況下,所述可視化圖表包括第二標記信息,所述第二標記信息用于指示所述目標節點健康度的健康等級為第二健康等級;
13、在目標節點健康度小于所述第二閾值的情況下,所述可視化圖表包括第三標記信息,所述第三標記信息用于指示所述目標節點健康度的健康等級為第三健康等級;
14、其中,所述第一健康等級高于所述第二健康等級,所述第二健康等級高于所述第三健康等級,所述第一閾值大于所述第二閾值,所述目標節點健康度為所述每個計算節點分別在所述多個時刻的節點健康度中的任一節點健康度。
15、在一個實施例中,所述節點監測數據包括多個節點健康指標數據,所述步驟s2包括:
16、步驟s21:確定與所述多個節點健康指標數據一一對應的多個權重值;
17、步驟s22:將目標節點監測數據中的多個節點健康指標數據和所述多個權重值進行加權計算,得到目標計算節點在目標時刻對應的節點健康度;
18、其中,所述目標節點監測數據為目標計算節點在所述多個時刻的節點監測數據中的任意一個節點監測數據,所述目標計算節點為所述多個計算節點中的任意一個計算節點,所述目標時刻為所述多個時刻中,與所述目標節點監測數據對應的時刻。
19、在一個實施例中,所述第一標記信息、所述第二標記信息和所述第三標記信息為所述可視化圖表中的顏色標識信息,且所述第一標記信息、所述第二標記信息和所述第三標記信息中,任意兩種對應的顏色標識信息不同。
20、在一個實施例中,所述第一標記信息、所述第二標記信息和所述第三標記信息為所述可視化圖表中的預設圖標,且所述第一標記信息、所述第二標記信息和所述第三標記信息中,任意兩種對應的預設圖標不同。
21、第二方面,本發明實施例還提供一種智能計算中心的算力資源節點健康監控裝置,包括:
22、監測模塊,用于對算力資源中的多個計算節點進行監測,得到所述多個計算節點分別在目標時間段內的多個節點數據集合,所述節點數據集合包括所對應的計算節點的節點監測數據,所述節點監測數據包括以下至少一項:節點狀態數據、節點故障數據和節點資源利用率;
23、計算模塊,用于基于所述多個節點數據集合進行節點健康度計算,得到與所述多個計算節點一一對應的多個節點健康信息,其中,所述節點健康信息用于表征所對應的計算節點在所述目標時間段的節點健康狀態;
24、生成模塊,用于基于所述多個計算節點的節點健康信息生成可視化圖表,所述可視化圖表用于表征所述多個計算節點在所述目標時間段內的節點健康信息。
25、第三方面,本發明還提供一種電子設備,包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執行時實現如上述第一方面所述的智能計算中心的算力資源節點健康監控方法中的步驟。
26、第四方面,本發明還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如上述第一方面所述的智能計算中心的算力資源節點健康監控方法中的步驟。
27、第五方面,本發明還提供一種計算機程序產品,包括計算機指令,所述計算機指令被處理器執行時實現如上述第一方面所述的智能計算中心的算力資源節點健康監控方法中的步驟。
28、在本發明實施例中,對算力資源中的多個計算節點進行監測,得到所述多個計算節點分別在目標時間段內的多個節點數據集合,所述節點數據集合包括所對應的計算節點的節點監測數據,所述節點監測數據包括以下至少一項:節點狀態數據、節點故障數據和節點資源利用率;基于所述多個節點數據集合進行節點健康度計算,得到與所述多個計算節點一一對應的多個節點健康信息,其中,所述節點健康信息用于表征所對應的計算節點在所述目標時間段的節點健康狀態;基于所述多個計算節點的節點健康信息生成可視化圖表,所述可視化圖表用于表征所述多個計算節點在所述目標時間段內的節點健康信息。這樣,通過多個計算節點分別在目標時間段內的多個節點數據集合,確定多個計算節點一一對應的多個節點健康信息,并采用可視化圖表的方式向用戶呈現,實現了算力資源節點健康的自動化判斷與可視化呈現,使得用戶可以快速且同時掌握多個計算節點的節點健康狀態,進而可以基于可視化圖表對算力資源進行及時調整,從而能夠提高大幅度算力資源的運維效率。