本發明涉及人工智能,尤其涉及一種無監督的新聞自動分類方法。
背景技術:
1、文本分類(text?classification?或?text?categorization,tc),又稱自動文本分類(automatic?text?categorization),是指計算機將載有信息的一篇文本映射到預先給定的某一類別或某幾類別主題的過程,文本分類主要應用于情感分析、話題標記、新聞分類、問答系統、對話行為分類、自然語言推理、關系分類、事件預測等領域,目前在新聞分類領域,由于其不僅存在文本內容、還存在圖片內容,使用傳統的自然語言處理難以對新聞進行準確分類。
技術實現思路
1、針對上述技術問題,本申請實施例提出了一種無監督的新聞自動分類方法,能夠解決目前在新聞分類領域由于其不僅存在文本內容、還存在圖片內容,使用傳統的自然語言處理難以對新聞進行準確分類的問題。
2、第一方面,本申請實施例提供了一種無監督的新聞自動分類方法,包括:
3、對新聞數據集進行無監督分類處理,得到分類無標記新聞簇;
4、對所述分類無標記新聞簇進行標識識別,得到相應的新聞分類標識;
5、將所述新聞分類標識標記至所述分類無標記新聞簇內的分類無標記新聞,得到分類標記新聞;
6、使用所述分類標記新聞對基礎學習模型進行訓練,得到新聞分類模型;
7、將待分類新聞輸入所述新聞分類模型,得到所述待分類新聞的新聞類型。
8、在一些實施例中,所述對新聞數據集進行無監督分類處理,得到分類無標記新聞簇,包括:
9、使用大語言模型對所述新聞數據集進行摘要處理,得到新聞摘要數據集;
10、對所述新聞摘要數據集進行無監督分類處理,得到所述分類無標記新聞簇。
11、在一些實施例中,所述新聞摘要數據集包括多個新聞摘要;
12、所述對所述新聞摘要數據集進行無監督分類處理,得到所述分類無標記新聞簇,包括:
13、對所述新聞摘要進行語義分割及提取,得到至少一特征語義;
14、對所述特征語義進行無監督分類處理,得到所述分類無標記新聞簇。
15、在一些實施例中,所述對所述特征語義進行無監督分類處理,得到所述分類無標記新聞簇,包括:
16、設定進行分類的樣本距離、及樣本余弦相似度;
17、基于所述樣本距離及所述樣本余弦相似度對多個所述特征語義進行聚類,得到所述分類無標記新聞簇。
18、在一些實施例中,所述對所述分類無標記新聞簇進行標識識別,并生成相應的新聞分類標識,包括:
19、獲取新聞分類標識、及與所述新聞分類標識相對應的分類標識特征集;
20、基于所述分類無標記新聞簇得到所述分類無標記新聞簇的代表向量;
21、基于所述代表向量及所述分類標識特征集得到所述分類無標記新聞簇的新聞分類標識。
22、在一些實施例中,所述基于所述代表向量及所述分類標識特征集得到所述分類無標記新聞簇的新聞分類標識,具體為:
23、對所述代表向量與所述分類標識特征集內的分類標識特征進行相似性計算,得到相似性評分;
24、若所述相似性評分大于相似性評分閾值,則記錄所述相似性評分、及與所述相似性評分相對應的待選新聞分類標識;
25、基于所述相似性評分由所述待選新聞分類標識確定所述新聞分類標識。
26、在一些實施例中,所述基于所述相似性評分由所述待選新聞分類標識確定所述新聞分類標識,還包括:
27、基于所述新聞摘要的結構、內容得到與所述特征語義相對應的語義特征權重;
28、基于所述語義特征權重、所述相似性評分得到待選新聞數據的新聞分類標識評分;
29、基于所述新聞分類標識評分得到所述新聞分類標識,其中,所述新聞分類標識包括順序排列的新聞分類主標識和新聞分類輔標識。
30、在一些實施例中,所述將所述新聞分類標識標記至所述分類無標記新聞簇內的分類無標記新聞,得到分類標記新聞,具體為:
31、獲取所述新聞分類主標識及所述新聞分類輔標識的新聞分類標識評分;
32、將所述新聞分類主標識、所述新聞分類輔標識及相應的新聞分類標識評分標記至所述分類無標記新聞簇內的分類無標記新聞,得到所述分類標記新聞。
33、第二方面,本申請實施例提供了一種無監督的新聞自動分類系統,包括:
34、處理模塊,用于對新聞數據集進行無監督分類處理,得到分類無標記新聞簇;
35、標識模塊,用于對所述分類無標記新聞簇進行標識識別,得到相應的新聞分類標識;將所述新聞分類標識標記至所述分類無標記新聞簇內的分類無標記新聞,得到分類標記新聞;
36、訓練模塊,用于使用所述分類標記新聞對基礎學習模型進行訓練,得到新聞分類模型;
37、分類模塊,用于將待分類新聞輸入所述新聞分類模型,得到所述待分類新聞的新聞類型。
38、第三方面,本申請實施例提供了一種電子設備,包括如第二方面中所述的無監督的新聞自動分類系統。
39、本申請提供了一種無監督的新聞自動分類方法,包括對新聞數據集進行無監督分類處理,得到分類無標記新聞簇;對所述分類無標記新聞簇進行標識識別,得到相應的新聞分類標識;將所述新聞分類標識標記至所述分類無標記新聞簇內的分類無標記新聞,得到分類標記新聞;使用所述分類標記新聞對基礎學習模型進行訓練,得到新聞分類模型;將待分類新聞輸入所述新聞分類模型,得到所述待分類新聞的新聞類型,能夠使用機器學習模型對新聞進行分類,能夠解決目前在新聞分類領域,由于其不僅存在文本內容、還存在圖片內容,使用傳統的自然語言處理難以對新聞進行準確分類的問題。
1.一種無監督的新聞自動分類方法,其特征在于,包括:
2.根據權利要求1所述的無監督的新聞自動分類方法,其特征在于,所述對新聞數據集進行無監督分類處理,得到分類無標記新聞簇,包括:
3.根據權利要求2所述的無監督的新聞自動分類方法,其特征在于,所述新聞摘要數據集包括多個新聞摘要;
4.根據權利要求3所述的無監督的新聞自動分類方法,其特征在于,所述對所述特征語義進行無監督分類處理,得到所述分類無標記新聞簇,包括:
5.根據權利要求3所述的無監督的新聞自動分類方法,其特征在于,所述對所述分類無標記新聞簇進行標識識別,并生成相應的新聞分類標識,包括:
6.根據權利要求5所述的無監督的新聞自動分類方法,其特征在于,所述基于所述代表向量及所述分類標識特征集得到所述分類無標記新聞簇的新聞分類標識,具體為:
7.根據權利要求6所述的無監督的新聞自動分類方法,其特征在于,所述基于所述相似性評分由所述待選新聞分類標識確定所述新聞分類標識,還包括:
8.根據權利要求7所述的無監督的新聞自動分類方法,其特征在于,所述將所述新聞分類標識標記至所述分類無標記新聞簇內的分類無標記新聞,得到分類標記新聞,具體為:
9.一種無監督的新聞自動分類系統,其特征在于,包括:
10.一種電子設備,其特征在于,包括如權利要求9中所述的無監督的新聞自動分類系統。