本發明屬于自然語言處理,具體涉及一種金融科技場景下基于大模型的毒性文本處理方法及裝置。
背景技術:
1、隨著信息技術的飛速發展,網絡空間內毒性文本的出現成為公共信息安全的一大威脅,尤其在金融科技領域,毒性文本可能嚴重損害用戶體驗和企業信譽。為了應對這一問題,研究人員和企業致力于開發毒性內容檢測與緩解的方法,現有技術中的相關方法主要包括以下幾類:
2、早期的毒性檢測方法依賴于特征工程,通過構建詞典或詞袋模型等方式提取文本特征。這些方法簡單直觀,適用于特定類型的毒性檢測任務,但缺乏泛化能力。例如,基于關鍵詞匹配的模型能夠識別明確的侮辱性詞語,卻難以處理隱晦表達或語言演變帶來的問題。
3、隨著深度學習的快速發展,毒性內容檢測逐步轉向基于深度神經網絡的模型,包括循環神經網絡(rnn)和卷積神經網絡(cnn)。循環神經網絡通過處理序列數據,能夠捕獲文本中上下文之間的依賴關系。卷積神經網絡通過卷積層提取文本的局部特征,適用于捕捉短距離語義關系。
4、近年來,transformer模型(如bert和roberta)憑借其出色的文本表示能力在毒性檢測任務中得到廣泛應用。這些模型通過大規模未標注語料的預訓練,能夠學習通用的語言特征,并通過在小規模標注數據集上微調適應具體任務。bert通過雙向transformer結構有效捕獲上下文信息。roberta在優化bert訓練流程的基礎上進一步提升了模型性能。
5、以上便有現有的一些毒性文本檢測方法,然而,現有方法仍存在以下多方面的不足之處:
6、其一,對標注數據集的依賴性。傳統毒性檢測方法通常依賴于標注數據集來訓練分類器或微調語言模型。例如,早期方法使用特征工程(如詞典或詞袋模型)提取文本特征,以檢測毒性語言或短語。隨著深度神經網絡的興起,循環神經網絡、卷積神經網絡和基于transformer的模型被廣泛應用。然而,這些方法對標注數據集的規模和質量高度依賴,標注過程成本高昂,限制了模型的泛化能力。
7、其二,泛化能力不足。由于語言的快速演化(例如新短語、新詞匯和新風格),基于傳統方法的毒性檢測模型在處理新型毒性內容時表現較差。研究表明,基于一個數據集訓練的毒性檢測模型在其他數據集上的毒性檢測效果顯著下降。
8、其三,模型微調的高成本。盡管基于預訓練語言模型的方法展示了出色的性能,這些方法通常需要通過微調來適應下游任務。然而,微調過程需要優化整個模型或部分參數,這不僅計算資源需求高,而且在數據樣本不足的情況下效果有限。
9、因此,為克服現有相關技術的上述缺點,進一步提高文本毒性檢測和處理的準確性和效率,需要一種新型的文本毒性檢測處理方法。
技術實現思路
1、本發明是為解決上述問題而進行的,目的在于提供一種對標注數據集依賴性小、泛化能力更好且計算成本更低的文本毒性檢測處理方法。本發明的方法利用大型語言模型的強大語言理解能力,通過改進的訓練策略和優化的模型提示,旨在提高毒性文本檢測的準確性和處理效率,同時減少對大量標注數據的依賴,提升模型在新型毒性表達形式上的適應性和泛化能力。
2、具體地,本發明采用了如下技術方案:
3、本發明提供了一種金融科技場景下基于大模型的毒性文本處理方法,其具有這樣的技術特征,該方法包括以下步驟:步驟s1,構建模擬數據庫,其包含多個樣例,每個所述樣例包含原始樣例文本和對應的改寫樣例文本;步驟s2,獲取用戶輸入文本;步驟s3,計算所述用戶輸入文本與所述模擬數據庫中的多個所述原始樣例文本的相似度,并從多個所述樣例中選出相似度最高的若干個所述樣例作為相似樣例;步驟s4,將所述相似樣例加入大語言模型的提示詞模板中,以使所述大語言模型進行上下文學習;步驟s5,將所述用戶輸入文本輸入經過上下文學習的所述大語言模型中,該模型輸出所述用戶輸入文本的毒性檢測結果;步驟s6,在步驟s5中判斷為所述用戶輸入文本包含毒性內容時,將所述用戶輸入文本再次輸入經過上下文學習的所述大語言模型,該模型輸出去毒改寫后的改寫文本。
4、本發明提供的金融科技場景下基于大模型的毒性文本處理方法,還可以具有這樣的技術特征,其中,在步驟s3中,計算所述用戶輸入文本的文本向量與多個所述原始樣例文本的文本向量之間的相似度,并從多個所述樣例中選出相似度最高的前k個所述樣例作為所述相似樣例。在步驟s4中,將所述相似樣例中相似度高于預定閾值的最多m個所述相似樣例加入到所述大語言模型的提示詞模板中。
5、本發明提供的金融科技場景下基于大模型的毒性文本處理方法,還可以具有這樣的技術特征,其中,在步驟s4中,m=5。
6、本發明提供的金融科技場景下基于大模型的毒性文本處理方法,還可以具有這樣的技術特征,其中,在步驟s4中,還將所述用戶輸入文本所涉及的數據庫表格結構加入到所述大語言模型的提示詞模板中。
7、本發明提供的金融科技場景下基于大模型的毒性文本處理方法,還可以具有這樣的技術特征,其中,在步驟s3中,計算所述用戶輸入文本的文本向量與多個所述原始樣例文本的文本向量之間的余弦相似度:
8、
9、式中,是用戶輸入文本的文本向量,是模擬數據庫中的原始樣例文本的文本向量,xi是向量的第i維度值,yi是向量的第i維度值,n是向量的維度大小,在步驟s3中,找到使cos(θ)最小的前k個所述樣例。
10、本發明提供的金融科技場景下基于大模型的毒性文本處理方法,還可以具有這樣的技術特征,其中,在步驟s5中,經過上下文學習的所述大語言模型對所述用戶輸入文本以及選出的所述相似樣例進行語義解析,得到語義解析結果,并根據所述語義解析結果對所述用戶輸入文本中的每個句子進行毒性檢測,判斷各個所述句子是否包含毒性內容,并輸出相應的毒性檢測結果。
11、本發明提供的金融科技場景下基于大模型的毒性文本處理方法,還可以具有這樣的技術特征,其中,在步驟s5中,所述毒性檢測結果為毒性評分。
12、本發明提供的金融科技場景下基于大模型的毒性文本處理方法,還可以具有這樣的技術特征,其中,在步驟s6中,經過上下文學習的所述大語言模型對所述用戶輸入文本以及選出的所述相似樣例進行語義解析,得到語義解析結果,并根據所述語義解析結果對所述用戶輸入文本中包含毒性內容的句子進行去毒改寫,從而得到所述改寫文本。
13、本發明提供了一種金融科技場景下基于大模型的毒性文本處理裝置,其具有這樣的技術特征,該裝置包括:模擬數據庫,包含多個樣例,每個所述樣例包含原始樣例文本和對應的改寫樣例文本;文本獲取模塊,用于獲取用戶輸入文本;樣例選取模塊,用于計算所述用戶輸入文本與所述模擬數據庫中的多個所述原始樣例文本的相似度,并從多個所述樣例中選出相似度最高的若干個所述樣例作為相似樣例;上下文學習模塊,用于將所述相似樣例加入大語言模型的提示詞模板中,以使所述大語言模型進行上下文學習;毒性檢測操作模塊,用于將所述用戶輸入文本輸入經過上下文學習的所述大語言模型中,并從所述大語言模型獲取所述用戶輸入文本的毒性檢測結果;以及去毒改寫操作模塊,用于在所述毒性檢測結果為所述用戶輸入文本包含毒性內容時,將所述用戶輸入文本再次輸入經過上下文學習的所述大語言模型,并從所述大語言模型獲取去毒改寫后的改寫文本。
14、發明的作用與效果
15、根據本發明提供的金融科技場景下基于大模型的毒性文本處理方法及裝置,與現有技術中的文本毒性檢測處理方法相比,具有以下多方面優勢:
16、其一,對標注數據集的依賴性低。現有毒性內容檢測方法高度依賴于大規模標注數據集,而這些數據集的構建成本高昂且效率低下。本發明的方法通過引入基于大語言模型的少樣本學習方法,僅需少量標注樣本即可完成模型訓練,大幅減少數據需求。在實際應用中,即便標注資源有限,本發明的方法依然能保持高效的毒性內容檢測能力。
17、其二,泛化能力強。傳統方法在面對快速演變的新型毒性語言時表現不佳,模型的泛化能力不足。本發明的方法通過引入動態提示優化策略,使模型能夠實時適應新型毒性語言的特性,同時保持在多領域毒性檢測任務中的優異性能。相比于傳統方法,本發明的方法在語言多樣性和內容更新速度方面更具優勢。
18、其三,計算成本低。傳統基于transformer架構的模型微調方法需要優化大量參數,計算成本高昂,難以適應資源受限場景。本發明的方法中創新性地采用提示優化策略,替代對模型整體參數的微調,僅優化少量提示參數,從而顯著降低計算資源消耗。這使得本發明的方法在低資源條件下依然能夠高效部署和執行。