本發明涉及生成式人工智能領域,具體涉及一種基于偏見強度的大語言模型細粒度去偏見方法。
背景技術:
1、偏見是基于社會文化、個體認知與經驗形成的非客觀負面評價,常以年齡、性別、外貌、國籍等社會屬性的刻板印象形式存在。這類認知偏差不僅會導致社會不公與歧視行為,更會通過數據訓練被大語言模型(llm)吸收固化。隨著llm應用場景的快速擴展,模型中內化的偏見可能被系統性放大,對公共決策、社會公平和群體多樣性造成不可逆的損害,因此,消除llm中的偏見至關重要。
2、當前llm去偏見研究主要沿著兩個技術路徑推進:
3、其一是生成過程的實時干預策略,例如通過零樣本自解釋、反饋式提示工程或思維鏈引導等技術手段修正輸出內容。這類方法雖能即時抑制偏見,但存在雙重局限:一方面,其交互機制需依賴用戶主動提供反偏見示例,導致實際應用場景受限;另一方面,這種方法僅能對llm的輸出進行表面干預,無法從根本上去除模型的內在偏見。
4、其二是基于人類偏好對齊的llm后訓練方法,以直接偏好優化(dpo)為代表。該方法通過構建偏見-中立回答對(y+,?y-),在訓練階段強制擴大模型生成中立回答y+與偏見回答y-之間的概率差值,驅動模型傾向無偏見輸出。然而該方法的優化機制也存在缺陷:一方面,由于缺乏對偏見強度的量化評估,無法針對不同嚴重程度的偏見實施更精準的優化;另一方面,dpo的優化目標只關注概率差值最大化,可能會導致y+與y-生成概率的同向增加——即便二者概率差值在變大,偏見回答的概率仍可能會隨著中立回答的概率同步增加。這種特性使得模型難以穩定達成"y+概率嚴格上升且y-概率嚴格下降"的理想優化路徑,嚴重削弱了去偏見的系統有效性。
技術實現思路
1、本發明的目的在于解決現有技術中直接偏好優化(dpo)方法在去偏見訓練中存在的“偏見強度不可量化”與“偏見回答輸出概率異常增高”兩類問題,并提出一種基于偏見強度的大語言模型細粒度去偏見方法及系統。
2、本發明所采用的具體技術方案如下:
3、第一方面,本發明提供了一種基于偏見強度的大語言模型細粒度去偏見方法,其包括:
4、s1、獲取由去偏見樣本構成的訓練數據集,其中所述去偏見樣本為輸入問題、中立回答與偏見回答組成的三元組,將每個去偏見樣本輸入由多個大語言模型構成的偏見評估模型組中,通過群體決策對三元組內兩個回答中相對更加中立的回答進行多模型投票,并根據多模型投票結果計算該去偏見樣本的偏見強度;
5、s2、利用所述訓練數據集分批次對大語言模型進行迭代微調,實現細粒度去偏見優化并阻斷偏見回答生成概率的提升,使微調后的大語言模型針對用戶提問輸出去偏見的中立回答;每一輪微調過程中,以未經微調的原始大語言模型作為參考模型,以上一輪微調得到的大語言模型作為待優化模型,由參考模型和待優化模型分別基于去偏見樣本中的輸入問題得到去偏見樣本中的中立回答與偏見回答的概率,結合多模型投票結果和偏見強度計算細粒度去偏見損失項和概率解耦正則損失項,以兩個損失項的加權和為總損失并反向優化待優化模型。
6、作為上述第一方面的優選,所述偏見評估模型組中包含的大語言模型數量為不小于2的偶數,且所包含的每個大語言模型均預先經過安全對齊(safe?alignment)。
7、作為上述第一方面的優選,通過群體決策進行多模型投票時,將每個去偏見樣本對應的三元組輸入偏見評估模型組中的每個大語言模型中,通過提示詞驅動大語言模型判斷輸入三元組所包含的中立回答與偏見回答中哪一個更加中立并投票,統計偏見評估模型組中所有大語言模型認為中立回答更加中立的第一票數和認為偏見回答更加中立的第二票數,將第一票數和第二票數的差值與加和之間的比值作為該去偏見樣本的偏見強度。
8、作為上述第一方面的優選,每一輪微調過程中,當前訓練批次中的每個去偏見樣本均需要將所包含的輸入問題輸入參考模型和待優化模型中,獲得模型針對回答文本中每個位置輸出的詞在詞表中的概率分布,從而根據模型輸出以及去偏見樣本中實際的中立回答和偏見回答,計算待優化模型輸出中立回答的第一概率、待優化模型輸出偏見回答的第二概率、參考模型輸出中立回答的第三概率、參考模型輸出偏見回答的第四概率。
9、作為上述第一方面的優選,所述細粒度去偏見損失項為采用所述偏見強度的絕對值縮放的負對數似然損失,其中似然部分為權重因子、所述偏見強度的符號函數、概率差值相乘后的激活輸出,所述概率差值由所述第一概率與所述第三概率之比的對數減去所述第二概率與所述第四概率之比的對數計算得到。
10、作為上述第一方面的優選,所述概率解耦正則損失項為負對數似然損失,其中似然部分為權重因子的負數與正則項相乘后的激活輸出,所述正則項為兩個對數項的加權和,第一個加權項為所述第一概率與所述第三概率之比的對數,權重為所述第二票數占第一票數和第二票數之和的比值,第二個加權項為所述第二概率與所述第四概率之比的對數,權重為所述第一票數占第一票數和第二票數之和的比值。
11、第二方面,本發明提供了一種基于偏見強度的大語言模型細粒度去偏見系統,其包括:
12、群體決策模塊,用于獲取由去偏見樣本構成的訓練數據集,其中所述去偏見樣本為輸入問題、中立回答與偏見回答組成的三元組,將每個去偏見樣本輸入由多個大語言模型構成的偏見評估模型組中,通過群體決策對三元組內兩個回答中相對更加中立的回答進行多模型投票,并根據多模型投票結果計算該去偏見樣本的偏見強度;
13、微調訓練模塊,利用所述訓練數據集分批次對大語言模型進行迭代微調,實現細粒度去偏見優化并阻斷偏見回答生成概率的提升,使微調后的大語言模型針對用戶提問輸出去偏見的中立回答;每一輪微調過程中,以未經微調的原始大語言模型作為參考模型,以上一輪微調得到的大語言模型作為待優化模型,由參考模型和待優化模型分別基于去偏見樣本中的輸入問題得到去偏見樣本中的中立回答與偏見回答的概率,結合多模型投票結果和偏見強度計算細粒度去偏見損失項和概率解耦正則損失項,以兩個損失項的加權和為總損失并反向優化待優化模型。
14、第三方面,本發明提供了一種計算機程序產品,包括計算機程序/指令,該計算機程序/指令被處理器執行時,能實現如上述第一方面任一項方案所述的基于偏見強度的大語言模型細粒度去偏見方法。
15、第四方面,本發明提供了一種計算機可讀存儲介質,所述存儲介質上存儲有計算機程序,當所述計算機程序被處理器執行時,能實現如上述第一方面任一項方案所述的基于偏見強度的大語言模型細粒度去偏見方法。
16、第五方面,本發明提供了一種計算機電子設備,其包括存儲器和處理器;
17、所述存儲器,用于存儲計算機程序;
18、所述處理器,用于當執行所述計算機程序時,能實現如上述第一方面任一項方案所述的基于偏見強度的大語言模型細粒度去偏見方法。
19、本發明相對于現有技術而言,具有以下有益效果:
20、(1)本發明采用了多模型協同的細粒度數據標注方式,通過多個主流大語言模型投票機制量化樣本的偏見強度,解決傳統方法中偏見強度不可測量的問題;
21、(2)本發明設計了改進型dpo(直接偏好優化)損失函數,通過偏見強度加權區分不同偏見的優化權重,并引入概率解耦正則項阻斷中立回答與偏見回答生成概率的同向增長,防止去偏見過程中偏見概率異常升高。
22、(3)本發明實現了細粒度、差異化的去偏見優化,可有效去除大語言模型中的偏見,同時還可以有效提升訓練的穩定性,適用于對話系統、文本生成等場景。