本發明涉及自然語言處理,尤其涉及一種語言模型訓練方法、文本處理方法、裝置、設備及介質。
背景技術:
1、大語言模型在文本處理方面展現出了卓越的性能和廣泛的應用前景。然而,這些大語言模型通常具有龐大的參數規模和復雜的結構,導致計算成本高等問題,使其難以直接部署在資源受限的設備上。因此,相關技術,通過蒸餾訓練來將大語言模型的能力遷移至輕量級學生模型,以使得據此訓練的學生模型不僅可以以較低的計算成本從標注數據中學習如何判斷正確樣本的類別,還可以從教師模型中學習類間關系。
2、現有的大語言模型的蒸餾訓練方法,通常預先使用大語言模型構建的教師模型對全部訓練數據中所有token(數據單元)生成全量軟標簽,并將每個訓練數據中每一token在教師模型的詞表下的全量軟標簽與硬標簽一同保存至本地,以便在進行學生模型訓練時直接加載;然而,隨著詞表規模的爆炸式增長,單條訓練數據中各token的軟標簽的存儲數量也隨之增長,由此導致存儲成本過高,模型訓練效率降低。
技術實現思路
1、本發明提供一種語言模型訓練方法、文本處理方法、裝置、設備及介質,用以解決現有技術中的缺陷。
2、本發明提供一種語言模型訓練方法,包括:
3、基于教師模型,預測樣本文本中各數據單元對應的第一概率矩陣;所述第一概率矩陣包括各所述數據單元屬于第一詞表中各詞元的概率值,所述第一詞表為所述教師模型的詞表;
4、根據所述第一概率矩陣中各概率值的數值大小,對所述第一概率矩陣進行壓縮,得到各所述數據單元對應的第二概率矩陣;
5、根據所述第二概率矩陣中各概率值對應的詞元,對第二詞表進行對齊操作,得到第三詞表;所述第二詞表是學生模型的詞表;
6、根據所述第三詞表和所述第二概率矩陣,對所述學生模型進行蒸餾訓練,得到目標語言模型。
7、根據本發明提供的一種語言模型訓練方法,所述根據所述第一概率矩陣中各概率值的數值大小,對所述第一概率矩陣進行壓縮,得到各所述數據單元對應的第二概率矩陣,包括:
8、接收用戶輸入信息,并根據所述用戶輸入信息中的壓縮模式,確定目標數量;
9、按照數值大小,對所述第一概率矩陣中各概率值進行降序排序;
10、在所述第一概率矩陣中,選擇排序位置靠前的所述目標數量的概率值,構建所述第二概率矩陣。
11、根據本發明提供的一種語言模型訓練方法,所述根據所述用戶輸入信息中的壓縮模式,確定目標數量,包括:
12、當所述壓縮模式為自適應壓縮模式時,按照降序排序結果,依次對所述第一概率矩陣中的各概率值進行累加計算,直到累加計算值大于或等于預設閾值,并根據參與累加計算的概率值的數量,確定所述目標數量;
13、當所述壓縮模式為固定壓縮模式時,將預設數量確定為所述目標數量。
14、根據本發明提供的一種語言模型訓練方法,所述根據所述第三詞表和所述第二概率矩陣,對所述學生模型進行蒸餾訓練,得到目標語言模型,包括:
15、根據所述第三詞表中詞元的數量,構建空矩陣;
16、根據所述第二概率矩陣中各概率值對應的詞元的第一索引,將所述第二概率矩陣中各概率值填充至所述空矩陣中,得到各所述數據單元對應的第一重構概率矩陣;所述第一索引是所述第二概率矩陣中各概率值對應的詞元在所述第三詞表中的索引;
17、對所述第一重構概率矩陣中各概率值進行歸一化處理,得到各所述數據單元對應的第二重構概率矩陣;
18、基于所述學生模型,預測各所述數據單元對應的第三概率矩陣;所述第三概率矩陣包括各所述數據單元屬于所述第三詞表中各詞元的概率值;
19、根據所述第二重構概率矩陣、所述第三概率矩陣,以及各所述數據單元對應的詞元標簽,對所述學生模型進行蒸餾訓練,得到所述目標語言模型。
20、根據本發明提供的一種語言模型訓練方法,所述根據所述第二概率矩陣中各概率值對應的詞元,對第二詞表進行對齊操作,得到第三詞表,包括:
21、在所述第二概率矩陣中,獲取各第一概率值和各第二概率值;所述第一概率值對應的詞元與所述第二詞表中所有詞元均不存在映射關系;所述第二概率值對應的詞元與所述第二詞表中一個詞元存在映射關系;
22、基于學生模型的分詞器,映射生成各所述第一概率值對應的詞元的映射索引;
23、將與各所述第二概率值對應的詞元存在映射關系的目標詞元的第二索引,確定為所述各所述第二概率值對應的詞元的映射索引;所述第二索引為所述目標詞元在所述第二詞表中的索引;
24、按照各所述第一概率值對應的詞元的映射索引,將各所述第一概率值對應的詞元填充至空詞表中,并按照各所述第二概率值對應的詞元的映射索引,將各所述第二概率值對應的詞元填充至所述空詞表中;
25、根據填充結果,獲取所述第三詞表。
26、根據本發明提供的一種語言模型訓練方法,所述方法還包括:
27、當獲取到所述第二概率矩陣,且未接收到所述學生模型的訓練指令時,將各所述數據單元、所述第二概率矩陣中的各概率值,以及所述第二概率矩陣中的各概率值對應的詞元的第三索引,編碼存儲至磁盤;所述第三索引是所述第二概率矩陣中的各概率值在所述第一詞表中的索引;
28、當接收到所述學生模型的訓練指令時,在所述磁盤中,解析獲取各所述數據單元、所述第二概率矩陣中的各概率值,以及所述第三索引。
29、根據本發明提供的一種語言模型訓練方法,所述將各所述數據單元、所述第二概率矩陣中的各概率值,以及所述第二概率矩陣中的各概率值對應的詞元的第三索引,編碼存儲至磁盤,包括:
30、對所述第二概率矩陣中的各概率值進行量化編碼,得到第一編碼結果;
31、對所述第三索引進行量化編碼,得到第二編碼結果;
32、對各所述數據單元進行哈希編碼,得到第三編碼結果;
33、將所述第一編碼結果、所述第二編碼結果和所述第三編碼結果,以壓縮文件的形式存儲至所述磁盤。
34、根據本發明提供的一種語言模型訓練方法,所述在所述磁盤中,解析獲取各所述數據單元、所述第二概率矩陣中的各概率值,以及所述第三索引,包括:
35、在所述磁盤中加載所述壓縮文件;
36、對所述壓縮文件中的所述第一編碼結果進行反量化解碼,得到所述第二概率矩陣中的各概率值;
37、對所述壓縮文件中的所述第二編碼結果進行反量化解碼,得到所述第三索引;
38、對所述壓縮文件中的所述第三編碼結果進行哈希反向查表操作,得到各所述數據單元。
39、本發明還提供一種文本處理方法,包括:
40、獲取待處理文本;
41、基于目標語言模型,對所述待處理文本中的各數據單元進行詞元預測,得到所述待處理文本對應的詞元預測結果;
42、根據所述詞元預測結果,對所述待處理文本進行文本處理;
43、其中,所述文本處理包括文本生成、代碼生成、機器翻譯或文本分類;所述目標語言模型是基于如上述任一項所述語言模型訓練方法訓練得到的。
44、本發明還提供一種語言模型訓練裝置,包括:
45、第一預測單元,用于基于教師模型,預測樣本文本中各數據單元對應的第一概率矩陣;所述第一概率矩陣包括各所述數據單元屬于第一詞表中各詞元的概率值,所述第一詞表為所述教師模型的詞表;
46、壓縮單元,用于根據所述第一概率矩陣中各概率值的數值大小,對所述第一概率矩陣進行壓縮,得到各所述數據單元對應的第二概率矩陣;
47、映射單元,用于根據所述第二概率矩陣中各概率值對應的詞元,對第二詞表進行對齊操作,得到第三詞表;所述第二詞表是學生模型的詞表;
48、訓練單元,用于根據所述第三詞表和所述第二概率矩陣,對所述學生模型進行蒸餾訓練,得到目標語言模型。
49、本發明還提供一種文本處理裝置,包括:
50、獲取單元,用于獲取待處理文本;
51、第二預測單元,用于基于目標語言模型,對所述待處理文本中的各數據單元進行詞元預測,得到所述待處理文本對應的詞元預測結果;
52、處理單元,用于根據所述詞元預測結果,對所述待處理文本進行文本處理;
53、其中,所述文本處理包括文本生成、代碼生成、機器翻譯或文本分類;所述目標語言模型是基于如上述任一項所述語言模型訓練方法訓練得到的。
54、本發明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述語言模型訓練方法。
55、本發明還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述語言模型訓練方法。
56、本發明還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述語言模型訓練方法。
57、本發明提供的語言模型訓練方法、文本處理方法、裝置、設備及介質,通過基于教師模型預測樣本文本中各數據單元對應的第一概率矩陣,以獲取每個數據單元的全量概率分布,并根據第一概率矩陣中各概率值的大小對第一概率矩陣進行稀疏化的自適應壓縮,以生成存儲量更低的第二概率矩陣,有效減少了數據量和存儲需求;接著,利用第二概率矩陣中各概率值對應的詞元,對學生模型的詞表進行對齊操作,得到第三詞表,以通過動態詞表映射,解決了教師模型與學生模型詞表不一致的問題,避免了因詞表差異導致的知識遷移失效問題,最后,通過第三詞表和第二概率矩陣對學生模型進行蒸餾訓練,得到目標語言模型。由于通過稀疏化壓縮概率矩陣和詞表對齊來進行蒸餾訓練,不僅顯著降低了因詞表規模增長導致的存儲成本過高問題,有效提升了蒸餾訓練效率,而且使得據此訓練的目標語言模型能夠在保持高性能的同時,更好地適應不同的模型架構和文本處理場景。