本技術涉及人工智能,特別是涉及一種語音識別模型訓練方法、裝置和計算機設備。
背景技術:
1、隨著語音識別技術在人工智能領域中的應用越發廣泛,人們對語音識別技術的準確性提出了越來越高的要求。語音識別模型通常通過訓練數據進行訓練得到,而訓練數據則需要收集大量的經過標注的音頻數據。為了確保準確性,訓練數據的標注往往通過人工對音頻數據標注得到,然而這一方法費時費力,耗費人力成本較高。
2、傳統技術還通過人工智能自動標注的方式,然而,由于標注音頻數據質量不穩定,在無監督學習的情況下,訓練數據本身存在錯誤,也就造成語音識別模型的準確性大幅降低。
3、由此可見,現有的語音識別模型訓練技術,仍然存在訓練成本高、模型準確率較低的問題。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種能夠降低訓練成本、提高模型準確率的語音識別模型訓練方法、裝置和計算機設備。
2、第一個方面,本技術提供了一種語音識別模型訓練方法,所述語音識別模型訓練方法包括:
3、獲取待標注音頻文件集中每個待標注音頻文件的多個第一識別結果;多個所述第一識別結果由多個語音識別模型對所述待標注音頻文件進行語音識別得到;
4、通過每個所述待標注音頻文件的多個所述第一識別結果,對相應的所述待標注音頻文件進行自動標注處理,確定每個所述待標注音頻文件的標注結果和結果置信度;所述自動標注處理包括投票驗證和片段驗證;
5、整合每個所述待標注音頻文件以及對應的標注結果和結果置信度,生成標注數據集;
6、根據所述標注數據集,對預設語音識別算法進行訓練,得到目標語音識別模型。
7、在其中一個實施例中,所述通過每個所述待標注音頻文件的多個所述第一識別結果,對相應的所述待標注音頻文件進行自動標注處理,確定每個所述待標注音頻文件的標注結果和結果置信度包括:
8、針對每個所述待標注音頻文件,計算目標識別結果與其他識別結果之間的共同字符數;所述目標識別結果為多個第一識別結果中的任一第一識別結果;所述其他識別結果為除目標識別結果之外的第一識別結果;
9、將所述共同字符數最大的目標識別結果,作為相應待標注音頻文件的標注結果;
10、確定所述標注結果分別與其他識別結果之間的匹配片段,并通過所述匹配片段的數量確定所述標注結果的結果置信度。
11、在其中一個實施例中,所述確定所述標注結果分別與其他識別結果之間的匹配片段,并通過所述匹配片段的數量確定所述標注結果的結果置信度包括:
12、以預設文本處理算法對所述標注結果進行切分,得到多個第一片段;
13、以預設文本處理算法對所述其他識別結果進行切分,得到多個第二片段;
14、將每個所述第一片段分別與每個所述第二片段進行匹配,確定匹配片段;
15、將所述匹配片段的數量與所述第一片段的總數量的比值,作為所述標注結果的結果置信度。
16、在其中一個實施例中,所述整合每個待標注音頻文件以及對應的標注結果和結果置信度,生成標注數據集包括:
17、將結果置信度滿足預設置信度的待標注音頻文件以及標注結果,作為標注數據;
18、獲取多個預設文本以及語音生成模型;
19、將所述預設文本輸入所述語音生成模型,得到多個生成音頻文件;
20、將所述生成音頻文件以及對應的預設文本,作為生成數據;
21、整合所述生成數據以及標注數據,生成標注數據集。
22、在其中一個實施例中,所述將所述生成音頻文件以及對應的預設文本,作為生成數據之后還包括:
23、獲取每個所述生成音頻文件的多個第二識別結果;多個所述第二識別結果由多個語音識別模型對所述生成音頻文件進行語音識別得到;
24、通過每個生成音頻文件的多個第二識別結果,對相應的所述生成音頻文件進行自動標注處理,確定每個所述生成音頻文件的標注結果和結果置信度;
25、通過每個所述生成音頻文件的標注結果和結果置信度,對多個所述生成數據進行篩選,得到篩選后的生成數據。
26、在其中一個實施例中,采用多個生成數據線程生成所述標注數據集,所述根據所述標注數據集,對預設語音識別算法進行訓練,得到目標語音識別模型包括:
27、通過多個生成數據線程將所述標注數據集寫入數據隊列;
28、通過多個訓練線程逐條讀取所述數據隊列中的標注數據集,并輸入至所述預設語音識別算法進行訓練,得到目標語音識別模型。
29、在其中一個實施例中,所述方法還包括:
30、獲取所述數據隊列中的數據數量;
31、根據所述數據數量,調整所述生成數據線程的數量和/或調整所述訓練線程的數量。
32、第二個方面,本技術提供了一種語音識別模型訓練裝置,所述裝置包括:
33、獲取模塊,用于獲取待標注音頻文件集中每個待標注音頻文件的多個第一識別結果;多個所述第一識別結果由多個語音識別模型對所述待標注音頻文件進行語音識別得到;
34、自動標注模塊,用于通過每個待標注音頻文件的多個第一識別結果對相應的所述待標注音頻文件進行自動標注處理,確定每個所述待標注音頻文件的標注結果和結果置信度;所述自動標注處理包括投票驗證和片段驗證;
35、數據集生成模塊,用于整合每個待標注音頻文件以及對應的標注結果和結果置信度,生成標注數據集;
36、訓練模塊,用于根據所述標注數據集,對預設語音識別算法進行訓練,得到目標語音識別模型。
37、第三個方面,本技術提供了一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現如上所述的方法。
38、第四個方面,本技術提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現如上所述的方法。
39、上述語音識別模型訓練方法、裝置和計算機設備,通過獲取待標注音頻文件集中每個待標注音頻文件的多個第一識別結果;多個所述第一識別結果由多個語音識別模型對所述待標注音頻文件進行語音識別得到;通過每個所述待標注音頻文件的多個所述第一識別結果,對相應的所述待標注音頻文件進行自動標注處理,確定每個所述待標注音頻文件的標注結果和結果置信度;所述自動標注處理包括投票驗證和片段驗證;整合每個所述待標注音頻文件以及對應的標注結果和結果置信度,生成標注數據集;根據所述標注數據集,對預設語音識別算法進行訓練,得到目標語音識別模型,利用多個語音識別模型分別進行語音識別得到第一識別結果,可以減少單一模型的偏差,并根據多個第一識別結果進行包括投票驗證和片段驗證在內的自動標注,得到標注結果和結果置信度,可以減少錯誤標注、提高標注結果的一致性和可靠性,根據標注結果和結果置信度來進一步得到標注數據集,可以得到更為準確的標注數據集用于模型訓練,實現了多模型聯合識別和自動化驗證,從而減少了對人工標注的依賴,同時通過高質量的標注數據集提升了模型性能,從而達到降低訓練成本、提高模型準確率的效果。