本發明涉及語音識別,特別是涉及一種基于小樣本的機艙人聲識別方法、介質及設備。
背景技術:
1、語音識別技術在飛行員考核中至關重要,通過語音識別技術對飛行過程中機艙內的人聲進行識別,不僅能夠確定飛行員是否遵守了操作規程和標準喊話流程,還能評估飛行員的語言清晰度,提供了一種客觀、系統的方法來評估飛行員的表現,有助于提升飛行安全和服務質量;在現有技術中,通過語音識別技術對飛行過程中機艙內的人聲進行識別主要依賴于經過訓練的語音識別模型,通常使用單一的交叉熵損失函數對語音識別模型進行訓練,將在機艙內采集到的包含人聲的音頻輸入到經過訓練的語音識別模型中獲取語音識別模型輸出的預測文本,將預測文本與標準文本進行對比,基于對比結果評估飛行員的表現。
2、但是上述方法也存在以下技術問題:
3、交叉熵損失函數主要關注每個時間步上的分類準確性,可以理解為只關注局部概率分布的匹配,因此使用單一的交叉熵損失函數訓練的語音識別模型可能會在小樣本情況下過度擬合訓練數據中的噪聲或細節特征,導致泛化能力不足,需要基于大量的樣本數據對語音識別模型進行訓練,并且交叉熵損失函數提供的梯度信號僅來自每個時間步的分類誤差,這導致模型在訓練過程中難以快速收斂,此外,交叉熵損失函數的目標是最小化預測分布與真實分布之間的差異,因此使用單一的交叉熵損失函數訓練的語音識別模型傾向于選擇在上下文中概率最高的候選詞,可以理解為會根據上下文信息推測缺失或模糊的部分內容,例如,在音頻中出現吞字或連字現象時,語音識別模型可能會根據前后文推斷出最可能的字符或單詞,可能導致吞字或連字被錯誤地識別為其他更常見的詞匯,從而導致語音識別模型輸出的文本與實際內容存在差異,不能夠精確的反映音頻中的實際內容。
技術實現思路
1、針對上述技術問題,本發明采用的技術方案為:
2、根據本發明的第一方面,提供了一種基于小樣本的機艙人聲識別方法,方法包括如下步驟:
3、s1、使用目標樣本數據集d對初始語音識別模型進行訓練以獲取目標語音識別模型,其中,d中包括若干個目標樣本音頻和每一目標樣本音頻對應的實際文本,用于訓練初始語音識別模型的復合損失函數l符合如下條件:
4、l=α×lnum+β×lcer+γ×lcross-entroy+μ×lctc,lnum為長度損失函數,lcer為強化學習損失函數,lcross-entroy為交叉熵損失函數,lctc為ctc損失函數,α為lnum對應的權重參數,β為lcer對應的權重參數,γ為lcross-entroy對應的權重參數,μ為lctc對應的權重參數;lcer符合如下條件:
5、lcer=ex-d[ep(y1|x)[cer(y1,y)]],x為d中的目標樣本音頻,y為x對應的實際文本,y1為目標語音識別模型預測的文本,ex-d[?]表示對d中的所有x進行期望值計算;ep(y1|x)[cer(y1,y)]表示在給定輸入x的條件下,根據目標語音識別模型輸出的概率分布,計算y1和y之間的字符錯誤率的期望值;p(y1|x)為給定輸入x的條件下,目標語音識別模型輸出y1的概率;cer(y1,y)為y1和y之間的字符錯誤率。
6、s2、將目標艙音輸入到目標語音識別模型中以獲取目標艙音對應的預測文本,預測文本為目標語音識別模型輸出的文本,目標艙音為初始艙音中包含人聲的音頻片段,初始艙音為從目標航空器的機艙中采集到的音頻。
7、根據本發明的第二方面,提供了一種非瞬時性計算機可讀存儲介質,存儲介質中存儲有計算機程序,計算機程序由處理器加載并執行以實現前述的方法。
8、根據本發明的第三方面,提供了一種電子設備,包括:處理器、存儲器及存儲在存儲器上并可在處理器上運行的計算機程序,處理器執行計算機程序時實現前述的方法。
9、本發明至少具有以下有益效果:
10、本發明提供了一種基于小樣本的機艙人聲識別方法、介質及設備,所述方法基于復合損失函數對初始語音識別模型進行訓練以獲取目標語音識別模型,將目標艙音輸入到目標語音識別模型中以獲取目標艙音對應的預測文本,復合損失函數由長度損失函數,強化學習損失函數,交叉熵損失函數和ctc損失函數這四種損失函數及這四種損失函數對應的權重參數構成;可知,本發明能夠從多個維度對模型進行優化,這種多目標聯合優化的方式能夠在小樣本情況下實現更高的數據利用率,只需使用少量的樣本數據對模型進行訓練,無需使用大量的樣本數據對模型進行訓練,降低對大數據量的依賴,從而提高模型的泛化能力,并且復合損失函數通過結合多個損失函數,提供了更加豐富和多樣化的梯度信號,使得模型在每次更新時能夠從多個方向進行調整,從而加速收斂過程,此外,相較于使用單一的交叉熵損失函數,復合損失函數引入了其他類型的損失,能夠為模型提供額外的約束條件,避免模型完全依賴上下文進行預測,并且,復合損失函數中的強化學習損失函數是基于模型預測分布和字符錯誤率確定的損失函數,通過最小化字符錯誤率,能夠更好地處理吞字或連字等現象,使模型生成更貼近實際輸出的序列,減少了因上下文推測而導致的誤差,從而使模型輸出的文本更接近音頻中的實際內容,不僅顯著地提高了機艙人聲識別的速度還確保了預測文本能夠精確反映艙音中的實際內容。
1.一種基于小樣本的機艙人聲識別方法,其特征在于,所述方法包括如下步驟:
2.根據權利要求1所述的基于小樣本的機艙人聲識別方法,其特征在于,長度損失函數為能夠衡量模型預測的序列長度與真實序列長度之間的差異的損失函數。
3.根據權利要求1所述的基于小樣本的機艙人聲識別方法,其特征在于,在d中,目標樣本音頻為輸入特征,所述目標樣本音頻對應的實際文本為所述輸入特征對應的標簽。
4.根據權利要求1所述的基于小樣本的機艙人聲識別方法,其特征在于,目標語音識別模型包括:音頻特征融合模塊、編碼模塊、字數識別模塊和解碼模塊,其中,編碼模塊包括若干個cnn層和若干個編碼器,字數識別模塊包括卷積層和全連接神經網絡,解碼模塊包括若干個非自回歸解碼器。
5.根據權利要求4所述的基于小樣本的機艙人聲識別方法,其特征在于,編碼模塊中的編碼器為transformer架構中的編碼器。
6.根據權利要求4所述的基于小樣本的機艙人聲識別方法,其特征在于,在目標語音識別模型生成目標艙音對應的預測文本的過程中,將目標艙音的fbank特征輸入到音頻特征融合模塊中以獲取目標艙音對應的中間音頻特征,音頻特征融合模塊用于將fbank特征中每a幀連續的fbank特征向量拼接成一個特征向量,且拼接時不重疊,其中,a為預設的拼接幀數。
7.根據權利要求6所述的基于小樣本的機艙人聲識別方法,其特征在于,將目標艙音對應的中間音頻特征輸入到編碼模塊中,先經過若干個cnn層處理再經過若干個編碼器處理以獲取目標艙音對應的特征向量矩陣。
8.根據權利要求7所述的基于小樣本的機艙人聲識別方法,其特征在于,將目標艙音對應的特征向量矩陣輸入到字數識別模塊中以獲取目標艙音對應的字符數量;將目標艙音對應的特征向量矩陣和目標艙音對應的字符數量輸入到解碼模塊中以獲取目標艙音對應的預測文本。
9.一種非瞬時性計算機可讀存儲介質,其特征在于,所述存儲介質中存儲有計算機程序,所述計算機程序由處理器加載并執行以實現如權利要求1-8中任意一項所述的基于小樣本的機艙人聲識別方法。
10.一種電子設備,包括:處理器、存儲器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1-8中任意一項所述的基于小樣本的機艙人聲識別方法。