基于知識蒸餾的文本轉語音方法、裝置、設備及介質與流程

文檔序號：42298308發布日期：2025-06-27 18:38閱讀：20來源：國知局

本發明涉及語音處理，尤其涉及一種基于知識蒸餾的文本轉語音方法、裝置、設備及存儲介質。

背景技術：

1、在醫療健康業務領域，tts技術正逐步應用于智能醫療助手、遠程醫療咨詢、電子病歷閱讀輔助等場景，以提升醫療服務的可及性和交互體驗。然而，當前的tts方案在醫療行業的應用仍然存在多方面的局限性。醫療領域的語音合成需求通常涉及復雜的醫學術語、病歷內容和患者咨詢記錄，而現有的tts模型在處理專業性強的醫療文本時，往往無法準確表達醫學術語，容易造成信息傳遞的誤解。此外，遠程醫療和智能健康助手等應用需要實時語音生成，以確保醫生與患者之間的流暢溝通。然而，由于現有tts模型的推理速度較慢，語音生成過程可能出現卡頓或延遲，影響醫療服務的效率。同時，醫療行業中的設備多樣性較高，tts系統需要適應醫院信息系統、移動健康設備、語音交互終端等不同平臺，而現有模型在設備適配性方面仍存在不足。由于醫療環境對語音質量的要求較高，現有的tts方案在噪聲環境下的語音合成質量可能下降，影響醫生和患者的有效溝通。此外，醫療行業對數據安全和隱私保護有嚴格要求，現有的tts方案大多依賴云端計算，而醫療數據涉及患者隱私，直接使用云端tts可能帶來數據安全風險，限制了其在醫療場景中的推廣應用。

2、在金融科技業務領域，tts技術被廣泛應用于智能客服、語音播報、自動交易提醒等交互場景，以提供高效的信息傳遞和用戶服務。然而，現有的tts方案在金融業務的應用中仍然存在明顯的局限性。首先，許多金融服務場景需要實時響應，如智能語音客服系統、風控預警播報等，而當前的tts解決方案由于推理速度較慢，難以滿足高并發、低延遲的業務需求。此外，金融領域的語音交互系統往往涉及高度個性化的信息，如用戶的賬戶數據、交易詳情等，現有tts模型在語音生成過程中缺乏對業務專屬術語的自適應優化，導致語音輸出的專業性和準確性不足。同時，金融系統需要在不同平臺和設備上部署語音合成系統，而當前的tts模型在跨平臺適配性方面仍存在問題。例如，現有模型在服務器端能夠提供高質量語音合成，但在移動端、atm終端或其他嵌入式設備上運行時，由于計算資源受限，往往難以保持同等質量的語音輸出。此外，金融行業對數據安全和隱私保護要求極高，傳統的tts方案通常依賴云端計算，這可能增加用戶數據泄露的風險。由于語音生成涉及敏感信息，當前基于云端的tts方案難以完全滿足金融業務對隱私和合規性的嚴格要求。

3、在無障礙服務領域，文本轉語音(tts)技術被廣泛應用于為視障人士、閱讀障礙人群和老年用戶提供語音輔助。然而，現有的tts系統在實際應用中仍然面臨諸多挑戰。主流的tts解決方案，如google?tts、amazon?polly、microsoftazure?tts以及開源系統(如tacotron、fastspeech)，盡管在語音合成質量方面已達到較高水平，但在部署于資源受限設備或實時交互場景時仍存在以下不足之處。首先，當前高質量tts模型通常依賴大規模神經網絡，參數量龐大，計算需求高，難以在移動設備或嵌入式終端上高效運行。這使得設備端的實時語音生成受到極大限制，難以滿足低功耗、高響應速度的應用需求。此外，許多端到端tts系統在推理過程中仍然依賴逐步解碼或復雜的后處理步驟，導致系統響應速度較慢，無法提供足夠流暢的交互體驗。對于需要即時反饋的語音輔助系統而言，這種延遲可能影響用戶體驗，甚至降低系統的可用性。同時，現有tts模型通常針對大規模訓練數據進行優化，但在適應低資源環境時存在穩定性不足的問題。當部署至不同類型的終端設備或面臨復雜環境(如背景噪聲、設備計算能力差異)時，合成語音的質量可能下降，影響無障礙用戶的語音理解和信息獲取。此外，高性能tts系統的計算和存儲需求較高，不僅增加了云端計算的能耗和成本，也限制了大規模推廣的可行性，使得低成本、低功耗的無障礙應用難以普及。

技術實現思路

1、本發明的主要目的在于提供一種基于知識蒸餾的文本轉語音方法、裝置、設備及存儲介質，旨在解決現有文本轉語音技術模型龐大、適配性差且能耗高，難以在低資源環境下實現高效、低延遲的語音生成的技術問題。

2、為實現上述目的，本發明提供一種基于知識蒸餾的文本轉語音方法，包括：

3、對輸入文本進行標準化處理，生成標準文本序列；

4、通過輕量化文本編碼器對所述標準文本序列進行編碼，生成文本隱向量；

5、通過非自回歸聲學特征預測模塊將所述文本隱向量映射為學生聲學特征序列；

6、通過預訓練的教師模型對所述標準文本序列進行編碼和聲學特征預測處理，生成教師聲學特征序列；

7、通過知識蒸餾模塊確定所述學生聲學特征序列與所述教師聲學特征序列之間的對齊損失；

8、根據所述對齊損失對所述輕量化文本編碼器和所述非自回歸聲學特征預測模塊進行結構化剪枝處理；

9、對剪枝處理后的輕量化文本編碼器和非自回歸聲學特征預測模塊進行參數量化處理；

10、通過參數量化處理后的輕量化文本編碼器對所述標準文本序列進行編碼，生成壓縮文本隱向量；

11、通過參數量化處理后的非自回歸聲學特征預測模塊將所述壓縮文本隱向量映射為優化聲學特征序列；

12、通過聲碼器將所述優化聲學特征序列轉換為語音波形。

13、進一步地，為實現上述目的，本發明提供一種基于知識蒸餾的文本轉語音裝置，包括：

14、文本預處理模塊，用于對輸入文本進行標準化處理，生成標準文本序列；

15、輕量化文本編碼模塊，用于通過輕量化文本編碼器對所述標準文本序列進行編碼，生成文本隱向量；

16、非自回歸聲學特征預測模塊，用于通過非自回歸聲學特征預測模塊將所述文本隱向量映射為學生聲學特征序列；

17、教師模型模塊，用于通過預訓練的教師模型對所述標準文本序列進行編碼和聲學特征預測處理，生成教師聲學特征序列；

18、知識蒸餾模塊，用于通過知識蒸餾模塊確定所述學生聲學特征序列與所述教師聲學特征序列之間的對齊損失；

19、結構化剪枝模塊，用于根據所述對齊損失對所述輕量化文本編碼器和所述非自回歸聲學特征預測模塊進行結構化剪枝處理；

20、參數量化模塊，用于對剪枝處理后的輕量化文本編碼器和非自回歸聲學特征預測模塊進行參數量化處理；

21、量化后的輕量化文本編碼模塊，用于通過參數量化處理后的輕量化文本編碼器對所述標準文本序列進行編碼，生成壓縮文本隱向量；

22、量化后的非自回歸聲學特征預測模塊，用于通過參數量化處理后的非自回歸聲學特征預測模塊將所述壓縮文本隱向量映射為優化聲學特征序列；

23、聲碼器模塊，用于通過聲碼器將所述優化聲學特征序列轉換為語音波形。

24、進一步地，為實現上述目的，本發明還提供一種計算機設備，所述計算機設備包括存儲器、處理器以及存儲至所述存儲器上并可在所述處理器上運行的基于知識蒸餾的文本轉語音程序，所述基于知識蒸餾的文本轉語音程序被所述處理器執行時實現如上述所述的基于知識蒸餾的文本轉語音方法的步驟。

25、進一步地，為實現上述目的，本發明還提供一種計算機可讀存儲介質，所述存儲介質上存儲有基于知識蒸餾的文本轉語音程序，所述基于知識蒸餾的文本轉語音程序被處理器執行時實現如上所述的基于知識蒸餾的文本轉語音方法的步驟。

26、有益效果：本發明涉及語音處理技術領域，可應用于醫療健康、金融科技及無障礙服務領域等業務場景中，公開了一種基于知識蒸餾的文本轉語音方法，包括：對輸入文本進行標準化處理，生成標準文本序列；通過輕量化文本編碼器對標準文本序列進行編碼，生成文本隱向量；通過非自回歸聲學特征預測模塊將文本隱向量映射為學生聲學特征序列；預訓練的教師模型對標準文本序列進行編碼和聲學特征預測處理，生成教師聲學特征序列；知識蒸餾模塊確定學生聲學特征序列與教師聲學特征序列之間的對齊損失；根據對齊損失對輕量化文本編碼器和非自回歸聲學特征預測模塊進行結構化剪枝處理；對剪枝處理后的輕量化文本編碼器和非自回歸聲學特征預測模塊進行參數量化處理；參數量化處理后的輕量化文本編碼器對標準文本序列進行編碼，生成壓縮文本隱向量；參數量化處理后的非自回歸聲學特征預測模塊將壓縮文本隱向量映射為優化聲學特征序列；聲碼器將優化聲學特征序列轉換為語音波形。本發明通過知識蒸餾、結構化剪枝和參數量化，在保持語音生成質量的同時，有效減少模型體積和計算開銷。通過非自回歸聲學特征預測提高推理速度，降低語音生成延遲。優化的輕量化文本編碼器和輕量化聲碼器提升跨設備適配性，使得tts系統能夠在資源受限環境下實現高效、低功耗、實時語音合成，滿足無障礙服務、金融科技、醫療健康等領域對低延遲、高質量語音輸出的需求。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：石巖,陳閩川,王少軍
技術所有人：平安科技（深圳）有限公司
我是此專利的發明人

上一篇：一種防止中、大型交流電動機轉子籠條斷裂的方法與流程
下一篇：一種水果包裝設備

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

基于知識蒸餾的文本轉語音方法、裝置、設備及介質與流程