一種長文本語音播報方法、設備及介質與流程

文檔序號：42300140發布日期：2025-06-27 18:41閱讀：16來源：國知局

本申請涉及計算機，具體涉及一種長文本語音播報方法、設備及介質。

背景技術：

1、在線語音合成（text?to?speech,?tts）是一種將文字轉換為自然語音的技術，廣泛應用于有聲書、語音助手、導航系統、無障礙服務等領域。終端在使用文字轉語音接口時，一般會使用短文本在線合成語音接口、長文本在線合成語音接口或流式文本在線合成接口，短文本在線合成語音接口返回速度快，長文本在線合成語音接口能夠一次處理大量文字，流式文本在線合成接口適用于實時場景。

2、然而，在處理長文本文件時，如果通過長文本在線合成語音接口對來處理并不能馬上返回并播報，其分鐘級延遲難以滿足導航、新聞等實時場景需求。因此，亟需一種能夠智能解析文本結構、優化合成流程的長文本語音播報方法。

技術實現思路

1、為了解決上述問題，本申請提出了一種長文本語音播報方法，包括：

2、獲取長文本文件，基于預設的分割規則，根據所述長文本文件中包含的字符串信息，將所述長文本文件分割為若干文本段；

3、針對所述文本段生成對應的文本語音段，確定所述文本語音段對應的段落標識以及語音文件地址；

4、調用預設的短文本合成語音接口，按照所述文本語音段的先后順序，依次從所述語音文件地址中獲取到相應的文本語音段，并將所述文本語音段合成為所述長文本語音文件進行語音播報。

5、在本申請的一種實現方式中，按照所述文本語音段的先后順序，依次從所述語音文件地址中獲取到相應的文本語音段，具體包括：

6、根據所述文本語音段對應的段落標識，確定所述文本語音段的先后順序；

7、確定所述文本語音段中的首個文本語音段，生成針對所述首個文本語音段的首個播報請求；

8、響應于所述首個播報請求，根據所述首個文本語音段對應的第一語音文件地址，獲取到所述首個文本語音段，并對所述首個文本語音段進行語音播報；

9、在對所述首個文本語音段進行語音播報的同時，按照所述先后順序，對位于所述首個文本語音段之后的其他文本語音段進行預加載，以在完成對所述首個文本語音段的語音播報后，自動播報所述其他文本語音段，實現對所述文本語音段的合成語音播報。

10、在本申請的一種實現方式中，按照所述先后順序，對位于所述首個文本語音段之后的其他文本語音段進行預加載，以在完成對所述首個文本語音段的語音播報后，自動播報所述其他文本語音段，具體包括：

11、按照所述先后順序，生成位于所述首個文本語音段之后的下一文本語音段的下一播報請求；

12、響應于所述下一播報請求，根據所述下一文本語音段對應的第二語音文件地址，獲取到所述下一文本語音段，并對所述下一文本語音段進行播報；

13、在對所述下一文本語音段進行語音播報的同時，重復上述過程，直至完成對所述其他文本語音段的預加載和播報。

14、在本申請的一種實現方式中，生成位于所述首個文本語音段之后的下一文本語音段的下一播報請求，具體包括：

15、確定用于播報所述長文本語音文件的播報設備；

16、根據所述播報設備的設備性能和網絡負載信息，確定所述下一播報請求對應的合成策略；

17、根據所述合成策略，確定所述下一播報請求為單個播報請求或組合播報請求。

18、在本申請的一種實現方式中，基于預設的分割規則，根據所述長文本文件中包含的字符串信息，將所述長文本文件分割為若干文本段，具體包括：

19、基于預設的分割規則，確定每個文本段所需包含的字符串長度；

20、根據所述字符串長度，將所述長文本文件分割為若干文本段；其中，所述文本段中的首個文本段的字符串長度最小。

21、在本申請的一種實現方式中，根據所述字符串長度，將所述長文本文件分割為若干文本段，具體包括：

22、根據所述字符串長度，將所述長文本文件分割為若干文本段，

23、針對除所述首個文本段之外的其他文本段，對所述其他文本段包含的其他字符串信息進行語義分析，以提取所述其他字符串信息中的核心文本；

24、若所述核心文本對應多個文本段，將所述多個文本段合并為同一文本段。

25、在本申請的一種實現方式中，將所述多個文本段合并為同一文本段，具體包括：

26、在合并后的文本段超出預設的字符串長度閾值或后續文本段對應的字符串長度的情況下，對所述核心文本對應的文本語音段進行組合播報。

27、在本申請的一種實現方式中，所述方法還包括：

28、確定所述長文本文件對應的使用場景；

29、在所述使用場景為指定使用場景的情況下，根據所述核心文本，生成所述長文本文件對應的文本摘要，以在對所述長文本文件進行播報時，播報所述文本摘要。

30、本申請實施例提供了一種長文本語音播報設備，所述設備包括：

31、至少一個處理器；

32、以及，與所述至少一個處理器通信連接的存儲器；

33、其中，所述存儲器存儲有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠執行如上任一項所述的一種長文本語音播報方法。

34、本申請實施例提供了一種非易失性計算機存儲介質，存儲有計算機可執行指令，所述計算機可執行指令設置為：

35、如上任一項所述的一種長文本語音播報方法。

36、通過本申請提出的一種長文本語音播報方法能夠帶來如下有益效果：

37、針對每個文本段生成對應的文本語音段，并確定其段落標識和語音文件地址，然后利用預設的短文本合成語音接口，按照文本語音段的先后順序依次從語音文件地址中獲取并合成長文本語音文件進行播報，有效解決了長文本在線合成語音接口存在的分鐘級延遲問題，能夠滿足實時場景對語音播報的高時效性需求，提升了用戶體驗。

技術特征：

1.一種長文本語音播報方法，其特征在于，所述方法包括：

2.根據權利要求1所述的一種長文本語音播報方法，其特征在于，按照所述文本語音段的先后順序，依次從所述語音文件地址中獲取到相應的文本語音段，具體包括：

3.根據權利要求2所述的一種長文本語音播報方法，其特征在于，按照所述先后順序，對位于所述首個文本語音段之后的其他文本語音段進行預加載，以在完成對所述首個文本語音段的語音播報后，自動播報所述其他文本語音段，具體包括：

4.根據權利要求3所述的一種長文本語音播報方法，其特征在于，生成位于所述首個文本語音段之后的下一文本語音段的下一播報請求，具體包括：

5.根據權利要求1所述的一種長文本語音播報方法，其特征在于，基于預設的分割規則，根據所述長文本文件中包含的字符串信息，將所述長文本文件分割為若干文本段，具體包括：

6.根據權利要求5所述的一種長文本語音播報方法，其特征在于，根據所述字符串長度，將所述長文本文件分割為若干文本段，具體包括：

7.根據權利要求6所述的一種長文本語音播報方法，其特征在于，將所述多個文本段合并為同一文本段，具體包括：

8.根據權利要求7所述的一種長文本語音播報方法，其特征在于，所述方法還包括：

9.一種長文本語音播報設備，其特征在于，所述設備包括：

10.一種非易失性計算機存儲介質，存儲有計算機可執行指令，其特征在于，所述計算機可執行指令設置為：

技術總結
本申請公開了一種長文本語音播報方法、設備及介質，方法包括：獲取長文本文件，基于預設的分割規則，根據長文本文件中包含的字符串信息，將長文本文件分割為若干文本段；針對文本段生成對應的文本語音段，確定文本語音段對應的段落標識以及語音文件地址；調用預設的短文本合成語音接口，按照文本語音段的先后順序，依次從語音文件地址中獲取到相應的文本語音段，并將文本語音段合成為長文本語音文件進行語音播報。

技術研發人員：盧祥鈞,張志江,侯志強
受保護的技術使用者：浪潮智能終端有限公司
技術研發日：
技術公布日：2025/6/26

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：盧祥鈞,張志江,侯志強
技術所有人：浪潮智能終端有限公司
我是此專利的發明人

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文字轉語音播音系統相關技術

語音播報裝置相關技術

日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

一種長文本語音播報方法、設備及介質與流程