本發明屬于人工智能,具體涉及到一種具有語音控制功能的虛擬人物模型及其控制方法。
背景技術:
1、虛擬人物,通常指的是通過數字技術創造出的非真實存在的角色或形象。它們可以存在于多種形式,如二維動畫、三維模型、游戲角色、虛擬偶像等。在科技飛速發展的當下,虛擬人物語音控制系統正逐漸從科幻構想走進現實生活,成為推動各行業變革的關鍵力量。這一系統融合了語音識別、自然語言處理、虛擬形象驅動等前沿技術,賦予虛擬人物“開口說話”及與用戶自然交互的能力,為用戶帶來沉浸式、個性化的交互體驗。
2、現有的虛擬人物的語音控制方法主要包含如下:1、語音識別技術:作為系統的“耳朵”,語音識別技術負責將用戶的語音準確轉化為文本。從早期的模板匹配算法到如今基于深度學習的端到端模型,如深度神經網絡(dnn)、循環神經網絡(rnn)及其變體長短時記憶網絡(lstm)等,識別準確率大幅提升,即使在嘈雜環境下也能精準捕捉用戶指令。以科大訊飛的語音識別引擎為例,在安靜環境下識別準確率可達98%以上,為虛擬人物理解用戶意圖奠定堅實基礎。2、自然語言處理技術:接收到語音轉文本結果后,自然語言處理技術發揮作用,對文本進行語法分析、語義理解及意圖推斷。借助詞向量模型(如word2vec、gpt系列)和語義分析算法,系統能夠理解復雜句式和模糊表達,實現與用戶的流暢對話。例如,當用戶詢問“明天天氣如何”,系統不僅能解析出查詢天氣的意圖,還能關聯到具體時間和地點信息,給出準確回復。3、虛擬形象驅動技術:這是賦予虛擬人物生動表現力的關鍵。通過語音與口型同步算法,如基于音素和視覺特征匹配的方法,使虛擬人物說話時口型自然流暢。同時,結合面部表情生成技術,依據語音情感和語義信息,驅動虛擬人物做出喜怒哀樂等表情,增強情感交互。阿里達摩院的echom?imi?cv2工具更是突破創新,可在音頻驅動下實現虛擬人物頭部和身體動作協調,全方位提升表現力。
3、目前的基于語音控制的虛擬人物在多人語音環境下,無法快速識別準確的語音控制命令,導致虛擬人物做出的語音控制命令不準確,影響使用。
技術實現思路
1、本發明所要解決的技術問題在于克服上述現有技術的缺點,提供一種具有語音控制功能的虛擬人物模型及其控制方法。
2、解決上述技術問題所采用的技術方案是:一種具有語音控制功能的虛擬人物模型的控制方法,包括:
3、步驟1、采集本次語音控制中所有說話者的語音控制命令;
4、步驟2、對所采集的語音控制命令進行音色甄別,提取不同說話者的音色特征,并生成音色信號;
5、步驟3、將生成的音色信號輸入至語音控制頻率數據庫中,并與語音控制頻率數據庫中儲存的歷史音色信號進行相似度匹配,查詢該歷史音色信號的出現頻率;
6、步驟4、按出現的頻率高低對匹配到語音控制頻率數據庫中的音色信號進行排列,并提取其中語音控制頻率最高的音色信號,作為本次語音控制的語音控制命令;
7、步驟5、調取上述語音控制命令,并生成語音控制指令,使虛擬人物產生相應動作并發出與語音控制指令相對應的聲音。
8、優選的,所述步驟2包括如下內容:
9、預處理:
10、通過預加重處理來提升高頻部分,使信號的頻譜趨于平坦;
11、通過分幀處理將連續的語音信號分割成短時幀;
12、通過加窗處理來減少幀邊緣的截斷效應;
13、特征提?。?/p>
14、通過快速傅里葉變換來計算每一幀的頻譜;
15、通過梅爾濾波器組將頻譜通過一組梅爾濾波器;
16、通過對數運算對每個濾波器的輸出取對數;
17、通過離散余弦變換將濾波器組輸出的對數能量進行變化,得到mfcc系數;
18、音色信號擴寫:
19、通過線性預測編碼,估計聲道的線性預測系數;
20、通過倒譜提升增強音色特征。
21、優選的,所述語音控制頻率數據庫采集固定使用周期中所收集的不同說話者的語音控制命令,并生成語音控制頻率數據。
22、優選的,所述語音控制頻率庫生成語音控制頻率數據的方法包括如下內容:
23、定義固定使用周期,作為語音控制頻率數據的計算范圍;
24、在每個固定周期內,收集語音控制命令;
25、對收集到的語音信號進行處理;
26、從處理后的語音信號中提取音色特征;
27、對每個說話者的語音控制命令進行頻率分析,以確定語音控制頻率數據;
28、根據頻率分析結果,生成語音控制頻率數據;
29、將生成的語音控制頻率數據存儲到數據庫中。
30、優選的,所述對每個說話者的語音控制命令進行頻率分析,以確定語音控制頻率數據包括如下內容:
31、計算基頻:對每個語音幀,計算其基頻;
32、頻率分布統計:對每個說話者的所有語音命令的基頻進行統計,得到頻率分布。
33、優選的,所述步驟3包括如下內容:
34、將本次語音控制中生成的音色信號輸入至語音控制頻率數據庫中,并驗證音色信號數據的完整性;
35、輸入語音控制頻率數據庫后,進行相似度匹配;
36、對于篩選出的相似歷史音色信號,進一步查詢該歷史音色信號在語音控制頻率數據庫中出現的頻率。
37、優選的,所述輸入語音控制頻率數據庫后,進行相似度匹配,包括如下內容:
38、比較輸入的音色信號與語音控制頻率數據庫中的歷史音色信號的特征參數;
39、通過余弦相似度算法來計算輸入至語音控制頻率數據庫中的音色信號與歷史音色信號的相似度。
40、優選的,所述步驟4中,在提取到語音控制頻率最高的音色信號后,先對提取到的音色信號進行匹配精確度判斷,若匹配精確度達到固定閾值,則該音色信號作為本次語音控制的語音控制命令,若匹配精確度未達到固定閾值,則返回步驟3。
41、一種具有語音控制功能的虛擬人物模型,包括:
42、顯示模塊,用于顯示虛擬人物形象;
43、語音控制頻率數據庫,用于在固定周期內采集所有說話者的音色特征,并將音色特征生成音色信號,再依據該周期內音色信號生成的頻率,對所有的音色信號按生成的頻率高低進行排列;
44、語音采集模塊,用于采集語音控制中所有說話者的語音控制命令;
45、音色信號生成模塊,用于采集所有的語音控制命令,并逐個對語音控制命令進行音色甄別,并提取所有語音控制命令所對應的說話者的音色特征,且依據音色特征生成相應的音色信號;
46、匹配模塊,用于將音色信號匹配到語音控制頻率數據庫,并按語音控制頻率的高低對音色信號進行排列,提取其中語音控制頻率最高的音色信號,作為本次語音控制的語音控制命令;
47、指令模塊,用于調取語音控制命令,并生成語音控制指令,使虛擬人物產生相應動作,及\或發出與語音控制指令相對應的聲音。
48、優選的,還包括:
49、命令準確度校驗模塊,用于在指令模塊結束后,在固定時間內檢測是否重復產生與本次語音控制命令相似的語音控制命令,若重新采集到相似的語音控制命令,則對匹配模塊的匹配機制進行優化,反之不需優化。
50、本發明的有益效果如下:
51、1、本發明中,通過采用匹配出現頻率最高的音色信號來優先發出該音色信號對應的語音控制命令,實現在多人說話環境中,產生準確的語音控制指令,避免多人說話環境中,無法準確提取語音控制命令,進而無法產生語音控制指令;
52、2、本發明中,通過步驟2對音色信號進行處理,進而提取出精確的音色特征,以便于語音控制頻率數據庫中的音色信號進行匹配;
53、3、本發明中,通過設置命令準確度校驗模塊,能夠實現檢測本次語音控制命令優先的準確度。