利用單一聲學模型和自動口音檢測實現的基于文本規則的多口音言語識別的制作方法

文檔序號：11161271閱讀：624來源：國知局

利用單一聲學模型和自動口音檢測實現的基于文本規則的多口音言語識別的制造方法與工藝

本申請要求2014年7月24日提交的標題為“TEXT RULE BASED MULTI-ACCENT SPEECH RECOGNITION WITH SINGLE ACOUSTIC MODEL AND AUTOMATIC ACCENT DETECTION”的印度臨時專利申請號3618/CHE/2014的優先權，所述申請的全部內容出于所有目的特此以引用的方式并入本文。

技術領域

本公開涉及言語識別，并且具體地涉及多口音言語識別。

背景技術：

針對同一種語言的多種口音的言語識別對嵌入式裝置群提出了挑戰。通常，通過具有用于各種口音的不同聲學模型來跨不同的、在很大程度上分開的地理區域解決這個問題。例如，北美洲、英國、澳大利亞和印度英語具有用于識別的不同聲學模型。

即使具有各自的聲學模型，地域口音也可能提供另外的挑戰。例如，雖然英語在印度通常是繼相應地域母語之后的第二最常用口語，但是在印度的不同地區存在許多地域英語口音。這些地域口音對基于單一聲學模型的言語識別提出了挑戰。言語識別可使用并行采用多個口音特定識別器的多口音識別系統。使具有不同聲學模型的多個口音特定識別器并行運行以提高識別準確度可能是處理器密集的。這種密集型資源使用可能對具有有限處理能力的嵌入式裝置尤其具有挑戰性。此外，口音特定的聲學模型的開發和使用可能并不是成本有效的。

用于克服多口音問題的一種技術是對最經常讓人困惑的語音對進行分析并形成語音遷移對。然后將這些發音遷移對插入到原始規范詞典中，并且最后構建適于口音的新字典。實際上，所述方法涉及用帶口音發音的最可能的語音符號組合來替換不使用的本土口音語音。由于對聲學模型或由識別引擎在內部識別的符號的訪問受限或不能訪問，這種分析可能是不可能的。

技術實現要素：

實施方案公開了一種示例性言語識別系統，其包括帶口音語音和變換ID生成單元，所述帶口音語音和變換ID生成單元包括帶口音子字符串的數據庫并且接收元數據和與所述元數據相關聯并且處于第一ID數據空間中的ID數據。所述帶口音語音和變換ID生成單元提供各自唯一地與同某種語言相關聯的多種不同口音中的相關聯口音相關聯的多個修改的單詞，并且處理所述多個修改的單詞并提供針對所述多個修改的單詞的多個口音校正的語音數據。處理所述口音校正的語音數據中的每一個以提供處于第二ID數據空間中的各自唯一地與所述多個口音校正的語音數據中的相關聯數據相關聯的多個變換ID。言語特征提取器單元接收并處理用戶輸入言語并且提供與用戶輸入言語相關聯的所提取的言語數據。話音識別邏輯單元接收所提取的言語數據、所述多個變換ID和所述多個口音校正的語音數據，并且提供對應于終端的終端標識符以及口音數據，對于所述口音數據，音標中的一個與同用戶輸入言語相關聯的所提取的言語數據最佳地匹配。口音檢測和逆向ID變換單元接收終端標識符并且提供處于第一ID數據空間中的確認ID?？谝艚Y果加權邏輯單元接收所檢測到的口音數據并且與所檢測到的口音數據的過去值進行比較以提供所識別的言語數據。

所述帶口音語音和變換ID生成單元可包括提供所述多個口音校正的語音數據的字素到語音單元。

所述帶口音語音和變換ID生成單元可包括變換ID分配器，所述變換ID分配器接收口音校正的語音數據和ID數據并且提供處于第二ID數據空間中的多個變換ID。

話音識別邏輯單元包括上下文單元，所述上下文單元包括與某種語言相關聯的語法文件。文本條目可例如包括來自聯系人數據庫的電話簿聯系人名稱，或可以是與媒體播放器相關聯的任何其他元數據，例如像歌曲標題、藝術家名稱、流派名稱、專輯名稱等等。

一種在處理器中執行的示例性言語識別方法接收元數據和處于原始ID空間中的ID數據，并且提供各自唯一地與所述元數據和與某種語言相關聯的多種不同口音中的相關聯口音相關聯的多個修改的單詞，并且處理所述多個修改的單詞以提供所述多個修改的單詞的多個口音校正的語音數據。處理口音校正的語音數據以提供處于變換ID空間中的各自唯一地與所述多個口音校正的語音數據中的相關聯數據相關聯的多個變換ID。接收并處理用戶輸入言語數據以提供與用戶輸入言語數據相關聯的所提取的言語數據。處理所提取的言語數據、所述多個變換ID和所述多個口音校正的語音數據以提供對應于終端的終端標識符并提供音標的與同用戶輸入言語數據相關聯的所提取的言語數據匹配的口音數據。處理終端標識符以提供處于原始ID數據空間中的確認ID，并且將所檢測到的口音數據與所檢測到的口音數據的過去值進行比較以提供所識別的言語數據。

另一種由言語識別系統執行的示例性言語識別方法，所述言語識別系統包括言語控制裝置、處理器和存儲可由所述處理器執行的指令的存儲裝置，所述方法包括：在包括帶口音子字符串的數據庫的帶口音語音和變換ID生成單元處接收元數據；通過所述帶口音語音和變換ID生成單元生成包括在元數據中的單詞的口音校正的語音數據，所述口音校正的語音數據基于存儲在數據庫中的帶口音子字符串而表示包括在元數據中的單詞的不同發音；以及在話音識別引擎處接收源自由用戶輸入到言語識別系統的話語的所提取的言語數據。所述示例性言語識別方法還包括：在話音識別引擎處接收口音校正的語音數據；在話音識別引擎處確定所提取的言語數據中標識所識別的話語的一個或多個終端ID；在話音識別引擎處生成標識在所識別的話語中檢測到的口音的口音數據；基于所述一個或多個終端ID和所述口音數據來生成所識別的言語數據；以及將所識別的言語數據輸出到言語控制裝置。

應理解，以上提及的特征和以下將要解釋的特征不僅可按所指示的各個組合來使用，而且還可按其他組合來使用或分開來使用。根據如附圖中示出的本發明的實施方案的詳細描述，本發明的這些和其他目標、特征和優勢將變得顯而易見。

附圖簡述

參考附圖閱讀以下對非限制性實施方案的描述，可更好地理解本公開，在以下附圖中：

圖1示出根據本公開的一個或多個實施方案的車輛車廂的示例性局部視圖；

圖2示出根據本公開的一個或多個實施方案的示例性車載計算系統；

圖3是根據本公開的一個或多個實施方案的示例性言語識別系統的框圖說明；

圖4是根據本公開的一個或多個實施方案的示例性帶口音語音和ID生成邏輯單元的框圖說明；

圖5是根據本公開的一個或多個實施方案的包括圖3的示例性言語識別系統的示例性處理系統的框圖說明；并且

圖6是根據本公開的一個或多個實施方案的用于執行言語識別的方法的流程圖。

具體實施方式

本文中公開了用于包括帶口音單詞生成器的多口音言語識別系統的系統和方法。所述生成器提供發聲最類似于針對特定口音的輸入單詞的新單詞。針對系統支持的所有口音都這樣做。帶口音單詞生成的基礎是基于那個特定口音的原始單詞中的字母組合的字符串替換邏輯。ID生成器模塊生成所替換單詞的變換ID，所述變換ID可用來在識別口音時標識原始單詞的ID以及口音。

圖1示出用于言語識別系統的一種類型的環境、即車輛102的車廂100內部的示例性局部視圖，駕駛員和/或一個或多個乘客可坐在所述車廂100中。圖1的車輛102可以是包括驅動輪(未示出)和內燃機104的機動車輛。車輛102可以是前方車輛或后方車輛。內燃機104可包括一個或多個燃燒室，所述一個或多個燃燒室可通過進氣通道接收進氣并通過排氣通道排放燃燒氣體。車輛102可以是道路汽車，以及其他類型的車輛。在一些實例中，車輛102可包括混合推進系統，所述混合推進系統包括能量轉換裝置，所述能量轉換裝置可操作來吸收來自車輛運動和/或發動機的能量并將所吸收的能量轉換成適合于由能量存儲裝置進行存儲的能量形式。車輛102可包括并入有燃料電池、太陽能捕獲元件和/或用于給車輛供電的其他能量存儲系統的純電動車輛。

如圖所示，儀表板106可包括車輛102的駕駛員(也稱為用戶)可訪問的各種顯示器和控制件。例如，儀表板106可包括車載計算系統109(例如，信息娛樂系統)的觸摸屏108、音頻系統控制面板和儀表組110。雖然圖1所示的示例性系統包括可在不具有單獨音頻系統控制面板的情況下通過車載計算系統109的用戶接口(諸如觸摸屏108)執行的音頻系統控制件，但是在其他實施方案中，車輛可包括音頻系統控制面板，所述音頻系統控制面板可包括用于常規車輛音頻系統(諸如無線電、光盤播放器、MP3播放器等)的控制件。音頻系統控制件可包括用于通過車輛揚聲器系統的揚聲器112控制音頻輸出的一個或多個方面的特征。例如，車載計算系統或音頻系統控制件可控制音頻輸出的音量、發聲在車輛揚聲器系統的獨立揚聲器之間的分布、音頻信號的均衡和/或音頻輸出的任何其他方面。在另外的實例中，車載計算系統109可基于直接通過觸摸屏108接收的用戶輸入，或基于通過外部裝置150和/或移動裝置128接收的與用戶有關的數據(諸如用戶的身體狀況和/或環境)來調整無線電臺選擇、播放列表選擇、音頻輸入源(例如，來自無線電或CD或MP3)等。

在一些實施方案中，車載計算系統109的一個或多個硬件元件(諸如觸摸屏108、顯示屏、各種控制標度盤、旋鈕和按鈕、存儲器、處理器和任何接口元件(例如，連接器或端口))可形成安裝在車輛的儀表板106中的整合主機。主機可固定地或可移除地附接在儀表板106中。在另外或替代實施方案中，車載計算系統的一個或多個硬件元件可為模塊化的并可安裝在車輛的多個位置中。

車廂100可包括用于監測車輛、用戶和/或環境的一個或多個傳感器。例如，車廂100可包括：一個或多個安裝在座椅上的壓力傳感器，其被配置來測量施加到座椅的壓力以確定用戶的存在；門傳感器，其被配置來監測門活動；濕度傳感器，其測量車廂的濕氣含量；麥克風，其用來接收呈話音命令形式的用戶輸入以使得用戶能夠進行電話呼叫，和/或測量車廂100中的周圍噪聲等。應理解，可將上述傳感器和/或一個或多個另外或替代傳感器定位在車輛的任何合適位置中。例如，可將傳感器定位在車輛外表面上的發動機艙中，和/或用于提供關于車輛的操作、車輛的周圍條件、車輛的用戶等的信息的其他合適位置中。關于車輛周圍條件、車輛狀態或車輛駕駛員的信息還可從車輛外部/與車輛分開(也就是，不是車輛系統的一部分)的傳感器(諸如聯接到外部裝置150和/或移動裝置128的傳感器)接收。

車廂100也可包括在行進之前、行進期間和/或行進之后存儲在車輛中的一個或多個用戶物品，諸如移動裝置128。移動裝置128可包括智能電話、平板、膝上型計算機、便攜式媒體播放器和/或任何合適的移動計算裝置。移動裝置128可通過通信鏈路130連接到車載計算系統。通信鏈路130可以是有線的(例如，經由通用串行總線[USB]、移動高清鏈路[MHL]、高清多媒體接口[HDMI]、以太網等)或無線的(例如，通過藍牙、WIFI、WIFI direct近場通信[NFC]、蜂窩式連接等)，并且被配置來在移動裝置與車載計算系統之間提供雙向通信。移動裝置128可包括用于連接到一個或多個通信鏈路(例如，上文所述的示例性通信鏈路中的一個或多個)的一個或多個無線通信接口。根據移動裝置中的其他裝置，所述無線通信接口可包括聯接到數據線而用于載送傳輸數據或接收數據的一個或多個物理裝置(諸如天線或端口)，以及用于操作所述物理裝置的一個或多個模塊/驅動器。例如，通信鏈路130可將來自各種車輛系統(諸如車輛音頻系統、氣候控制系統等)和觸摸屏108的傳感器和/或控制信號提供給移動裝置128，并且可將來自移動裝置128的控制和/或顯示信號提供給車載系統和觸摸屏108。通信鏈路130還可從車載電源提供電力給移動裝置128，以便給移動裝置的內部電池充電。

車載計算系統109還可通信地聯接到由用戶操作和/或訪問但位于車輛102外部的另外裝置，諸如一個或多個外部裝置150。在所描繪的實施方案中，外部裝置位于車輛102的外部，但是應了解，在替代實施方案中，外部裝置可位于車廂100內部。外部裝置可包括服務器計算系統、個人計算系統、便攜式電子裝置、電子腕帶、電子頭帶、便攜式音樂播放器、電子活動跟蹤裝置、計步器、智能腕表、GPS系統等。外部裝置150可通過通信鏈路136連接到車載計算系統，所述通信鏈路136可以是有線的或無線的，如參考通信鏈路130所論述，并且被配置來在外部裝置與車載計算系統之間提供雙向通信。例如，外部裝置150可包括一個或多個傳感器，并且通信鏈路136可將來自外部裝置150的傳感器輸出傳輸到車載計算系統109和觸摸屏108。外部裝置150還可存儲和/或接收與情境數據、用戶行為/偏好、操作規則等有關的信息，并且可將來自外部裝置150的此類信息傳輸到車載計算系統109和觸摸屏108。

車載計算系統109可以：分析從外部裝置150、移動裝置128和/或其他輸入源接收的輸入，并且選擇用于各種車載系統(諸如氣候控制系統或音頻系統)的設置，通過觸摸屏108和/或揚聲器112提供輸出，與移動裝置128和/或外部裝置150通信，和/或基于評估執行其他動作。在一些實施方案中，評估的全部或部分可由移動裝置128和/或外部裝置150執行。在一些實施方案中，外部裝置150可包括另一車輛的車載計算裝置，同樣，所述車輛可以是在車輛102前方的車輛或可以是在車輛102后方的車輛。

在一些實施方案中，外部裝置150中的一個或多個可通過移動裝置128和/或外部裝置150中的另一個來通信地間接聯接到車載計算系統109。例如，通信鏈路136可將外部裝置150通信地聯接到移動裝置128，從而使得來自外部裝置150的輸出被中繼傳遞給移動裝置128。從外部裝置150接收的數據可隨后在移動裝置128處與由移動裝置128收集的數據聚合，聚合數據隨后通過通信鏈路130被傳輸到車載計算系統109和觸摸屏108。類似的數據聚合可在服務器系統處發生，并且隨后通過通信鏈路136/130被傳輸到車載計算系統109和觸摸屏108。

圖2示出配置和/或整合在車輛201內部的車載計算系統200的框圖。在一些實施方案中，車載計算系統200可以是圖1的車載計算系統109的實例和/或可執行本文所述的方法中的一個或多個。在一些實例中，車載計算系統可以是車輛信息娛樂系統，所述車輛信息娛樂系統被配置來提供基于信息的媒體內容(音頻和/或視覺媒體內容，包括娛樂內容、導航服務等)給車輛用戶，以便增強操作者的車內體驗。車輛信息娛樂系統可包括或聯接到各種車輛系統、子系統、硬件部件以及軟件應用程序和系統，所述軟件應用程序和系統被整合在或可整合到車輛201中以便增強駕駛員和/或乘客的車內體驗。

車載計算系統200可包括一個或多個處理器，所述處理器包括操作系統處理器214和接口處理器220。操作系統處理器214可在車載計算系統上執行操作系統，并且控制車載計算系統的輸入/輸出、顯示、回放和其他操作。接口處理器220可通過車內系統通信模塊222而與車輛控制系統230對接。

車內系統通信模塊222可輸出數據到其他車輛系統231和車輛控制元件261，而同時還(例如)通過車輛控制系統230從其他車輛部件和系統231、261接收數據輸入。當輸出數據時，車內系統通信模塊222可通過總線提供信號，所述信號對應于車輛的任何狀態、車輛周圍環境或連接到車輛的任何其他信息源的輸出。車輛數據輸出可包括例如：模擬信號(諸如當前速度)、由單個信息源(諸如時鐘、溫度計、諸如全球定位系統[GPS]傳感器的位置傳感器等)提供的數字信號、通過車輛數據網絡(諸如：發動機控制器局域網[CAN]總線，可以通過這個總線來傳達發動機相關信息；氣候控制CAN總線，可以通過這個總線來傳達氣候控制相關信息；以及多媒體數據網絡，通過這個網絡在車輛中的多媒體部件之間傳達多媒體數據)傳播的數字信號。例如，車載計算系統可從發動機CAN總線檢索車輪傳感器所估算的車輛當前速度、通過車輛電池和/或電力分布系統的車輛電力狀態、車輛的點火狀態等。此外，在不背離本公開的范圍的情況下，也可使用諸如以太網的其他接口裝置。

車載計算系統200中可包括非易失性存儲裝置208，用來以非易失性形式存儲數據，諸如可由處理器214和220執行的指令。存儲裝置208可存儲應用程序數據，用來允許車載計算系統200運行應用程序以便連接到基于云技術的服務器和/或收集信息來傳輸到基于云技術的服務器。所述應用程序可檢索由車輛系統/傳感器、輸入裝置(例如用戶接口218)、與車載計算系統通信的裝置(例如，通過藍牙鏈路連接的移動裝置)等收集的信息。車載計算系統200還可包括易失性存儲器216。易失性存儲器216可以是隨機存取存儲器(RAM)。諸如非易失性存儲裝置208的非暫時性存儲裝置和/或易失性存儲器216可存儲指令和/或代碼，所述指令和/或代碼在由處理器(例如，操作系統處理器214和/或接口處理器220)執行時，控制車載計算系統200執行本公開中所述的動作中的一個或多個。

麥克風202可包括在車載計算系統200中，用來從用戶接收話音命令、測量車輛中的環境噪聲，根據車輛的聲學環境來確定是否調諧來自車輛揚聲器的音頻，等等。言語處理單元204可處理話音命令，諸如從麥克風202接收的話音命令。在一些實施方案中，車載計算系統200還可能夠使用車輛的音頻系統232中所包括的麥克風來接收話音命令和樣本環境車輛噪聲。

車載計算系統200的傳感器子系統210中可包括一個或多個另外的傳感器。例如，傳感器子系統210可包括攝像頭，諸如用于輔助用戶停車的后視攝像頭和/或用于標識用戶(例如，使用面部識別和/或用戶手勢)的車廂攝像頭。車載計算系統200的傳感器子系統210可與各種車輛傳感器通信且從各種車輛傳感器接收輸入，并且可進一步接收用戶輸入。例如，由傳感器子系統210接收的輸入可包括變速器齒輪位置、變速器離合器位置、油門踏板輸入、剎車輸入、變速器選擇器位置、車輛速度、發動機速度、通過發動機的氣流質量、環境溫度、進氣溫度等，以及來自以下傳感器的輸入：氣候控制系統傳感器(諸如熱傳遞流體溫度、防凍劑溫度、風扇速度、乘客艙溫度、所期望的乘客艙溫度、環境濕度等)、檢測由用戶發出的話音命令的音頻傳感器、從車輛的鑰匙扣接收命令并且任選地跟蹤所述鑰匙扣的地理位置/接近度的鑰匙扣傳感器等。當某些車輛系統傳感器可單獨與傳感器子系統210通信時，其他傳感器可與傳感器子系統210和車輛控制系統230兩者通信，或可直接通過車輛控制系統230與傳感器子系統210通信。車載計算系統200的導航子系統211可生成和/或接收諸如位置信息(例如，通過GPS傳感器和/或來自傳感器子系統210的其他傳感器)、路線引導、交通信息、興趣點(POI)識別的導航信息，和/或為駕駛員提供其他導航服務。

車載計算系統200的外部裝置接口212可能可連接到位于車輛201外部的一個或多個外部裝置240和/或與所述外部裝置240通信。雖然外部裝置被示出為位于車輛201外部，但應了解的是，所述外部裝置可暫時置放在車輛201中，諸如當用戶在操作車輛201的同時操作外部裝置時。換句話說，外部裝置240并不與車輛201形成整體。外部裝置240可包括移動裝置242(例如，通過藍牙、NFC、WIFI direct或其他無線連接加以連接)或替代的具備藍牙功能的裝置252。移動裝置242可以是移動電話、智能電話、可通過有線和/或無線通信與車載計算系統通信的穿戴式裝置/傳感器，或其他便攜式電子裝置。其他外部裝置包括外部服務246。例如，外部裝置可包括與車輛分開且位于車輛外部的車輛外裝置。還有其他外部裝置包括外部存儲裝置254，諸如固態驅動器、筆驅動器、USB驅動器等。在不背離本公開的范圍的情況下，外部裝置240可無線地或通過連接器與車載計算系統200通信。例如，外部裝置240可通過網絡260、通用串行總線(USB)連接、直接有線連接、直接無線連接和/或其他通信鏈路，通過外部裝置接口212與車載計算系統200通信。

外部裝置接口212可提供通信接口來允許車載計算系統與移動裝置通信，這些移動裝置與駕駛員的聯系人相關聯。例如，外部裝置接口212可使得能夠建立電話呼叫和/或向與駕駛員的聯系人相關聯的移動裝置發送(例如，通過蜂窩式通信網絡)文本消息(例如，SMS、MMS等)。另外或可替代地，外部裝置接口212可提供無線通信接口，以便使得車載計算系統能夠通過WIFI direct而與車輛中的一個或多個裝置(例如，駕駛員的移動裝置)同步數據，正如下文更詳細描述的。

一個或多個應用程序244可在移動裝置242上操作。舉例來說，移動裝置應用程序244可以操作來聚合關于用戶與移動裝置的交互的用戶數據。例如，移動裝置應用程序244可聚合與以下各者有關的數據：用戶在移動裝置上收聽的音樂播放列表、電話呼叫日志(包括用戶所接聽的電話呼叫的頻率和持續時間)、包括用戶常去的位置和在每個位置所花費的時間量的位置信息等。可將所收集的數據通過網絡260由應用程序244傳送給外部裝置接口212。另外，在移動裝置242處可通過外部裝置接口212從車載計算系統200接收具體用戶數據請求。所述具體數據請求可包括用于確定用戶的地理位置、環境噪聲級和/或用戶位置處的音樂流派、用戶位置處的環境天氣條件(溫度、濕度等)等的請求。移動裝置應用程序244可向移動裝置242的部件(例如，麥克風等)或其他應用程序(例如，導航應用程序)發送控制指令，以使得所請求的數據能夠收集在移動裝置上。移動裝置應用程序244隨后可將所收集信息中繼傳遞回車載計算系統200。

同樣地，一個或多個應用程序248可在外部服務246上操作。舉例來說，外部服務應用程序248可操作來聚合和/或分析來自多個數據源的數據。例如，外部服務應用程序248可聚合來自用戶的一個或多個社交媒體賬戶的數據，來自車載計算系統(例如，傳感器數據、日志文件、用戶輸入等)的數據，來自互聯網查詢的數據(例如，天氣數據、POI數據)等。所收集的數據可被傳輸給另一個裝置和/或由應用程序分析，以確定駕駛員、車輛和環境的情境，并且基于所述情境執行動作(例如，請求/發送數據給其他裝置)。

車輛控制系統230可包括控制件，用來控制不同車載功能所涉及的各種車輛系統231的方面。這些控制可以包括(例如)控制車輛音頻系統232的方面以便向車輛乘員提供音頻娛樂、控制氣候控制系統234的方面以便滿足車輛乘員的車廂冷卻或加熱需要，以及控制電信系統236的方面以便使得車輛乘員能夠與他人建立電信聯接。

音頻系統232可包括一個或多個聲學再現裝置，所述聲學再現裝置包括諸如揚聲器的電磁轉換器。車輛音頻系統232可以是無源的或有源的(諸如通過包括功率放大器)。在一些實例中，車載計算系統200可以是用于聲學再現裝置的僅有音頻源，或者可存在連接到音頻再現系統的其他音頻源(例如，諸如移動電話的外部裝置)。任何此類外部裝置與音頻再現裝置的連接可以是模擬的、數字的或模擬技術與數字技術的任何組合。

氣候控制系統234可被配置來在車輛201的車廂或乘客艙內提供舒適的環境。氣候控制系統234包括能夠控制通風的部件，諸如通氣孔、加熱器、空調器、整合的加熱器和空調器系統等。鏈接到加熱和空調設置的其他部件可包括能夠清洗擋風玻璃的擋風玻璃除霜除霧系統和用于清潔通過新鮮空氣入口進入乘客艙的外界空氣的通氣過濾器。

車輛控制系統230還可包括控制件，所述控制件用來調整與發動機和/或車輛車廂內的輔助元件有關的各種車輛控制件261(或車輛系統控制元件)的設置，所述車輛控制件261諸如方向盤控制件262(例如，安裝在方向盤上的音頻系統控制件、巡航控制件、擋風玻璃雨刷控制件、前大燈控制件、轉向信號控制件等)、儀表板控制件、麥克風、加速器/煞車/離合器踏板、換檔器、位于駕駛員或乘客車門中的車門/車窗控制件、座椅控制件、車廂燈控制件、音頻系統控制件、車廂溫度控制件等。車輛控制件261還可包括被配置來通過車輛的CAN總線接收指令的內部發動機和車輛操作控制件(例如，發動機控制器模塊、致動器、閥等)，以改變發動機、排氣系統、變速器和/或其他車輛系統中的一個或多個的操作。控制信號還可控制車輛音頻系統232的一個或多個揚聲器處的音頻輸出。例如，控制信號可調整音頻輸出特性，諸如音量、均衡化、音頻圖像(例如，用來產生音頻輸出的音頻信號的配置，所述音頻輸出在用戶看來是源自一個或多個已定義位置)、在多個揚聲器之間的音頻分布等。同樣地，控制信號可控制通氣孔、空調器和/或氣候控制系統234的加熱器。例如，控制信號可增加通向車廂特定區部的冷卻空氣輸送。

定位于車輛外部的控制元件(例如，用于安全系統的控制件)也可連接到計算系統200，諸如通過通信模塊222。車輛控制系統的控制元件可物理地且永久地定位于車輛上和/或車輛中，以用于接收用戶輸入。除了從車載計算系統200接收控制指令之外，車輛控制系統230還可以從用戶所操作的一個或多個外部裝置240(諸如從移動裝置242)接收輸入。這允許基于從外部裝置240接收的用戶輸入來控制車輛系統231和車輛控制件261的方面。

車載計算系統200還可包括天線206。天線206被示出為單個天線，但是在一些實施方案中可包括一個或多個天線。車載計算系統可通過天線206獲得寬帶無線互聯網接入，并且可進一步接收諸如無線電、電視、天氣、交通等的廣播信號。車載計算系統可通過一個或多個天線206接收諸如GPS信號的定位信號。車載計算系統還可通過RF，諸如通過天線206或通過紅外或其他裝置通過適當的接收裝置來接收無線命令。在一些實施方案中，天線206可包括為音頻系統232或電信系統236的一部分。另外，天線206可通過外部裝置接口212向外部裝置240(諸如向移動裝置242)提供AM/FM無線電信號。

車載計算系統200的一個或多個元件可由用戶通過用戶接口218加以控制。用戶接口218可包括呈現在觸摸屏(諸如圖1的觸摸屏108)上的圖形用戶界面和/或用戶致動按鈕、開關、旋鈕、標度盤、滑動條等。例如，用戶致動元件可包括方向盤控制件、車門和/或車窗控制件、儀表板控制件、音頻系統設置、氣候控制系統設置等等。用戶還可通過用戶接口218與車載計算系統200和移動裝置242的一個或多個應用程序交互。除了在用戶接口218上接收用戶的車輛設置偏好之外，還可以在用戶接口218上向用戶顯示由車載控制系統選擇的車輛設置?？稍谟脩艚涌诘娘@示器上向用戶顯示通知和其他消息(例如，所接收的消息)以及導航援助。可通過通向用戶接口的用戶輸入來執行用戶偏好/信息和/或對所呈現消息的響應。

圖3是言語識別系統300的框圖說明。所述系統包括接收線304上的用戶輸入言語(例如，數字化的)的言語特征提取器單元302。用戶輸入言語可由麥克風(未示出)檢測并且利用模擬數字轉換器(ADC)進行數字化。特征提取器單元302將數字言語信號轉換成可用來對照對應于添加到上下文的適當單詞(“終端”)的語音識別言語并且返回最佳匹配結果的特征。所述特征信息在線306上提供給話音識別引擎308，所述話音識別引擎308隨后在線310上返回對應于“終端”的標識符(ID)，對于所述標識符(ID)，音標中的一個與同用戶輸入言語相關聯的所提取的特征最佳地匹配。

言語識別可對固定詞匯起作用的方式是通過定義包含將要識別的單詞列表的語法。每個單詞或短語(也稱為“終端”)可具有使單詞或短語作為基礎語音符號的組合發音的一種或多種方式。為了知道終端如何發音，可將一個或多個音標與其相關聯。每個終端具有與其相關聯的唯一ID。語法可被離線壓縮到在運行時可加載來識別用戶話語的二進制上下文文件中。

言語識別系統300還接收線312上的元數據/文本條目(例如，來自智能電話或PDA的聯系人/電話簿信息、來自USB存儲器棒或音頻CD的數據等)。線312上的文本條目可包括查詢的子字符串，并且帶口音語音和ID生成邏輯單元可處理所接收的數據并且在線316上提供與各種口音相關聯的變換ID數據和語音數據。也就是說，將線312上的元數據/文本條目和線313上的與所述元數據/文本條目相關聯的ID數據輸入到帶口音語音和變換ID生成邏輯單元314，所述帶口音語音和變換ID生成邏輯單元314處理所接收的數據并且在線316上提供與各種口音相關聯的變換ID數據和語音信息。線313上的ID數據處于原始ID空間中，而線316上的變換ID數據處于變換數據空間中。

圖4是帶口音語音和變換ID生成單元314的框圖說明。將線312上的數據輸入到口音單詞生成器402，所述口音單詞生成器402將字母序列轉換成語音序列。針對那種特定語言(例如，與帶口音語音和變換ID生成單元314相關聯的語言和/或包括帶口音語音和變換ID生成單元314的裝置被自動地設定和/或由用戶選擇設定以便識別的語言)的規則由語言學家生成。帶口音單詞生成器402可提供發聲最類似于針對特定口音的單詞的新單詞(例如，基于存儲的單詞/語音與在線312上接收的元數據的比較)。對由系統支持的所有口音都這樣做，例如，帶口音語音和變換ID生成單元314可支持N(例如，正整數)個數量的發音。口音單詞生成器402使用存儲在數據庫404中的規則和數據來基于所使用的語言而生成單詞的發音?？苫跉v史數據和由用戶輸入的話語中的一個或多個而自動地標識語言，和/或可基于由用戶對語言的選擇而手動地設定和標識語言。例如，帶口音單詞生成器402可將線312上的表示例如CAKE的字母字符串轉換成諸如[K EY K]的音子字符串。來自口音單詞生成器402的輸出在線406-408上被提供為針對由帶口音語音和ID生成邏輯單元314支持的N個數量的口音中的每一個的修改的單詞。線406-408上的N個數量的修改單詞中的每一個將與其特定口音相關聯的輸出提供給字素到音素(G2P)邏輯單元410。例如，可以設想，對于印度英語而言，可存在十二(12)種不同口音，因此，可將針對這十二種口音中的每一種(或來自十二種不同口音的子集，諸如包括十二種不同口音中的[12–x]種不同口音的子集，例如最受歡迎的[12–x]種不同口音，其中x是小于十二的正整數)的修改單詞從帶口音單詞生成器402輸出。

參考圖3和圖4，線312上的文本條目由帶口音語音和變換ID生成邏輯單元314處理，所述帶口音語音和變換ID生成邏輯單元314替換適當的帶口音字符串以便在線406-408上提供N個數量的修改的文本條目/單詞。那些條目隨后用來得到音標并且被添加到上下文以供識別。例如，考慮將名稱“Ananyavrata”存儲為條目。用于所述名稱的發音最接近于當用孟加拉語發音時的“Onanyabrota”。作為一般規則，字符串“An”可用“On”替代，并且“v”可用字母“b”替代。同一名稱在泰米爾語中發音為“Ananyavratha”，意味著以“t”結尾的名稱用“th”替代。新字符串隨后可用來得到針對口音中的每一種的音標。

可在運行時為同一ID添加針對所有口音生成的語音。這意味著話音識別引擎308可同時收聽所述口音以便提高識別準確度。

基于聲學特征，G2P單元410在線413-415上提供針對N種口音中的每一種的語音數據。G2P單元410還在線412上提供與線312上的輸入信號相關聯的語音數據(例如，不帶口音的)?；A語音發聲在不同語言和區域中可不同。例如，元音在非洲英語和北美英語中發音可不同。在印度，對于這個國家的不同地區的不同口音，情況也是如此。然而，存在某些單詞在不同區域中發音的已知方式或將給予重音或將添加停頓的方式。語言的這些語言學特征的知識為創建語音發音模型提供了基礎。所述系統可對所選擇語言(例如，印度英語)中的名稱和與所述語言相關聯的多種口音執行此類處理和相關聯性。對于每個輸入字符串，語音單元412-415返回唯一的音標。帶口音語音和變換ID生成邏輯單元314既可離線使用又可在嵌入式平臺上使用以生成從G2P單元410輸出的語音。

G2P邏輯單元410基于語言音素的聲學特征而對它們進行映射。例如，G2P單元生成不包括在用來產生G2P規則的發音字典中的單詞(例如，詞匯外單詞)的最可能的音子列表。G2P單元410包括特定于配置圖3的言語識別系統300所針對的語言的音素集合。

將來自G2P單元410的語音輸出數據輸入到變換ID分配器416，所述變換ID分配器416在線417a-417d上提供與線412上的不帶口音的語音數據和線413-415上的N個數量的帶口音語音相關聯的變換ID數據。變換ID與變換ID空間相關聯。帶口音語音和變換ID生成單元在線412-415上提供語音數據并且在線417a-417d上提供變換ID。線412上的信號和線417a上的信號提供與線312上的輸入信號相關聯的輸出數據對。類似地，線413上的信號和線417b上的信號提供與針對線406上的口音1的修改單詞相關聯的輸出數據對，而線414上的信號和線417c上的信號提供與針對線407上的口音2的修改單詞相關聯的輸出數據對，等等。

變換ID分配器416生成針對每個原始單詞和帶口音單詞的唯一ID。例如，如果用于原始終端的ID被指配為數字1000并且存在所支持的15種口音，那么所述系統可通過從1至15的變換口音ID范圍提供變換ID。在一個實施方案中，所述變換可以是：

新_ID＝(舊_ID*M)+口音_ID，

其中M＝大于或等于N+1的整數，其中N是所支持的最大數量的口音。

針對各種印度口音，N的值可被指配如下：

0-不帶口音的

1–孟加拉語口音

2–古吉拉特語口音

……

等。

對于被指配為1000的舊_ID值的單詞并且M等于20，那么針對孟加拉語帶口音形式的單詞的新ID可計算為：

(1000*20)+1＝20001。

對于被指配為1000的舊_ID值的同一原始單詞，針對古吉拉特語帶口音形式的單詞的新ID可計算為：

(1000*20)+2＝20002。

當話音識別引擎308將變換所識別的ID傳遞給圖3的口音檢測單元318時，可通過以下變換提取原始終端ID和口音ID：

口音_ID＝(所識別的_變換_ID％M)，

其中％表示模(余數)運算符，并且

舊_ID＝所識別的_變換_ID-口音_ID)/M。

這種ID分配技術確保變換ID與由話音識別系統使用的原始ID不存在爭用。

參考圖3和圖4，話音識別引擎308還包括上下文單元320，所述上下文單元320接收線412-415(圖4)上的指示具有對各種口音的校正的語音的數據，以及線417a-417d(圖4)上的與這些語音信號相關聯的ID數據。當言語識別應用程序激活時，特定的上下文被加載到話音識別引擎308中。一旦所述系統接收線304上的用戶輸入言語，言語特征提取器單元302就將數字化發聲數據轉換成特征。話音識別引擎308隨后返回對應于從帶口音語音和ID生成單元314輸入到話音識別單元308的帶口音輸入數據對中的每一個的終端的ID數據。

用于上下文單元320的語法文件可通過微調由G2P單元410(圖4)返回的語音，或例如通過使用語音生成器工具而離線編輯。例如，單詞“read”可基于上下文而發音為“reed”或“red”。因此，為了識別所述兩個發音，可將用于所述兩個發音的對應音標添加到上下文單元320(圖3)的語法文件。也可在運行時添加具有適當語音發音的終端。

使用離線處理，可以單詞在其他語言中應該被說出的方式單獨通過文本操縱來對所述單詞進行建模。沒有必要手工調諧音標，這否則可能是一項繁重的任務。例如，考慮固定命令“找到最近的銀行”。在某些口音中，單詞“bank”可發音為“byunk”(分解為bya-unk)。在為這種語言做離線語音數據準備時，出于識別的目的，可用“bya unk”來查找和替代單詞bank，并且添加對應的語音作為同義詞。

一種在線(例如，在嵌入式裝置上)處理單詞的方法對由用戶加載的動態數據可為有用的。此類數據的實例是電話簿條目，所述電話簿條目可例如通過連接電話(例如，無線地(諸如通過藍牙或其他無線連接)和/或通過有線連接)獲得。為了能夠通過言語識別而識別名稱用于撥號，可在帶口音語音和ID生成邏輯314(圖4)上提供名稱列表，所述帶口音語音和ID生成邏輯314返回針對名稱的音標。人物名稱通常具有許多區域口音，這對識別所述名稱來說可能提出了挑戰。為了提高識別準確度，可在運行時修改所述名稱以便以與帶口音發音類似的方式表示所述名稱。這些修改可在運行時完成并且被寫入臨時文件，所述臨時文件隨后可用來從G2P單元410(圖4)取得音標。所述修改或字符串替換可通過在數據庫404(圖4)中查找和/或基于口音中的每一種的配置文件(例如，基于XML、基于JSON或基于YAML的格式)來完成。所述修改或字符串替換可實現可縮放的準確度，因為數據庫在一段時間后可擴大和改善。

為了增加來自話音識別引擎308的所識別的ID的準確度，圖3的系統300還可包括接收指示所識別的ID的數據的口音檢測單元318?？谝魴z測單元318向保持跟蹤所檢測到的口音并且提供指示先前檢測到的口音的數據的加權結果單元322提供數據。一旦已經檢測到足夠的口音，就獲得自信，加權結果單元322可使用線324上的指示所檢測到的口音的這種歷史信息來確定可能的口音。上述反饋布置可增加言語識別系統300相對于不利用此類反饋的其他言語識別系統的口音檢測準確度。

可將(例如，來自加權結果單元322的具有提高的準確度的)識別結果提供給一個或多個言語控制單元或裝置326。例如，言語控制單元或裝置326可包括顯示與所識別的言語結果匹配的文本的顯示單元，和/或將所識別的言語結果應用到邏輯處理(例如，以調整用戶接口、執行搜索、確定發送到另一個裝置的用于控制那個裝置的操作的控制命令，和/或任何其他合適處理)的處理器。另外或可替代地，言語控制單元或裝置326可包括基于所識別的言語結果改變操作的裝置(例如，車輛系統、移動計算裝置、服務器等)和/或向另一個遠程單元中繼傳遞或傳輸所識別的言語結果以供進一步處理或控制的遠程服務或網絡接口。通常，所述一個或多個言語控制單元或裝置326可基于來自加權結果單元322和/或口音檢測單元318的所識別的言語結果來執行動作。所述動作可包括調整顯示器、調整車輛或車輛系統(例如，音頻系統、氣候控制系統等)的操作、向遠程裝置發送所識別的言語結果、生成對應于所識別的言語結果的文本和/或任何其他合適的動作。言語控制單元或裝置326可包括任何合適的硬件元件和/或包括存儲裝置和用于執行存儲在存儲裝置中的指令的邏輯裝置的硬件元件。

圖5是例如信息娛樂系統的包括圖3的言語識別系統的處理系統500的框圖說明。圖3所示的言語識別系統300可在一個或多個處理單元504(圖5)中實現為可執行程序指令。處理系統500可從包括例如麥克風、GPS接收器、無線電接收器(例如，AM/FM/衛星/WIFI、藍牙等)的輸入裝置502接收輸入信號。處理系統500還可包括存儲裝置506(例如，包含音頻和/或視頻內容的硬盤驅動器)，并且向多個輸出裝置508(例如像，顯示器、揚聲器、藍牙收發器和有線連接)提供輸出命令和數據。

圖6是用于執行言語識別的方法600的流程圖。例如，方法600可由言語識別系統(諸如圖5的言語處理系統500和/或圖3和圖4的言語識別系統300)執行。在602處，所述方法包括在包括帶口音子字符串的數據庫的帶口音語音和變換ID生成單元(例如，圖3的單元314)處接收元數據和/或針對所述元數據的ID數據。如在604處所指示，元數據可包括對應于存儲在與用戶相關聯的裝置上的文本的單詞。例如，元數據可包括存儲在以下裝置上的文本條目：言語識別系統的存儲裝置、向言語識別系統提供輸入的用戶的移動裝置、托管與向言語識別系統提供輸入的用戶相關聯的用戶簡檔的外部服務(例如，社交網絡服務)和/或任何其他合適的存儲裝置。

在606處，所述方法包括通過帶口音語音和變換ID生成單元生成包括在元數據中的單詞的口音校正的語音數據。如在608處所指示，所述口音校正的語音數據可基于存儲在數據庫中的帶口音子字符串而表示包括在元數據中的單詞的不同發音。帶口音語音和變換ID生成單元可進一步生成所述口音校正的語音數據的變換ID。例如，所述口音校正的語音數據可包括帶口音單詞，每個帶口音單詞對應于包括在元數據中的相關聯的原始單詞，所述變換ID中的每一個對應于不同口音單詞并且基于那個帶口音單詞的口音和與那個帶口音單詞相關聯的原始單詞的ID數據而生成。

在610處，所述方法包括在言語提取單元處接收由用戶輸入的話語并且基于所述輸入生成所提取的言語數據。在612處，所述方法包括在話音識別引擎(例如，圖3的話音識別引擎308)處接收。在614處，所述方法包括在話音識別引擎處接收口音校正的語音數據。

在616處，所述方法包括在話音識別引擎處確定所提取的言語數據中標識所識別的話語的一個或多個終端ID。在618處，所述方法包括在話音識別引擎處生成標識在所識別的話語中檢測到的口音的口音數據。在620處，所述方法包括存儲所生成的口音數據并且將所生成的口音數據與歷史數據(例如，先前生成的口音數據和/或所識別的言語數據)進行比較。所生成的口音數據和歷史數據可在加權結果單元(例如，圖3的單元322，所述歷史數據可包括在生成那些所識別的言語結果時在加權結果單元處接收和存儲的所識別的言語結果)處接收。加權結果單元可將當前數據和先前的數據(例如，當前確定的口音數據和先前確定的歷史數據)進行比較來確定口音數據是否與先前識別的言語結果的最近確定的口音相匹配。在622處，所述方法包括基于終端ID、口音數據和/或歷史數據來生成所識別的言語數據。例如，將所識別的言語數據和所述一個或多個終端ID與元數據的單詞和元數據的單詞的ID數據匹配。在624處，所述方法包括將所識別的言語數據輸出到言語控制裝置(例如，圖3的言語控制裝置326)。

本文公開的系統和方法解決了通過單個聲學模型支持(例如，印度英語的)多種口音的問題。通過修改用來得到用于G2P單元的語音的單詞來離線或在線生成針對特定口音的語音。

以上系統和方法還提供一種示例性言語識別系統，所述示例性言語識別系統包括：帶口音語音和變換ID生成單元，所述音化語音和變換ID生成單元包括帶口音子字符串的數據庫，并且所述音化語音和變換ID生成單元接收元數據和與所述元數據相關聯并且處于第一ID數據空間中的ID數據，并且提供各自唯一地與同某種語言相關聯的多種不同口音中的相關聯口音相關聯的多個修改的單詞，并且處理所述多個修改的單詞，并提供所述多個修改的單詞的多個口音校正的語音數據，其中所述口音校正的語音數據中的每一個被處理以提供處于第二ID數據空間中的各自唯一地與所述多個口音校正的語音數據中的相關聯數據相關聯的多個變換ID；言語特征提取器單元，所述言語特征提取器單元接收并處理用戶輸入言語并且提供與所述用戶輸入言語相關聯的所提取的言語數據；話音識別邏輯單元，所述話音識別邏輯單元接收所提取的言語數據、所述多個變換ID和所述多個口音校正的語音數據，并且提供對應于終端的終端標識符以及口音數據，對于所述口音數據，音標中的一個與同用戶輸入言語相關聯的所提取的言語數據最佳地匹配；口音檢測和逆向ID變換單元，所述口音檢測和逆向ID變換單元接收所述終端標識符并且提供處于第一ID數據空間中的確認ID；以及口音結果加權邏輯單元，所述口音結果加權邏輯單元接收所檢測到的口音數據并且與所檢測到的口音數據的過去值進行比較以提供所識別的言語數據。在第一實例中，所述言語識別系統可任選地包括以下言語識別系統：其中帶口音語音和變換ID生成單元包括提供所述多個口音校正的語音數據的字素到語音單元。所述言語識別系統的第二實例任選地包括所述第一實例并且還包括以下言語識別系統：其中帶口音語音和變換ID生成單元包括變換ID分配器，所述變換ID分配器接收口音校正的語音數據和ID數據并且提供處于第二ID數據空間中的多個變換ID。所述言語識別系統的第三實例任選地包括第一實例和第二實例中的一個或多個，并且還包括以下言語識別系統：其中話音識別邏輯單元包括上下文單元，所述上下文單元包括與所述某種語言相關聯的語法文件。

以上系統和方法還提供一種訪問帶口音子字符串的數據庫的示例性言語識別方法，所述方法包括：接收元數據和與所述元數據相關聯并且處于原始ID空間中的ID數據，并且提供各自唯一地與同某種語言相關聯的多種不同口音中的相關聯口音相關聯的多個修改的單詞，并且處理所述多個修改的單詞以提供所述多個修改的單詞的多個口音校正的語音數據，其中所述口音校正的語音數據中的每一個被處理以提供處于變換ID空間中的各自唯一地與所述多個口音校正的語音數據中的相關聯數據相關聯的多個變換ID；在言語特征提取器單元中接收用戶輸入言語并且處理所接收的輸入言語以提供與所述用戶輸入言語相關聯的所提取的言語數據；處理所提取的言語數據、所述多個變換ID和所述多個口音校正的語音數據，并且提供對應于終端的終端標識符以及口音數據，對于所述口音數據，音標中的一個與同用戶輸入言語相關聯的所提取的言語數據最佳地匹配；處理終端標識符以提供處于原始ID數據空間中的確認ID，并且將所檢測到的口音數據與所檢測到的口音數據的過去值進行比較以提供所識別的言語數據。所述言語識別方法的第一實例包括以下方法：其中提供所述多個口音校正的語音數據的步驟包括對所述多個修改的單詞進行字素到語音處理以提供所述多個口音校正的語音數據。

以上系統和方法還提供一種在訪問帶口音子字符串的數據庫的處理器中執行的言語識別方法，所述方法包括：接收元數據和處于原始ID空間中的與所述元數據相關聯的ID數據；提供各自唯一地與所述元數據和與某種語言相關聯的多種不同口音中的相關聯口音相關聯的多個修改的單詞，并且處理所述多個修改的單詞以提供所述多個修改的單詞的多個口音校正的語音數據；處理所述口音校正的語音數據以提供處于變換ID空間中的各自唯一地與所述多個口音校正的語音數據中的相關聯數據相關聯的多個變換ID；接收用戶輸入言語數據并且處理所接收的輸入言語數據以提供與用戶輸入言語數據相關聯的所提取的言語數據；處理所提取的言語數據、所述多個變換ID和所述多個口音校正的語音數據，并且提供對應于終端的終端標識符并提供音標的與同用戶輸入言語數據相關聯的所提取的言語數據最佳地匹配的口音數據；處理終端標識符以提供處于原始ID數據空間中的變換ID；以及將所檢測到的口音數據與所檢測到的口音數據的過去值進行比較以提供所識別的言語數據。

以上系統和方法還提供一種言語識別系統，所述言語識別系統包括言語控制裝置、處理器和存儲指令的存儲裝置，所述指令可由所述處理器執行以便：在包括帶口音子字符串的數據庫的帶口音語音和變換ID生成單元處接收元數據；通過所述帶口音語音和變換ID生成單元生成包括在元數據中的單詞的口音校正的語音數據，所述口音校正的語音數據基于存儲在數據庫中的帶口音子字符串而表示包括在元數據中的單詞的不同發音；在話音識別引擎處接收源自由用戶輸入到言語識別系統的話語的所提取的言語數據；在話音識別引擎處接收口音校正的語音數據；在話音識別引擎處確定所提取的言語數據中標識所識別的話語的一個或多個終端ID；在話音識別引擎處生成標識在所識別的話語中檢測到的口音的口音數據；基于所述一個或多個終端ID和所述口音數據來生成所識別的言語數據；以及將所識別的言語數據輸出到言語控制裝置。所述言語識別系統的第一實例包括以下言語識別系統：其中所述指令可進一步執行來在加權結果單元處接收口音數據和包括先前生成的口音數據的歷史數據，并且將所述口音數據與所述歷史數據進行比較，所識別的言語數據進一步基于所述口音數據與所述歷史數據的比較。所述言語識別系統的第二實例任選地包括第一實例并且還包括以下言語識別系統：其中元數據對應于存儲在言語識別系統的存儲裝置、向言語識別系統提供輸入的用戶的移動裝置以及托管與向言語識別系統提供輸入的用戶相關聯的用戶簡檔的外部服務中的一個或多個上的文本條目。所述言語識別系統的第三實例任選地包括第一實例和第二實例中的任意一個或多個，并且還包括以下言語識別系統：其中所述指令可進一步執行來在帶口音語音和變換ID生成單元處接收對應于包括在元數據中的單詞的ID數據，并且在帶口音語音和變換ID生成單元處生成口音校正的語音數據的變換ID。所述言語識別系統的第四實例任選地包括第一實例至第三實例中的任意一個或多個，并且還包括以下言語識別系統：其中口音校正的語音數據包括帶口音單詞，每個帶口音單詞對應于包括在元數據中的相關聯的原始單詞，所述變換ID中的每一個對應于不同口音單詞并且基于那個帶口音單詞的口音和與那個帶口音單詞相關聯的原始單詞的ID數據而生成。所述言語識別系統的第五實例任選地包括述第一實例至第四實例中的任意一個或多個，并且還包括以下言語識別系統：其中所識別的言語數據和所述一個或多個終端ID與元數據的單詞和所述元數據的所述單詞的ID數據匹配。所述言語識別系統的第六實例任選地包括第一實例至第五實例中的任意一個或多個，并且還包括以下言語識別系統：其中話音識別邏輯單元包括上下文單元，所述上下文單元包括與針對用戶標識的語言相關聯的語法文件。所述言語識別系統的第七實例任選地包括第一實例至第六實例中的任意一個或多個，并且還包括以下言語識別系統：其中語言基于歷史數據和由用戶輸入的話語中的一個或多個來自動地標識。所述言語識別系統的第八實例任選地包括第一實例至第七實例中的任意一個或多個，并且還包括以下言語識別系統：其中語言基于由用戶對語言的選擇來標識。所述言語識別系統的第九實例任選地包括第一實例至第八實例中的任意一個或多個，并且還包括以下言語識別系統：其中言語識別系統包括車輛的車載計算系統，并且其中言語控制裝置包括車載計算系統的顯示器和車輛中的車輛系統中的一個或多個。

以上系統和方法還提供一種由言語識別系統執行的言語識別方法，所述言語識別系統包括言語控制裝置、處理器和存儲可由所述處理器執行的指令的存儲裝置，所述方法包括：在包括帶口音子字符串的數據庫的帶口音語音和變換ID生成單元處接收元數據；通過帶口音語音和變換ID生成單元生成包括在元數據中的單詞的口音校正的語音數據，所述口音校正的語音數據基于存儲在數據庫中的帶口音子字符串而表示包括在元數據中的單詞的不同發音；在話音識別引擎處接收源自由用戶輸入到言語識別系統的話語的所提取的言語數據；在話音識別引擎處接收口音校正的語音數據；在話音識別引擎處確定所提取的言語數據中標識所識別的話語的一個或多個終端ID；在話音識別引擎處生成標識在所識別的話語中檢測到的口音的口音數據；基于所述一個或多個終端ID和所述口音數據來生成所識別的言語數據；以及將所識別的言語數據輸出到言語控制裝置。所述方法的第一實例還包括：在加權結果單元處接收口音數據和包括先前生成的口音數據的歷史數據，并且將所述口音數據與所述歷史數據進行比較，所識別的言語數據進一步基于所述口音數據與所述歷史數據的比較。所述方法的第二實例任選地包括第一實例并且還包括以下方法：其中將口音數據與歷史數據進行比較包括確定由口音數據標識的口音是否與在最近識別的言語數據中標識的口音相匹配。所述方法的第三實例任選地包括第一實例和第二實例中的任意一個或多個，并且還包括以下方法：其中元數據對應于存儲在言語識別系統的存儲裝置、向言語識別系統提供輸入的用戶的移動裝置以及托管與向言語識別系統提供輸入的用戶相關聯的用戶簡檔的外部服務中的一個或多個上的文本條目。所述方法的第四實例任選地包括第一實例至第三實例中的任意一個或多個，并且還包括：在帶口音語音和變換ID生成單元處接收對應于包括在元數據中的單詞的ID數據，并且在帶口音語音和變換ID生成單元處生成口音校正的語音數據的變換ID。所述方法的第五實例任選地包括第一實例至第四實例中的任意一個或多個，并且還包括以下方法：其中口音校正的語音數據包括帶口音單詞，每個帶口音單詞對應于包括在元數據中的相關聯的原始單詞，所述變換ID中的每一個對應于不同口音單詞并且基于那個帶口音單詞的口音和與那個帶口音單詞相關聯的原始單詞的ID數據而生成。所述方法的第六實例任選地包括第一實例至第五實例中的任意一個或多個，并且還包括以下方法：其中所識別的言語數據和所述一個或多個終端ID與元數據的單詞和所述元數據的所述單詞的ID數據匹配。所述方法的第七實例任選地包括第一實例至第六實例中的任意一個或多個，并且還包括以下方法：其中話音識別邏輯單元包括上下文單元，所述上下文單元包括與針對用戶標識的語言相關聯的語法文件。所述方法的第八實例任選地包括第一實例至第七實例中的任意一個或多個，并且還包括以下方法：其中語言基于歷史數據和由用戶輸入的話語中的一個或多個來自動地標識。所述方法的第九實例任選地包括第一實例至第八實例中的任意一個或多個，并且還包括以下方法：其中語言基于由用戶對語言的選擇來標識。所述方法的第十實例任選地包括第一實例至第九實例中的任意一個或多個，并且還包括以下方法：其中言語識別系統包括車輛的車載計算系統，并且其中言語控制裝置包括車載計算系統的顯示器和車輛中的車輛系統中的一個或多個。

已經出于說明和描述的目的呈現了實施方案的描述。對實施方案的合適修改和變更可根據以上描述來執行或者可從實踐所述方法來獲取。例如，除非另外指出，否則所描述方法中的一種或多種可由合適的裝置和/或裝置組合(諸如參考圖1和圖3所描述的車載計算系統109和/或言語識別系統300)來執行。所述方法可通過利用一個或多個邏輯裝置(例如，處理器)與一個或多個另外硬件元件(諸如存儲裝置、存儲器、硬件網絡接口/天線、開關、致動器、中標電路等)的組合執行存儲指令來執行。除了本申請中描述的次序之外，還可按各種次序、并行地和/或同時地執行所描述的方法和相關聯動作。所描述的系統本質上是示例性的，并且可包括另外的元件和/或省略元件。本公開的主題包括所公開的各種系統和配置以及其他特征、功能和/或性質的全部新穎且非顯而易見的組合和子組合。

如本申請中所使用的，以單數形式列舉并且通過字詞“一個”或“一種”引出的元件或步驟應理解為并不排除多個所述元件或步驟，除非明確指出這種排除情況。此外，對本公開的“一個實施方案”或“一個實例”的參考并非意圖解釋為排除也并入有所列舉特征的另外實施方案的存在。術語“第一”、“第二”和“第三”等僅用作標簽，而并非意圖對其對象強加數值要求或具體位置順序。以下權利要求書特別指出來自以上公開的主題，所述主題被認為是新穎且非顯而易見的。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：R.帕夏因
技術所有人：哈曼國際工業有限公司
我是此專利的發明人

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

土地利用回歸模型相關技術

光能利用率模型相關技術

高斯混合模型前景檢測相關技術

日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

利用單一聲學模型和自動口音檢測實現的基于文本規則的多口音言語識別的制作方法