一種圖像中文本區域的檢測方法

文檔序號：10613269閱讀：655來源：國知局

一種圖像中文本區域的檢測方法
【專利摘要】本發明公開一種圖像中文本區域的檢測方法，包括：將圖像劃分為多個子圖像，所述多個子圖像之間無重疊區域且所述多個子圖像構成所述圖像；基于預設的字符識別規則，確定各子圖像的文本置信度；基于各子圖像的文本置信度及預設的文本置信度門限，確定目標連通域，所述目標連通域用于確定所述圖像中包含的各文本區域；基于預設的連通域確定規則，確定所述圖像包含的各連通域；基于所述圖像包含的各連通域以及所述目標連通域，確定所述圖像中包含的各文本區域。相比現有技術，本發明提出的圖像中文本區域的檢測方法，通過劃分圖像為多個子圖像，并確定各子圖像的文本置信度來定位出背景相對復雜的圖像中的文本區域，適用于具有復雜背景的圖像。
【專利說明】
一種圖像中文本區域的檢測方法
技術領域
[0001] 本發明涉及圖像處理技術領域，具體涉及一種圖像中文本區域的檢測方法。
【背景技術】
[0002] 目前常用的圖像中文本區域的檢測方法有基于連通域的方法、基于邊緣特征的方法和基于紋理特征的方法。各方法的具體說明如下：
[0003] 基于連通域的方法，假設同一區域的字符具有相似的顏色和亮度，并且與背景區域的顏色存在較大差異的基礎上，采用自底向上的方法從圖像中提取連通區域，然后利用幾何約束構造啟發式規則進行連通域分析，將子區域合并得到最終的文本區域。
[0004] 基于邊緣特征的方法，是利用文本區域具有豐富的邊緣信息這一特點進行文本區域檢測，首先采用某種邊緣檢測算子從原圖像中檢測出邊緣，然后通過形態學方法將邊緣連接成本塊，過濾不符合規則的非文本區域，得到最終的文本區域。
[0005] 基于紋理的方法，把文本區域看作是一種可與背景區分開的特殊的紋理，通常采用Gabor變換、小波變換和傅里葉變換等方法檢測圖像中文本區域的紋理特征，并利用SVM 從候選的文本區域中驗證真實的文本區域，對于背景復雜的圖像取得了較好的效果。
[0006] 但是，對于具有復雜背景的圖像，因為復雜背景對圖像中文本區域產生的干擾大，上述現有的圖像中文本區域的檢測方法均不適用。

【發明內容】

[0007] 鑒于上述問題，本發明提出了克服上述問題或者至少部分地解決上述問題的一種圖像中文本區域的檢測方法。
[0008] 為此目的，本發明提出一種圖像中文本區域的檢測方法，包括：
[0009]將圖像劃分為多個子圖像，所述多個子圖像之間無重疊區域且所述多個子圖像構成所述圖像；
[0010] 基于預設的字符識別規則，確定各子圖像的文本置信度；
[0011] 基于各子圖像的文本置信度及預設的文本置信度門限，確定目標連通域，所述目標連通域用于確定所述圖像中包含的各文本區域；
[0012] 基于預設的連通域確定規則，確定所述圖像包含的各連通域；
[0013] 基于所述圖像包含的各連通域以及所述目標連通域，確定所述圖像中包含的各文本區域。
[0014] 可選的，所述將圖像劃分為多個子圖像，包括：
[0015] 將圖像劃分為尺寸一致的多個子圖像。
[0016] 可選的，所述基于預設的字符識別規則，確定各子圖像的文本置信度，包括：
[0017] 基于預設的字符識別規則，識別各子圖像中的字符，并確定各子圖像中各字符的置信度；
[0018] 基于所述各子圖像中各字符的置信度，確定各子圖像的文本置信度。
[0019] 可選的，所述基于所述各子圖像中各字符的置信度，確定各子圖像的文本置信度，包括：
[0020] 基于所述各子圖像中各字符的置信度，通過文本置信度計算式，確定各子圖像的文本置信度;所述文本置信度計算式為：
[0021]
[0022] 其中，C為文本置信度，η為字符個數，ci為第i個字符的置信度。
[0023] 可選的，所述基于預設的字符識別規則，識別各子圖像中的字符，并確定各子圖像中各字符的置信度，包括：
[0024] 基于光學字符識別0CR，識別各子圖像中的字符，并確定各子圖像中各字符的置信度。
[0025] 可選的，所述基于各子圖像的文本置信度及預設的文本置信度門限，確定目標連通域，包括：
[0026] 基于預設的連通域提取規則，提取各目標子圖像的連通域;所述目標子圖像為文本置信度大于預設的文本置信度門限的子圖像；
[0027] 將所述各目標子圖像的連通域進行連通域合并，得到目標連通域。
[0028] 可選的，基于所述圖像包含的各連通域以及所述目標連通域，確定所述圖像中包含的各文本區域，包括：
[0029] 將所述圖像包含的各連通域與所述目標連通域的重疊區域確定為所述圖像中包含的各文本區域。
[0030] 相比于現有技術，本發明提出的圖像中文本區域的檢測方法，通過劃分圖像為多個子圖像，并確定各子圖像的文本置信度來定位出背景相對復雜的圖像中的文本區域，從而得到圖像中相對重要的信息，便于后續的處理和應用，適用于具有復雜背景的圖像。
【附圖說明】
[0031] 圖1為本發明實施例提供的一種圖像中文本區域的檢測方法流程圖。
【具體實施方式】
[0032]為使本發明實施例的目的、技術方案和優點更加清楚，下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚地描述，顯然，所描述的實施例是本發明一部分實施例，而不是全部的實施例。
[0033] 如圖1所示，本實施例公開一種圖像中文本區域的檢測方法，可包括以下步驟101 ~105:
[0034] 101、將圖像劃分為多個子圖像，所述多個子圖像之間無重疊區域且所述多個子圖像構成所述圖像。
[0035]本實施例中，步驟101中，可將圖像劃分為尺寸一致的多個子圖像。例如每個子圖像均為9X9。
[0036] 102、基于預設的字符識別規則，確定各子圖像的文本置信度。
[0037] 本實施例中，可基于應用場景來選擇字符識別規則所使用的字符識別集，有利于提高識別效率。例如，對于金融領域的收費單圖像，可選擇字符識別規則所使用的字符識別集為數字集合;對于醫學領域的化驗單圖像，可選擇字符識別規則所使用的字符識別集為包含"血"、"胞"、"醫"等化驗常用字符所組成的集合。
[0038] 由于字符識別規則所使用的字符識別集基于應用場景來選擇，因此，可以針對圖像所含不同的字符而對圖像進行分類。
[0039] 本實施例中，步驟102具體包括圖1中未示出的步驟1021和1022。
[0040] 1021、基于預設的字符識別規則，識別各子圖像中的字符，并確定各子圖像中各字符的置信度。
[0041] 1022、基于所述各子圖像中各字符的置信度，確定各子圖像的文本置信度。
[0042]本實施例中，步驟1021中預設的字符識別規則為光學字符識別（Optical Character Recognition，0CR)〇
[0043] 本實施例中，步驟1021中可通過文本置信度計算式，確定各子圖像的文本置信度；所述文本置信度計算式為：
[0044]
[0045]兵干，U73 乂不直1目皮，η為字符個數，Ci為第i個字符的置信度。
[0046] 本實施例中，步驟1021中，當基于OCR識別各子圖像中的字符后，OCR會提供各子圖像中各字符的置信度。
[0047] 103、基于各子圖像的文本置信度及預設的文本置信度門限，確定目標連通域，所述目標連通域用于確定所述圖像中包含的各文本區域。
[0048] 本實施例中，步驟103具體包括圖1中未示出的步驟1031和1032。
[0049] 1031、基于預設的連通域提取規則，提取各目標子圖像的連通域;所述目標子圖像為文本置信度大于預設的文本置信度門限的子圖像。
[0050] 1032、將所述各目標子圖像的連通域進行連通域合并，得到目標連通域。
[0051] 104、基于預設的連通域確定規則，確定所述圖像包含的各連通域。
[0052] 105、基于所述圖像包含的各連通域以及所述目標連通域，確定所述圖像中包含的各文本區域。
[0053]本實施例中，步驟105具體為:將所述圖像包含的各連通域與所述目標連通域的重疊區域確定為所述圖像中包含的各文本區域。
[0054] 可見，本實施例公開的圖像中文本區域的檢測方法，通過劃分圖像為多個子圖像，并確定各子圖像的文本置信度來定位出背景相對復雜的圖像中的文本區域，從而得到圖像中相對重要的信息，便于后續的處理和應用，適用于具有復雜背景的圖像。
[0055] 本領域的技術人員能夠理解，盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征，但是不同實施例的特征的組合意味著處于本發明的范圍之內并且形成不同的實施例。
[0056] 雖然結合附圖描述了本發明的實施方式，但是本領域技術人員可以在不脫離本發明的精神和范圍的情況下做出各種修改和變型，這樣的修改和變型均落入由所附權利要求所限定的范圍之內。
【主權項】
1. 一種圖像中文本區域的檢測方法，其特征在于，包括：將圖像劃分為多個子圖像，所述多個子圖像之間無重疊區域且所述多個子圖像構成所述圖像；基于預設的字符識別規則，確定各子圖像的文本置信度；基于各子圖像的文本置信度及預設的文本置信度口限，確定目標連通域，所述目標連通域用于確定所述圖像中包含的各文本區域；基于預設的連通域確定規則，確定所述圖像包含的各連通域；基于所述圖像包含的各連通域W及所述目標連通域，確定所述圖像中包含的各文本區域。2. 根據權利要求1所述的方法，其特征在于，所述將圖像劃分為多個子圖像，包括：將圖像劃分為尺寸一致的多個子圖像。3. 根據權利要求1所述的方法，其特征在于，所述基于預設的字符識別規則，確定各子圖像的文本置信度，包括：基于預設的字符識別規則，識別各子圖像中的字符，并確定各子圖像中各字符的置信度；基于所述各子圖像中各字符的置信度，確定各子圖像的文本置信度。4. 根據權利要求3所述的方法，其特征在于，所述基于所述各子圖像中各字符的置信度，確定各子圖像的文本置信度，包括：基于所述各子圖像中各字符的置信度，通過文本置信度計算式，確定各子圖像的文本置信度;所述文本置信度計算式為：其中，C為文本置信度，η為字符個數，Cl為第i個字符的置信度。5. 根據權利要求3所述的方法，其特征在于，所述基于預設的字符識別規則，識別各子圖像中的字符，并確定各子圖像中各字符的置信度，包括：基于光學字符識別OCR,識別各子圖像中的字符，并確定各子圖像中各字符的置信度。6. 根據權利要求1所述的方法，其特征在于，所述基于各子圖像的文本置信度及預設的文本置信度口限，確定目標連通域，包括：基于預設的連通域提取規則，提取各目標子圖像的連通域;所述目標子圖像為文本置信度大于預設的文本置信度口限的子圖像；將所述各目標子圖像的連通域進行連通域合并，得到目標連通域。7. 根據權利要求1所述的方法，其特征在于，所述基于所述圖像包含的各連通域W及所述目標連通域，確定所述圖像中包含的各文本區域，包括：將所述圖像包含的各連通域與所述目標連通域的重疊區域確定為所述圖像中包含的各文本區域。
【文檔編號】G06K9/00GK105975955SQ201610366284
【公開日】2016年9月28日
【申請日】2016年5月27日
【發明人】劉立, 劉艷洋, 吳詩展
【申請人】北京好運到信息科技有限公司

完整全部詳細技術資料下載