基于多層次局部區域融合的物體分割方法及裝置、計算設備的制造方法
【專利摘要】本發明公開了一種基于多層次局部區域融合的物體分割方法及裝置、計算設備,屬于計算機視覺技術領域,其中方法包括:對于一待處理的圖像,按照多個不同的預設尺度分別選取多個局部候選區域;對每個局部候選區域進行圖像分割處理,預測得到局部候選區域的二進制分割掩膜;對每個局部候選區域進行圖像分類處理,預測得到局部候選區域所屬的物體類別;根據各局部候選區域所屬的物體類別和各局部候選區域的二進制分割掩膜,對所有局部候選區域進行融合處理,得到物體分割圖像。本發明能夠在檢測物體的同時,對物體個體進行分割,并確定其精確邊界。本發明在得到局部候選區域的分割結果后,使用有效的局部區域融合方式,能夠得到更好的優化結果。
【專利說明】
基于多層次局部區域融合的物體分割方法及裝置、計算設備
技術領域
[0001] 本發明涉及計算機視覺技術領域,尤其涉及一種基于多層次局部區域融合的物體 分割方法及裝置、計算設備。
【背景技術】
[0002] 圖像分割是圖像處理領域的一個基礎問題,在物體識別、機器人導航、場景理解等 領域具有廣泛的應用。其中,物體分割是比物體檢測和場景分割更本質的問題。物體檢測期 望得到每一個物體個體的大致位置,通常物體檢測通過矩形檢測框標示出檢測出的物體, 但不能確定物體的邊界;場景分割為每類場景預測類別及精確邊界,能夠對不同類別物體 進行預測并確定邊界,但不能區分同類別的不同個體。
[0003] 現有技術中物體分割的做法主要是基于物體檢測得到檢測框的候選,再通過分割 方法得到邊界,這種做法的分割效果較差,精確率不高。
【發明內容】
[0004] 本發明實施例提供一種基于多層次局部區域融合的物體分割方案。
[0005] 根據本發明實施例的一個方面,提供了一種基于多層次局部區域融合的物體分割 方法,包括:
[0006] 對于一待處理的圖像,按照多個不同的預設尺度分別選取多個局部候選區域;
[0007] 對每個局部候選區域進行圖像分割處理,預測得到所述局部候選區域的二進制分 割掩膜;
[0008] 對每個局部候選區域進行圖像分類處理,預測得到所述局部候選區域所屬的物體 類別;
[0009] 根據各所述局部候選區域所屬的物體類別和各所述局部候選區域的二進制分割 掩膜,對所有局部候選區域進行融合處理,得到物體分割圖像。
[0010] 進一步的,在所述對于一待處理的圖像,按照多個不同的預設尺度分別選取多個 局部候選區域之前,所述方法進一步包括:對所述待處理的圖像進行卷積神經網絡的卷積 層和/或池化層處理,得到卷積神經網絡中間結果;
[0011] 所述按照多個不同的預設尺度分別選取多個局部候選區域進一步包括:利用所述 卷積神經網絡中間結果,選取局部候選區域產生層,通過滑動框在局部候選區域產生層對 應的特征圖上按照多個不同的預設尺度分別選取多個局部候選區域。
[0012] 進一步的,在選取多個局部候選區域之后,所述方法還包括:
[0013]通過進行去卷積層和/或池化層處理,將不同尺寸的局部候選區域統一為固定尺 寸。
[0014] 進一步的,所述對每個局部候選區域進行圖像分類處理,預測得到所述局部候選 區域所屬的物體類別進一步包括:
[0015] 若局部候選區域的中心位于已標定物體內部,所述已標定物體在局部候選區域中 的面積占已標定物體面積的比例大于第一閾值,且所述已標定物體在局部候選區域中的面 積占局部候選區域面積的比例大于第二閾值,則判定所述局部候選區域所屬的物體類別為 所述已標定物體的類別。
[0016] 進一步的,在所述對所有局部候選區域進行融合處理之前,所述方法包括:
[0017] 建立訓練損失函數,對圖像分類和圖像分割的損失進行訓練。
[0018] 進一步的,所述對所有局部候選區域進行融合處理進一步包括:
[0019] 根據局部候選區域的二進制分割掩膜的重疊面積以及局部候選區域所屬的物體 類別,對所有局部候選區域進行融合處理。
[0020] 進一步的,所述對所有局部候選區域進行融合處理進一步包括:
[0021] 確定兩個相鄰的局部候選區域的二進制分割掩膜的重疊面積;
[0022] 響應于所述重疊面積大于預設閾值、所述兩個相鄰的局部候選區域屬于同一物體 類別、且所述兩個相鄰的局部候選區域都未被賦值為一物體,生成新的物體將這兩個相鄰 的局部候選區域賦值為該物體。
[0023] 進一步的,所述對所有局部候選區域進行融合處理進一步包括:
[0024] 確定兩個相鄰的局部候選區域的二進制分割掩膜的重疊面積;
[0025] 響應于所述重疊面積大于預設閾值、所述兩個相鄰的局部候選區域屬于同一物體 類別、且所述兩個相鄰的局部候選區域中的一個被賦值為一物體,合并這兩個相鄰的局部 候選區域,將另一個局部候選區域賦值為該物體。
[0026] 進一步的,所述對所有局部候選區域進行融合處理進一步包括:
[0027] 確定兩個相鄰的局部候選區域的二進制分割掩膜的重疊面積;
[0028] 響應于所述重疊面積大于預設閾值、所述兩個相鄰的局部候選區域屬于同一物體 類別、且所述兩個相鄰的局部候選區域被賦值為兩個物體,合并這兩個物體。
[0029] 根據本發明實施例的另一個方面,提供了一種基于多層次局部區域融合的物體分 割裝置,包括:
[0030] 局部候選區域生成模塊,用于對于一待處理的圖像,按照多個不同的預設尺度分 別選取多個局部候選區域;
[0031] 圖像分割模塊,用于對每個局部候選區域進行圖像分割處理,預測得到所述局部 候選區域的二進制分割掩膜;
[0032] 圖像分類模塊,用于對每個局部候選區域進行圖像分類處理,預測得到所述局部 候選區域所屬的物體類別;
[0033]圖像融合模塊,用于根據各所述局部候選區域所屬的物體類別和各所述局部候選 區域的二進制分割掩膜,對所有局部候選區域進行融合處理,得到物體分割圖像。
[0034]進一步的,所述裝置還包括:卷積神經網絡運算模塊,用于對所述待處理的圖像進 行卷積神經網絡的卷積層和/或池化層處理,得到卷積神經網絡中間結果;
[0035] 所述局部候選區域生成模塊進一步用于:利用所述卷積神經網絡中間結果,選取 局部候選區域產生層,通過滑動框在局部候選區域產生層對應的特征圖上按照多個不同的 預設尺度分別選取多個局部候選區域。
[0036] 進一步的,所述局部候選區域生成模塊進一步用于:通過進行去卷積層和/或池化 層處理,將不同尺寸的局部候選區域統一為固定尺寸。
[0037] 進一步的,所述圖像分類模塊進一步用于:若局部候選區域的中心位于已標定物 體內部,所述已標定物體在局部候選區域中的面積占已標定物體面積的比例大于第一閾 值,且所述已標定物體在局部候選區域中的面積占局部候選區域面積的比例大于第二閾 值,則判定所述局部候選區域所屬的物體類別為所述已標定物體的類別。
[0038] 進一步的,所述裝置還包括:訓練損失模塊,用于建立訓練損失函數,對圖像分類 和圖像分割的損失進行訓練。
[0039]進一步的,所述圖像融合模塊進一步用于:根據局部候選區域的二進制分割掩膜 的重疊面積以及局部候選區域所屬的物體類別,對所有局部候選區域進行融合處理。
[0040] 進一步的,所述圖像融合模塊進一步用于:
[0041] 確定兩個相鄰的局部候選區域的二進制分割掩膜的重疊面積;
[0042] 響應于所述重疊面積大于預設閾值、所述兩個相鄰的局部候選區域屬于同一物體 類別、且所述兩個相鄰的局部候選區域都未被賦值為一物體,生成新的物體將這兩個相鄰 的局部候選區域賦值為該物體。
[0043] 進一步的,所述圖像融合模塊進一步用于:
[0044] 確定兩個相鄰的局部候選區域的二進制分割掩膜的重疊面積;
[0045] 響應于所述重疊面積大于預設閾值、所述兩個相鄰的局部候選區域屬于同一物體 類別、且所述兩個相鄰的局部候選區域中的一個被賦值為一物體,合并這兩個相鄰的局部 候選區域,將另一個局部候選區域賦值為該物體。
[0046] 進一步的,所述圖像融合模塊進一步用于:
[0047] 確定兩個相鄰的局部候選區域的二進制分割掩膜的重疊面積;
[0048] 響應于所述重疊面積大于預設閾值、所述兩個相鄰的局部候選區域屬于同一物體 類別、且所述兩個相鄰的局部候選區域被賦值為兩個物體,合并這兩個物體。
[0049] 根據本發明實施例的又一個方面,提供了一種計算設備,包括:處理器、通信接口、 存儲器以及通信總線;所述處理器、所述通信接口和所述存儲器通過所述通信總線完成相 互間的通信;
[0050] 所述存儲器用于存放至少一指令;所述指令使所述處理器執行以下操作:
[0051]對于一待處理的圖像,按照多個不同的預設尺度分別選取多個局部候選區域; [0052]對每個局部候選區域進行圖像分割處理,預測得到所述局部候選區域的二進制分 割掩膜;
[0053]對每個局部候選區域進行圖像分類處理,預測得到所述局部候選區域所屬的物體 類別;
[0054] 根據各所述局部候選區域所屬的物體類別和各所述局部候選區域的二進制分割 掩膜,對所有局部候選區域進行融合處理,得到物體分割圖像。
[0055] 根據本發明實施例的又一個方面,提供了一種計算機存儲介質,用于存儲計算機 可讀取的指令。所述指令包括:對于一待處理的圖像,按照多個不同的預設尺度分別選取多 個局部候選區域的指令;對每個局部候選區域進行圖像分割處理,預測得到所述局部候選 區域的二進制分割掩膜的指令;對每個局部候選區域進行圖像分類處理,預測得到所述局 部候選區域所屬的物體類別的指令;以及根據各所述局部候選區域所屬的物體類別和各所 述局部候選區域的二進制分割掩膜,對所有局部候選區域進行融合處理,得到物體分割圖 像的指令。
[0056] 本發明實施例提供的技術方案使用了多尺度局部候選區域生成方式,利用了圖像 的多尺度特征,具有更好的容錯能力;本發明實施例能夠在檢測物體的同時,對物體個體進 行分割,并確定其精確邊界。本發明實施例通過對局部候選區域進行分割,在得到局部候選 區域的分割結果后,使用有效的局部區域融合方式,能夠得到更好的優化結果。
[0057] 上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段, 而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠 更明顯易懂,以下特舉本發明的【具體實施方式】。
【附圖說明】
[0058]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通 技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0059] 圖1示出了本發明提供的基于多層次局部區域融合的物體分割方法的實施例一的 流程圖;
[0060] 圖2示出了本發明提供的基于多層次局部區域融合的物體分割方法的實施例二的 流程圖;
[0061] 圖3示出了本發明提供的基于多層次局部區域融合的物體分割方法的實施例二的 網絡模型示意圖;
[0062] 圖4示出了本發明提供的局部候選區域的重疊情況的示意圖;
[0063] 圖5示出了本發明提供的對所有局部候選區域進行融合處理的流程圖;
[0064] 圖6示出了本發明提供的基于多層次局部區域融合的物體分割裝置的實施例一的 功能結構框圖;
[0065] 圖7示出了本發明提供的基于多層次局部區域融合的物體分割裝置的實施例二的 功能結構框圖;
[0066] 圖8示出了用于執行根據本發明實施例的基于多層次局部區域融合的物體分割方 法的計算設備的框圖;
[0067] 圖9示出了用于保持或者攜帶實現根據本發明實施例的基于多層次局部區域融合 的物體分割方法的程序代碼的存儲單元。
【具體實施方式】
[0068] 下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例 所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍 完整的傳達給本領域的技術人員。
[0069] 在實現本發明的過程中,發明人通過研究發現,現有技術提供的物體分割的方案 具有如下至少一種缺點:
[0070] (1)需要基于傳統方案得到檢測框候選,這類方法速度較慢,同時因為和后續需要 進行的類別判斷與分割邊界割裂,沒有一起優化,算法性能也受到了限制。
[0071] (2)-般的物體檢測和場景分割方法,往往需要通過外置的物體候選區域提取模 塊,該模塊與訓練系統的其余部分是獨立的,無法在深度學習框架內形成端到端的訓練和 測試流程。
[0072] (3)-般的物體分割訓練往往在物體全局上進行,精確率不高。
[0073] (4)-般的物體分割往往僅考慮了物體在單一尺度上的特征,其算法性能受到一 定限制,分割效果較差。
[0074] 基于以上發現,本發明實施例提出了一種基于多層次局部區域融合的物體分割方 案,下面通過幾個具體的實施例對該物體分割方案進行詳細介紹。
[0075] 圖1示出了本發明提供的基于多層次局部區域融合的物體分割方法的實施例一的 流程圖。如圖1所示,該方法包括如下步驟:
[0076]步驟S101,對于一待處理的圖像,按照多個不同的預設尺度分別選取多個局部候 選區域。
[0077]與現有技術利用外置的物體候選區域提取模塊不同,本實施例提出了多尺度局部 候選區域生成方案,將一個物體拆成多個局部候選區域來理解和學習。將所選取的局部候 選區域同時作為后續圖像分割和圖像分類的處理對象。
[0078] 步驟S102,對每個局部候選區域進行圖像分割處理,預測得到局部候選區域的二 進制分割掩膜。
[0079]以局部候選區域為輸入的處理對象,對每個局部候選區域進行圖像分割處理,預 測每個局部候選區域的二進制掩膜。
[0080] 步驟S103,對每個局部候選區域進行圖像分類處理,預測得到局部候選區域所屬 的物體類別。
[0081] 以局部候選區域為輸入的處理對象,對每個局部候選區域進行圖像分類處理,預 測得到每個局部候選區域所屬的物體類別。
[0082] 上述步驟S102和步驟S103可同時進行,也可先后進行,本發明對兩步驟的執行順 序不做限制。
[0083] 步驟S104,根據各局部候選區域所屬的物體類別和各局部候選區域的二進制分割 掩膜,對所有局部候選區域進行融合處理,得到物體分割圖像。
[0084] 將由多尺度局部候選區域生成方案生成的局部候選區域得到的物體局部分割結 果和物體局部分類結果進行融合,最終得到整幅圖像的物體個體分割結果。
[0085] 本實施例提供的基于多層次局部區域融合的物體分割方法,使用了多尺度局部候 選區域生成方法,利用了圖像的多尺度特征,具有更好的容錯能力;本方法能夠在檢測物體 的同時,對物體個體進行分割,并確定其精確邊界。本方法通過對局部候選區域進行分割, 在得到局部候選區域的分割結果后,使用有效的局部區域融合方式,能夠得到更好的優化 結果。
[0086] 圖2示出了本發明提供的基于多層次局部區域融合的物體分割方法的實施例二的 流程圖。圖3示出了本發明提供的基于多層次局部區域融合的物體分割方法的實施例二的 網絡模型示意圖。下面結合這兩幅圖對本實施例的具體方案進行詳細介紹。
[0087] 如圖2所示,該方法包括如下步驟:
[0088] 步驟S201,對待處理的圖像進行卷積神經網絡的卷積層和/或池化層處理,得到卷 積神經網絡中間結果。
[0089] 在神經網絡中,每個卷積層之后都有一個非線性響應單元。該非線性響應單元采 用糾正線性單元(Rectified Linear Units,以下簡稱:ReLU),通過在卷積層后增加ReLU, 將卷積層的映射結果盡量稀疏一些,更接近人的視覺反應,從而使圖像處理效果更好。本實 施例將卷積層的卷積核設為3x3,能更好的綜合局部信息。同時,設定池化層的步長stride, 目的是為了讓上層特征在不增加計算量的前提下獲得更大的視野,同時池化層的步長 stride還有增強空間不變性的特征,即允許同樣的輸入出現在不同的圖像位置上,而輸出 結果響應相同。全卷積神經網絡的卷積層主要用于信息歸納和融合。最大池化層(Max pooling)主要進行高層信息的歸納。神經網絡結構可以進行微調來適應不同的性能和效率 的權衡。
[0090] -個具體的示例得到的卷積神經網絡中間結果,如下:
[0091] 1.輸入層
[0092] 2.〈 = 1卷積層 1_1(3X3X64)
[0093] 3 .〈 = 2非線性響應ReLU層
[0094] 4.〈 = 3卷積層1_2(3\3父64)
[0095] 5 .〈 = 4非線性響應ReLU層
[0096] 6 .〈 = 5池化層(3X3/2)
[0097] 7.〈 = 6卷積層 2_1 (3X3X128)
[0098] 8 .〈 = 7非線性響應ReLU層
[0099] 9.〈 = 8卷積層2_2(3\3父128)
[0100] 10 .〈 = 9非線性響應ReLU層
[0101] 11.〈 = 1〇 池化層(3X3/2)
[0102] 12.〈 = 11卷積層3_1(3\3父256)
[0103] 13 .〈 = 12非線性響應ReLU層
[0104] 14.〈 = 13卷積層3_2(3\3父256)
[0105] 15 .〈 = 14非線性響應ReLU層
[0106] 16.〈 = 15卷積層3_3(3\3父256)
[0107] 17 .〈 = 16非線性響應ReLU層
[0108] 18.〈 = 17 池化層(3X3/2)
[0109] 19 .〈 = 18 卷積層 4_1 (3X3X512)
[0110] 20 .〈 = 19非線性響應ReLU層
[0111] 21.〈 = 20卷積層4_2(3\3父512)
[0112] 22.〈 = 21非線性響應ReLU層
[0113] 23.〈 = 22卷積層4_3(3\3父512)
[0114] 24.〈 = 23非線性響應ReLU層
[0115] 25.〈 = 24 池化層(3X3/2)
[0116] 26.〈 = 25卷積層5_1(3\3父512)
[0117] 27 .〈 = 26非線性響應ReLU層
[0118] 28.〈 = 27卷積層5_2(3\3父512)
[0119] 29.〈 = 28非線性響應1^1^層
[0120] 30.〈 = 29卷積層5_3(3\3父512)
[0121] 31.〈 = 30非線性響應1^1^層
[0122] ......
[0123] 其中符號.〈=前面的數字為當前層數,后面的數字為輸入層數,例如,2.〈=1表明 當前層為第二層,輸入為第一層。卷積層后面括號內為卷積層參數,例如,3X3X64,表明卷 積核大小3 X 3,通道數為64。池化層后面括號內為池化層參數,例如,3 X 3/2表明池化核大 小3X3,間隔為2。
[0124] 上述卷積神經網絡中間結果為后續圖像分類處理和圖像分割處理的共享數據。利 用這些卷積神經網絡中間結果可以很大程度上降低后續處理的復雜度。
[0125] 步驟S202,利用卷積神經網絡中間結果,選取局部候選區域產生層,通過滑動框在 局部候選區域產生層對應的特征圖上按照多個不同的預設尺度分別選取多個局部候選區 域。
[0126] 本發明實施例將一個物體拆成多個局部候選區域來理解和學習。圖3示出了本發 明實施例中多尺度局部候選區域生成方案示意圖,如圖3所示,本實施例選擇4個不同的預 設尺度,分別為48 X 48、96 X 96、192 X 192和384 X 384。此處僅為舉例,本發明不限于所舉例 的選取方式。通過選取多個不同的預設尺度,能讓局部候選區域的產生更完備。
[0127] 基于以上的卷積神經網絡中間結果,選取32.〈 = 31為局部候選區域產生層。通過 滑動框在局部候選區域產生層對應的特征圖(feature map)上分別以多個不同的預設尺度 選取局部候選區域。
[0128] 對于每個局部候選區域?,,表示為(^(:,11,《),其中(^(3)是區域的左上角的坐標, h和w分別是區域的高度值和寬度值。滑動框以預設步長滑動,例如,以步長16滑動。在特征 圖上,每個區域Pi對應于經下采樣的特征網格^,仏則表示為
[0129] 為了從單尺度的輸入圖像中產生出多尺度的局部候選區域,本方法利用共享的卷 積神經網絡中間結果,從所選取的卷積層(局部候選區域產生層)對應的特征圖上分別以多 個不同的預設尺度選取局部候選區域,并沒有增加計算成本。而且,本方法通過多個預設尺 度的選擇,能夠盡可能多的覆蓋不同大小的物體;每個局部候選區域可以覆蓋物體的一部 分,不必完全包含物體,所以每個局部候選區域學到的信息更豐富。
[0130] 進一步的,由于以不同的預設尺寸選取局部候選區域,因此局部候選區域的大小 不同。為了便于后續圖像分類和分割處理,本實施例通過進行去卷積層和/或池化層處理, 將不同尺寸的局部候選區域統一為固定尺寸。在上述例子中,空間尺寸包括3 X3、6X 6、12 X 12和24 X 24,利用去卷積層或池化層技術,將其統一為12 X 12。對于尺寸3 X 3和6 X 6 的區域,利用去卷積層技術進行上采樣處理統一為12X12。對于尺寸24X24的區域,利用(2 X 2/2)的最大池化技術將區域尺寸統一為12 X 12。
[0131]步驟S203,對每個局部候選區域進行圖像分割處理,預測得到局部候選區域的二 進制分割掩膜。
[0132]該圖像分割步驟以Gi為輸入,同時利用上述卷積神經網絡中間結果,對每個局部 候選區域進行圖像分割處理,預測每個局部候選區域的二進制掩膜姐。
[0133] 若局部候選區域?1的中心位于某個已標定物體0n的內部,則本實施例將約束該局 部候選區域Pi對應于此已標定物體〇 n。由此確定該局部候選區域Pi的二進制掩膜I應屬于 此已標定物體〇n的一部分。
[0134] 在上述示例中,預測二進制掩膜過程如下:
[0135] 33 ·〈 = 32 卷積層 seg_6_l (1 X 1 X 2304)
[0136] 34.〈 = 33非線性響應1^1^層
[0137] 35.〈 = 34 卷積層 seg_6_2(lX 1X2304)
[0138] 36 ·〈 = 35重構層,將輸入變形成48 X 48
[0139] 37 · < = 36softmax 損失層
[0140] 步驟S204,對每個局部候選區域進行圖像分類處理,預測得到局部候選區域所屬 的物體類別。
[0141] 該圖像分類步驟也以Gi為輸入,同時利用上述卷積神經網絡中間結果,對每個局 部候選區域進行圖像分類處理,預測每個局部候選區域所屬的物體類別h。
[0142] 本實施例中,如果局部候選區域h滿足如下條件,則認為該局部候選區域h屬于已 標定物體On:
[0143] (1)局部候選區域中心位于已標定物體0n內部;
[0144] (2)已標定物體0"在局部候選區域Pi*的面積占已標定物體0n面積的比例大于第 一閾值,比如大于50%;
[0145] (3)已標定物體0n在局部候選區域?1中的面積占局部候選區域? 1面積的比例大于 第二閾值,比如大于20%。
[0146] 在上述示例中,預測類別過程如下:
[0147] 38.〈 = 32 池化層(3X3/2)
[0148] 39 ·〈 = 38 卷積層 cls_6_l (1 X 1 X 4096)
[0149] 40.〈 = 39非線性響應1^1^層
[0150] 41 .〈 = 40 卷積層 cls_6_2(lX 1X4096)
[0151] 42.〈 = 41非線性響應1^1^層
[0152] 43 ·〈 = 42 卷積層 cls_7_l (1 X 1 X 21)
[0153] 44. < = 43softmax 損失層
[0154] 上述步驟S203和步驟S204可以同時執行,也可以先后執行,本發明對這兩個步驟 的執行順序不做限定。
[0155] 步驟S205,建立訓練損失函數,對圖像分類和圖像分割的損失進行訓練。
[0156] 本實施例針對上述圖像分類和圖像分割的任務,設計了用以判別圖像分類和圖像 分割是否準確相結合的訓練損失函數,如下:
[0158]其中,w為網絡參數;fcXPO為局部候選區域?1的分類損失,對應上述示例中的第44 層;fJPi)為局部候選區域?:的分割掩膜的損失,對應上述示例中的第37層;λ為調節fJPi) 和fs(Pi)的權重,可設為1。
[0159]本發明的訓練損失函數并不限定于以上具體的形式。采用這種形式的訓練損失函 數,能夠對本發明所設計的如圖3所示的深度學習網絡模型進行有效的訓練。
[0160] 步驟S206,根據各局部候選區域所屬的物體類別和各局部候選區域的二進制分割 掩膜,對所有局部候選區域進行融合處理,得到物體分割圖像。
[0161] 發明人通過研究發現,如果某幾個局部候選區域都大面積的與某個物體重疊,其 對應的二進制分割掩膜之間的重疊面積也會很大。圖4示出了本發明提供的局部候選區域 的重疊情況的示意圖。如圖4所示,定義反映兩個局部候選區域的二進制分割掩膜的重疊面 積的參數為I〇U。利用滑動框選取了若干局部候選區域,通過計算IoU以及局部候選區域所 屬的物體類別來判斷哪些局部候選區域應被賦值為同一物體,從而對所有局部候選區域進 行融合處理。
[0162] 進一步的,對所有局部候選區域進行融合處理包括:確定兩個相鄰的局部候選區 域的二進制分割掩膜的重疊面積;響應于重疊面積大于預設閾值、兩個相鄰的局部候選區 域屬于同一物體類別、且兩個相鄰的局部候選區域都未被賦值為一物體,則生成新的物體 將這兩個相鄰的局部候選區域賦值為該物體。
[0163] 進一步的,對所有局部候選區域進行融合處理包括:確定兩個相鄰的局部候選區 域的二進制分割掩膜的重疊面積;響應于重疊面積大于預設閾值、兩個相鄰的局部候選區 域屬于同一物體類別、且兩個相鄰的局部候選區域中的一個被賦值為一物體,則合并這兩 個相鄰的局部候選區域,將另一個局部候選區域賦值為該物體。
[0164] 進一步的,對所有局部候選區域進行融合處理包括:確定兩個相鄰的局部候選區 域的二進制分割掩膜的重疊面積;響應于重疊面積大于預設閾值、兩個相鄰的局部候選區 域屬于同一物體類別、且兩個相鄰的局部候選區域被賦值為兩個物體,則合并這兩個物體。
[0165] 具體地,圖5示出了本發明提供的對所有局部候選區域進行融合處理的流程圖。如 圖5所示,融合處理包括如下步驟:
[0166] 步驟S2061,計算兩個相鄰的局部候選區域的二進制分割掩膜的重疊面積。
[0167] 其中,相鄰的局部候選區域包括行維度的相鄰局部候選區域和列維度的相鄰局部 候選區域。
[0168] 步驟S2062,判斷重疊面積是否大于預設閾值;若是,執行步驟S2063;否則,執行步 驟S2061;
[0169] 步驟S2063,判斷這兩個相鄰的局部候選區域是否屬于同一物體類別;若是,則執 行步驟S2064;否則,執行步驟S2061;
[0170] 步驟S2064,判斷這兩個相鄰的局部候選區域是否都未被賦值為一物體;若是,則 執行步驟S2065;否則,執行步驟S2066;
[0171] 步驟S2065,生成新的物體,將這兩個相鄰的局部候選區域賦值為該物體,執行步 驟S2061;
[0172] 步驟S2066,若這兩個相鄰的局部候選區域中的一個被賦值為一物體,則合并這兩 個相鄰的局部候選區域,將另一個局部候選區域賦值為該物體;若這兩個相鄰的局部候選 區域被賦值為兩個物體,則合并這兩個物體,執行步驟S2061。
[0173] 循環執行以上步驟S2061至步驟S2066,直至所有的局部候選區域被賦值為對應的 物體,最終得到所有的物體列表,進而得到物體分割圖像。
[0174]本實施例提供的基于多層次局部區域融合的物體分割方法,使用了多尺度局部候 選區域生成方法,利用了圖像的多尺度特征,具有更好的容錯能力;本方法能夠在檢測物體 的同時,對物體個體進行分割,并確定其精確邊界。本方法通過對局部候選區域進行分割, 在得到局部候選區域的分割結果后,使用有效的局部區域融合方式,能夠得到更好的優化 結果。本方法通過深度神經網絡模型進行物體個體分割,能夠提升整體速度。
[0175] 本方法生成的是物體的局部候選區域,一個物體可能被多個局部候選區域覆蓋, 這樣可以更好的覆蓋較大或較小的物體,使結果更具魯棒性。同時,通過多個局部候選區域 綜合物體邊界,能夠根據不同結果的綜合,使結果結合了不同分類器的結果,也能進一步提 升結果的精度。現有技術利用外置的物體候選區域提取模塊,優化目標與之后最終的物體 分割的目標是割裂的,沒有一起進行優化,使結果不夠好。本方法聯合優化了局部候選區 域,能夠讓最終的結果指導目前的局部候選區域選擇模塊,能讓結果更精確。本方法使得可 以用統一的深度學習來完成端到端完整的物體個體分割訓練和測試。
[0176] 本方法通過多個預設尺度的選擇,能夠盡可能多的覆蓋不同大小的物體;每個局 部候選區域可以覆蓋物體的一部分,不必完全包含物體,所以每個局部候選區域學到的信 息更豐富。通過選取多個不同的預設尺度,能讓局部候選區域的產生更完備。
[0177] 圖6示出了本發明提供的基于多層次局部區域融合的物體分割裝置的實施例一的 功能結構框圖。如圖6所示,該裝置包括:局部候選區域生成模塊60,圖像分割模塊61,圖像 分類模塊62,圖像融合模塊63。
[0178] 局部候選區域生成模塊60用于對于一待處理的圖像,按照多個不同的預設尺度分 別選取多個局部候選區域。
[0179] 圖像分割模塊61用于對每個局部候選區域進行圖像分割處理,預測得到局部候選 區域的二進制分割掩膜。
[0180]圖像分類模塊62用于對每個局部候選區域進行圖像分類處理,預測得到所述局部 候選區域所屬的物體類別。
[0181]圖像融合模塊63用于根據各局部候選區域所屬的物體類別和各局部候選區域的 二進制分割掩膜,對所有局部候選區域進行融合處理,得到物體分割圖像。
[0182] 本實施例提供的基于多層次局部區域融合的物體分割裝置,使用了多尺度局部候 選區域生成方案,利用了圖像的多尺度特征,具有更好的容錯能力;本裝置能夠在檢測物體 的同時,對物體個體進行分割,并確定其精確邊界。本裝置通過對局部候選區域進行分割, 在得到局部候選區域的分割結果后,使用有效的局部區域融合方式,能夠得到更好的優化 結果。
[0183] 圖7示出了本發明提供的基于多層次局部區域融合的物體分割裝置的實施例二的 功能結構框圖。如圖7所示,該裝置除了包括圖6所示的功能模塊以外,還包括:卷積神經網 絡運算模塊64和訓練損失模塊65。
[0184] 卷積神經網絡運算模塊64用于對待處理的圖像進行卷積神經網絡的卷積層和/或 池化層處理,得到卷積神經網絡中間結果。
[0185] 訓練損失模塊65用于建立訓練損失函數,對圖像分類和圖像分割的損失進行訓 練。
[0186] 局部候選區域生成模塊60進一步用于:利用卷積神經網絡中間結果,選取局部候 選區域產生層,通過滑動框在局部候選區域產生層對應的特征圖上按照多個不同的預設尺 度分別選取多個局部候選區域。局部候選區域生成模塊60還用于:通過進行去卷積層和/或 池化層處理,將不同尺寸的局部候選區域統一為固定尺寸。
[0187] 圖像分類模塊62進一步用于:若局部候選區域的中心位于已標定物體內部,所述 已標定物體在局部候選區域中的面積占已標定物體面積的比例大于第一閾值,且所述已標 定物體在局部候選區域中的面積占局部候選區域面積的比例大于第二閾值,則判定所述局 部候選區域所屬的物體類別為所述已標定物體的類別。
[0188] 圖像融合模塊63進一步用于:根據局部候選區域的二進制分割掩膜的重疊面積以 及局部候選區域所屬的物體類別,對所有局部候選區域進行融合處理。
[0189] 圖像融合模塊63進一步用于:確定兩個相鄰的局部候選區域的二進制分割掩膜的 重疊面積;響應于重疊面積大于預設閾值、兩個相鄰的局部候選區域屬于同一物體類別、且 兩個相鄰的局部候選區域都未被賦值為一物體,則生成新的物體將這兩個相鄰的局部候選 區域賦值為該物體。
[0190]圖像融合模塊63進一步用于:確定兩個相鄰的局部候選區域的二進制分割掩膜的 重疊面積;響應于重疊面積大于預設閾值、兩個相鄰的局部候選區域屬于同一物體類別、且 兩個相鄰的局部候選區域中的一個被賦值為一物體,則合并這兩個相鄰的局部候選區域, 將另一個局部候選區域賦值為該物體。
[0191]圖像融合模塊63進一步用于:確定兩個相鄰的局部候選區域的二進制分割掩膜的 重疊面積;響應于重疊面積大于預設閾值、兩個相鄰的局部候選區域屬于同一物體類別、且 兩個相鄰的局部候選區域被賦值為兩個物體,則合并這兩個物體。
[0192] 在一個具體的實施方式中,圖像融合模塊63進一步用于:計算兩個相鄰的局部候 選區域的二進制分割掩膜的重疊面積;判斷所述重疊面積是否大于預設閾值;若判斷出所 述重疊面積大于預設閾值,則判斷這兩個相鄰的局部候選區域是否屬于同一物體類別;若 判斷出這兩個相鄰的局部候選區域屬于同一物體類別,則進一步判斷這兩個相鄰的局部候 選區域是否都未被賦值為一物體;若這兩個相鄰的局部候選區域都未被賦值為一物體,則 生成新的物體,將這兩個相鄰的局部候選區域賦值為該物體;若這兩個相鄰的局部候選區 域中的一個被賦值為一物體,則合并這兩個相鄰的局部候選區域,將另一個局部候選區域 賦值為該物體;若這兩個相鄰的局部候選區域被賦值為兩個物體,則合并這兩個物體。
[0193] 本實施例提供的基于多層次局部區域融合的物體分割裝置,使用了多尺度局部候 選區域生成方案,利用了圖像的多尺度特征,具有更好的容錯能力;本裝置能夠在檢測物體 的同時,對物體個體進行分割,并確定其精確邊界。本裝置通過對局部候選區域進行分割, 在得到局部候選區域的分割結果后,使用有效的局部區域融合方式,能夠得到更好的優化 結果。本裝置通過深度神經網絡模型進行物體個體分割,能夠提升整體速度。
[0194] 本裝置生成的是物體的局部候選區域,一個物體可能被多個局部候選區域覆蓋, 這樣可以更好的覆蓋較大或較小的物體,使結果更具魯棒性。同時,通過多個局部候選區域 綜合物體邊界,能夠根據不同結果的綜合,使結果結合了不同分類器的結果,也能進一步提 升結果的精度。現有技術利用外置的物體候選區域提取模塊,優化目標與之后最終的物體 分割的目標是割裂的,沒有一起進行優化,使結果不夠好。本裝置聯合優化了局部候選區 域,能夠讓最終的結果指導目前的局部候選區域選擇模塊,能讓結果更精確。本裝置使得可 以用統一的深度學習來完成端到端完整的物體個體分割訓練和測試。
[0195] 本裝置通過多個預設尺度的選擇,能夠盡可能多的覆蓋不同大小的物體;每個局 部候選區域可以覆蓋物體的一部分,不必完全包含物體,所以每個局部候選區域學到的信 息更豐富。通過選取多個不同的預設尺度,能讓局部候選區域的產生更完備。
[0196] 在此提供的方法和顯示不與任何特定計算機、虛擬系統或者其它設備固有相關。 各種通用系統也可以與基于在此的示教一起使用。根據上面的描述,構造這類系統所要求 的結構是顯而易見的。此外,本發明也不針對任何特定編程語言。應當明白,可以利用各種 編程語言實現在此描述的本發明的內容,并且上面對特定語言所做的描述是為了披露本發 明的最佳實施方式。
[0197] 在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,本發明的實施 例可以在沒有這些具體細節的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構 和技術,以便不模糊對本說明書的理解。
[0198] 類似地,應當理解,為了精簡本公開并幫助理解各個發明方面中的一個或多個,在 上面對本發明的示例性實施例的描述中,本發明的各個特征有時被一起分組到單個實施 例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保 護的本發明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面 的權利要求書所反映的那樣,發明方面在于少于前面公開的單個實施例的所有特征。因此, 遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身 都作為本發明的單獨實施例。
[0199] 本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地 改變并且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單 元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或 子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何 組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任 何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權 利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代 替。
[0200] 此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例 中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發明的 范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任 意之一都可以以任意的組合方式來使用。
[0201] 本發明的各個部件實施例可以以硬件實現,或者以在一個或者多個處理器上運行 的軟件模塊實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用 微處理器或者數字信號處理器(DSP)來實現根據本發明實施例的獲取應用信息的設備中的 一些或者全部部件的一些或者全部功能。本發明還可以實現為用于執行這里所描述的方法 的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產品)。這樣的實 現本發明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。 這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,或者以任何其他形式 提供。
[0202] 例如,圖8示出了可以實現根據本發明的基于多層次局部區域融合的物體分割方 法的計算設備。該計算設備傳統上包括處理器810和以存儲設備820形式的計算機程序產品 或者計算機可讀介質,另外還包括通信接口和通信總線。存儲設備820可以是諸如閃存、 EEPROM(電可擦除可編程只讀存儲器)、EPROM、硬盤或者ROM之類的電子存儲器。處理器、通 信接口和存儲器通過通信總線完成相互間的通信。存儲設備820具有存儲用于執行上述方 法中的任何方法步驟的程序代碼831的存儲空間830,用于存放至少一指令,該指令使處理 器執行本發明實施例的基于多層次局部區域融合的物體分割方法中的各種步驟。例如,存 儲程序代碼的存儲空間830可以包括分別用于實現上面的方法中的各種步驟的各個程序代 碼831。這些程序代碼可以從一個或者多個計算機程序產品中讀出或者寫入到這一個或者 多個計算機程序產品中。這些計算機程序產品包括諸如硬盤、緊致盤(CD)、存儲卡或者軟盤 之類的程序代碼載體。這樣的計算機程序產品通常為例如圖9所示的便攜式或者固定存儲 單元。該存儲單元可以具有與圖8的計算設備中的存儲設備820類似布置的存儲段、存儲空 間等。程序代碼可以例如以適當形式進行壓縮。通常,存儲單元包括用于執行根據本發明的 方法步驟的計算機可讀代碼831',即可以由諸如810之類的處理器讀取的代碼,當這些代碼 由計算設備運行時,導致該計算設備執行上面所描述的方法中的各個步驟。
[0203] 應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,并且本領 域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中, 不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞"包含"不排除存在未 列在權利要求中的元件或步驟。位于元件之前的單詞"一"或"一個"不排除存在多個這樣的 元件。本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實 現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項 來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名 稱。
【主權項】
1. 一種基于多層次局部區域融合的物體分割方法,其特征在于,包括: 對于一待處理的圖像,按照多個不同的預設尺度分別選取多個局部候選區域; 對每個局部候選區域進行圖像分割處理,預測得到所述局部候選區域的二進制分割掩 膜; 對每個局部候選區域進行圖像分類處理,預測得到所述局部候選區域所屬的物體類 別; 根據各所述局部候選區域所屬的物體類別和各所述局部候選區域的二進制分割掩膜, 對所有局部候選區域進行融合處理,得到物體分割圖像。2. 根據權利要求1所述的基于多層次局部區域融合的物體分割方法,其特征在于,在所 述對于一待處理的圖像,按照多個不同的預設尺度分別選取多個局部候選區域之前,所述 方法進一步包括:對所述待處理的圖像進行卷積神經網絡的卷積層和/或池化層處理,得到 卷積神經網絡中間結果; 所述按照多個不同的預設尺度分別選取多個局部候選區域進一步包括:利用所述卷積 神經網絡中間結果,選取局部候選區域產生層,通過滑動框在局部候選區域產生層對應的 特征圖上按照多個不同的預設尺度分別選取多個局部候選區域。3. 根據權利要求2所述的基于多層次局部區域融合的物體分割方法,其特征在于,在選 取多個局部候選區域之后,所述方法還包括: 通過進行去卷積層和/或池化層處理,將不同尺寸的局部候選區域統一為固定尺寸。4. 根據權利要求1-3任一項所述的基于多層次局部區域融合的物體分割方法,其特征 在于,所述對每個局部候選區域進行圖像分類處理,預測得到所述局部候選區域所屬的物 體類別進一步包括: 若局部候選區域的中心位于已標定物體內部,所述已標定物體在局部候選區域中的面 積占已標定物體面積的比例大于第一閾值,且所述已標定物體在局部候選區域中的面積占 局部候選區域面積的比例大于第二閾值,則判定所述局部候選區域所屬的物體類別為所述 已標定物體的類別。5. 根據權利要求1-4任一項所述的基于多層次局部區域融合的物體分割方法,其特征 在于,在所述對所有局部候選區域進行融合處理之前,所述方法包括: 建立訓練損失函數,對圖像分類和圖像分割的損失進行訓練。6. 根據權利要求1-5任一項所述的基于多層次局部區域融合的物體分割方法,其特征 在于,所述對所有局部候選區域進行融合處理進一步包括: 根據局部候選區域的二進制分割掩膜的重疊面積以及局部候選區域所屬的物體類別, 對所有局部候選區域進行融合處理。7. 根據權利要求6所述的基于多層次局部區域融合的物體分割方法,其特征在于,所述 對所有局部候選區域進行融合處理進一步包括: 確定兩個相鄰的局部候選區域的二進制分割掩膜的重疊面積; 響應于所述重疊面積大于預設閾值、所述兩個相鄰的局部候選區域屬于同一物體類 另IJ、且所述兩個相鄰的局部候選區域都未被賦值為一物體,生成新的物體將這兩個相鄰的 局部候選區域賦值為該物體。8. 根據權利要求6或7所述的基于多層次局部區域融合的物體分割方法,其特征在于, 所述對所有局部候選區域進行融合處理進一步包括: 確定兩個相鄰的局部候選區域的二進制分割掩膜的重疊面積; 響應于所述重疊面積大于預設閾值、所述兩個相鄰的局部候選區域屬于同一物體類 另IJ、且所述兩個相鄰的局部候選區域中的一個被賦值為一物體,合并這兩個相鄰的局部候 選區域,將另一個局部候選區域賦值為該物體。9. 一種基于多層次局部區域融合的物體分割裝置,其特征在于,包括: 局部候選區域生成模塊,用于對于一待處理的圖像,按照多個不同的預設尺度分別選 取多個局部候選區域; 圖像分割模塊,用于對每個局部候選區域進行圖像分割處理,預測得到所述局部候選 區域的二進制分割掩膜; 圖像分類模塊,用于對每個局部候選區域進行圖像分類處理,預測得到所述局部候選 區域所屬的物體類別; 圖像融合模塊,用于根據各所述局部候選區域所屬的物體類別和各所述局部候選區域 的二進制分割掩膜,對所有局部候選區域進行融合處理,得到物體分割圖像。10. -種計算設備,其特征在于,包括:處理器、通信接口、存儲器以及通信總線;所述處 理器、所述通信接口和所述存儲器通過所述通信總線完成相互間的通信; 所述存儲器用于存放至少一指令;所述指令使所述處理器執行以下操作: 對于一待處理的圖像,按照多個不同的預設尺度分別選取多個局部候選區域; 對每個局部候選區域進行圖像分割處理,預測得到所述局部候選區域的二進制分割掩 膜; 對每個局部候選區域進行圖像分類處理,預測得到所述局部候選區域所屬的物體類 別; 根據各所述局部候選區域所屬的物體類別和各所述局部候選區域的二進制分割掩膜, 對所有局部候選區域進行融合處理,得到物體分割圖像。
【文檔編號】G06T7/00GK106097353SQ201610425391
【公開日】2016年11月9日
【申請日】2016年6月15日
【發明人】石建萍
【申請人】北京市商湯科技開發有限公司