本發明屬于圖像處理領域,具體涉及一種基于多模態數據的新生兒眼底圖像分類方法及成像方法。
背景技術:
1、新生兒的眼底圖像分類,在臨床上和基礎醫學研究中,都具有重要意義。現階段,針對新生兒的眼底圖像分類,依舊是臨床醫療影像人員,根據自身的經驗和技術水平,進行眼底圖像的分類。但是,這種人工進行新生兒的眼底圖像分類的方案,不僅費時費力,而且可靠性較差。
2、現階段,雖然有研究人員提出了基于深度學習的新生兒眼底圖像分類方案,但是該類方案主要是依賴于單一圖像模態進行圖像分類的方案。新生兒眼底圖像存在淡色、高透明度、血管稀疏不均和特征不明顯等特性,現有的基于單一眼底圖像模態的分類方案,其精確性也相對較差。此外,引入額外模態數據,雖然能夠提升新生兒眼底圖像的準確性,但是這需要海量的人工標注信息,這在現階段是難以實現的。
技術實現思路
1、本發明的目的之一在于提供一種可靠性高且精確性好的基于多模態數據的新生兒眼底圖像分類方法。
2、本發明的目的之二在于提供一種包括了所述基于多模態數據的新生兒眼底圖像分類方法的成像方法。
3、本發明提供的這種基于多模態數據的新生兒眼底圖像分類方法,包括如下步驟:
4、s1.?獲取現有的新生兒眼底圖像數據;
5、s2.?對步驟s1獲取的新生兒眼底圖像進行圖像處理,以構建訓練數據集;同時,選取若干新生兒眼底圖像進行文本標注;
6、s3.?在離線狀態下,提取進行了文本標注的新生兒眼底圖像的文本特征,同時提取對應的新生兒眼底圖像的圖像特征;
7、s4.?將步驟s3獲取的文本特征及對應的圖像特征作為第一訓練集,基于預訓練的圖像編碼器和文本編碼器,進行文本特征生成器的訓練;文本特征生成器用于生成輸入圖像的實例級偽文本特征;
8、s5.?構建包括了圖像預測模塊、偽文本預測模塊和融合模塊的新生兒眼底圖像分類初始模型;
9、其中,基于預訓練的圖像編碼器、注意力機制和線性層構建圖像預測模塊,用于生成輸入圖像的圖像分類預測結果;基于預訓練的圖像編碼器、步驟s4得到的訓練后的文本特征生成器、注意力機制和線性層構建偽文本預測模塊,用于先生成輸入圖像的實例級偽文本特征,再基于實例級偽文本特征生成偽文本分類預測結果;基于信息熵方案構建融合模塊,用于對生成的圖像分類預測結果和偽文本分類預測結果進行融合,以得到最終的新生兒眼底圖像分類結果;
10、s6.?采用步驟s2構建的訓練數據集,對步驟s5構建的新生兒眼底圖像分類初始模型進行訓練,得到訓練后的新生兒眼底圖像分類模型;
11、s7.?采用步驟s6得到的新生兒眼底圖像分類模型,進行實際的新生兒眼底圖像的分類。
12、所述的步驟s2,具體包括如下步驟:
13、獲取新生兒眼底圖像:其中,針對每一個新生兒,獲取若干張眼底圖像,標注新生兒的類別,但不對每一張眼底圖像進行類別標注;
14、將獲取的新生兒眼底圖像進行分辨率的調整,并進行歸一化操作,以構建訓練數據集;
15、在獲取的新生兒眼底圖像中,選擇若干新生兒眼底圖像,進行文本描述標注。
16、所述的步驟s3,具體包括如下步驟:
17、在離線狀態下,采用文本基礎模型,對進行了文本標注的新生兒眼底圖像,提取文本特征;
18、同時,采用視覺基礎模型,對進行了文本標注的新生兒眼底圖像,提取圖像特征。
19、所述的文本基礎模型,包括了bert-base-chinese模型。
20、所述的視覺基礎模型,包括了resnet-50模型或retfound模型;當采用resnet-50模型時,提取的圖像特征為resnet-50模型中全局平均池化操作的輸入;當采用retfound模型時,提取的圖像特征為retfound模型中最后一層transformer的輸入。
21、所述的步驟s4,具體包括如下步驟:
22、將步驟s3獲取的文本特征及對應的圖像特征作為第一訓練集;
23、將圖像特征依次通過預訓練的圖像編碼器和待訓練的文本特征生成器進行處理,以生成偽文本特征;
24、將文本特征通過預訓練的文本編碼器進行處理,以生成真實文本特征;
25、訓練時,計算偽文本特征和真實文本特征之間的誤差損失,以實現文本特征生成器的訓練。
26、所述的預訓練的圖像編碼器,包括了預訓練的retfound模型或預訓練的resnet-50模型;所述的預訓練的文本編碼器,包括了預訓練的bert-base-chinese模型;所述的文本特征生成器,具體為線性映射層。
27、所述的計算偽文本特征和真實文本特征之間的誤差損失,具體為計算偽文本特征和真實文本特征之間的均方差損失。
28、所述的步驟s5,包括如下步驟:
29、圖像預測模塊:基于預訓練的圖像編碼器、多頭自注意力機制、線性映射層和注意力權重計算方案,構建圖像預測模塊;圖像預測模塊用于生成輸入圖像的圖像分類預測結果;
30、偽文本預測模塊:基于預訓練的圖像編碼器、步驟s4得到的訓練后的文本特征生成器、注意力權重計算方案和線性層,構建偽文本預測模塊;輸入的圖像首先通過預訓練的圖像編碼器和步驟s4得到的訓練后的文本特征生成器生成實例級偽文本特征,再將實例級偽文本特征基于注意力權重計算方案和線性層進行處理,以生成偽文本分類預測結果;
31、融合模塊:基于信息熵計算方案計算得到圖像分類預測結果和和偽文本分類預測結果的權重值,并結合加權求和方案進行預測結果的融合,最終得到新生兒眼底圖像的分類結果。
32、圖像預測模塊的處理過程,具體包括如下步驟:
33、輸入的圖像通過預訓練的圖像編碼器進行處理,得到圖像密集特征;
34、將得到的圖像密集特征拼接一個待學習的分類令牌,表示為:其中為加入位置編碼后的令牌組;為分類令牌;為圖像塊令牌;為將和拼接的操作;為位置編碼;
35、然后將得到的依次通過線性映射層處理、多頭自注意力機制進行信息交互和線性層進行處理,再將結果與進行求和,得到實例級圖像特征,表示為:式中為線性層處理函數;為線性映射層處理函數;為多頭自注意力機制處理函數;
36、將得到的實例級圖像特征,通過注意力權重計算方案處理,再通過線性層處理,得到圖像分類預測結果,表示為:式中為圖像分類預測結果;為圖像預測模塊的注意力權重計算方案的處理過程,且,為第ii個圖像實例級特征編碼,為的權重值且,w待學習的第一參數,v為待學習的第二參數。
37、偽文本預測模塊的處理過程,具體包括如下步驟:
38、輸入的圖像通過預訓練的圖像編碼器和步驟s4得到的訓練后的文本特征生成器生成實例級偽文本特征;
39、將實例級偽文本特征通過注意力權重計算方案處理,再通過線性層處理,得到偽文本分類預測結果,表示為:式中為偽文本分類預測結果;為實例級偽文本特征;為偽文本預測模塊的注意力權重計算方案的處理過程,且,其中為第kk個文本實例級特征編碼,為的權重值且,為待學習的第三參數,為帶學習的第四參數。
40、融合模塊的處理過程,具體包括如下步驟:
41、計算得到圖像分類預測結果的圖像信息熵為,計算得到偽文本分類預測結果的文本信息熵為;其中,為信息熵計算函數;
42、取圖像信息熵和文本信息熵的最大值,得到極值信息熵為;
43、采用如下算式計算得到圖像權重和文本權重:式中為圖像權重;為文本權重;
44、最終,計算得到預測結果為。
45、本發明還提供了一種成像方法,該成像方法包括了所述的基于多模態數據的新生兒眼底圖像分類方法,還包括如下步驟:
46、s8.?將步驟s7得到的新生兒眼底圖像的分類結果,在新生兒眼底圖像進行標注和二次成像,得到帶有分類結果的新生兒眼底圖像。
47、本發明提供的這種基于多模態數據的新生兒眼底圖像分類方法及成像方法,通過事先訓練得到的文本特征生成器來實現偽文本特征的生成,并基于文本特征生成器、注意力機制、線性層和信息熵方案構建基于圖像模態數據和文本模態數據的新生兒眼底圖像分類模型,因此本發明不僅能夠實現基于多模態數據的新生兒眼底圖像分類,而且可靠性更高,精確性更好。