一種基于卷積循環混合模型的圖像描述方法
【專利摘要】本發明公開了一種基于卷積循環混合模型的圖像描述方法,屬于機器學習中的深度學習領域;對于文本描述而言由于句子中詞具有很強的上下文關系,因此可以用一種語言模型來對文本數據進行編碼。具體步驟包括:(1)提取圖像特征;(2)對圖像特征編碼;(3)對圖像描述文本編碼;(4)對模型進行訓練;(5)利用訓練模型生成圖像的文本描述。本發明在機器視覺和自然語言處理具有廣泛的應用,在圖像描述方法方面提出了新的思路和解決方法。目前在圖像描述中,對文本的編碼是隨機生成的,具有一定的盲目性,而且效果也不好。而本發明利用word2Vec對文本進行編碼,解決了圖像描述中對描述文本的編碼問題,彌補了其隨機性、盲目性和不穩定性的缺陷。大大提高了圖像描述的應用能力,為機器視覺的發展奠定了基礎。
【專利說明】
一種基于卷積循環混合模型的圖像描述方法
技術領域
[0001] 本發明屬于機器學習中的深度學習部分。具體內容是應用在計算機視覺,自然語 言處理和圖像描述等領域中的方法。
【背景技術】
[0002] 隨著互聯網規模和數字信息資源的增長,信息數量呈現幾何級數激增,信息服務 領域面臨"信息豐富,但有用信息獲取困難"的窘境。尤其是進入21世紀以來,數字圖像資源 以指數的形式增長,導致用戶在海量圖像庫中進行圖像檢索中遇到了很大的困難,使得有 用的圖像在海量圖像中無法在有效的時間內被正確的檢索出來。在ILSVRC2012中,Al ex Krizhevsky提出了有一種五層的神經網絡簡稱為AlexNet,這個網絡非常復雜有6千萬個參 數,最后AlexNet贏得了比賽的第一名。在2014年,google也加入進來了,它通過增加模型的 層數(總共22層),讓深度更深,并且運用multi-scale data訓練,取得了第一名。百度最近 通過更加"粗暴"的模型,在GoogleNet的基礎上,又提升了 10 %。在機器視覺方面,人們用來 解決問題模型似乎是越來越復雜,這些復雜的模型必須得到超豪華的硬件支持。快速的瀏 覽一張圖像足以讓人們描述出大量的視覺信息。但是這種非凡的能力被證明在我們視覺模 型中一個難以實現的任務。之前大多數的視覺識別一直側重于在一個固定的領域標注圖像 并取得了很大的發展,雖然這種方法能簡化視覺識別的模型,但對于實際情況仍有很大的 局限性。
[0003] 在圖像描述方面已經出現了很多的方法,然而這些模型往往依賴一些硬編碼的視 覺概念和一些規則化的模板,這種方法的局限性是對于比較復雜的場景只能描述個大概, 無法把內容完整的描述出來。
【發明內容】
[0004] -種基于卷積循環混合模型的圖像描述方法,其特征在于用文本語言描述圖像內 容上,在描述內容的準確性上有很好的效果,具體步驟如下:
[0005] 步驟1、對圖像進行編碼,具體步驟如下:
[0006] 步驟1.1、用卷積神經網絡對圖像進行特征提取,所采用的VGG網絡結構,該網絡在 ImageNet數據集上進行參數學習;輸入一張訓練圖像It,經過網絡進行特征提取,最后得到 一個大小為4096的特征向量F t;
[0007] 步驟1.2、通過一個4096*256的映射矩陣We對提取的特征向量F t進行編碼,編碼后 得到一個大小為256的向量V:
[0008] v=FtTffe+bm (1)
[0009] 其中We3是一個映射矩陣,bm是偏置,都是需要學習的參數。
[0010]步驟2、對文本進行編碼,計算機無法處理文本數據,必須先將文本編碼成計算機 能識別的數據;在編碼文本數據所用的方法是W〇rd2VeC,該方法是一個深度學習模型,能夠 將一個詞映射到一個向量空間,通過計算向量空間上的相似度表示文本語義上的相似度, 具體步驟如下:
[0011] 步驟2.1、對原始數據集中的描述文本進行低頻處理,選取詞頻大于等于5的詞,去 除低頻詞匯,處理后的語料庫為C,大小為2537;
[0012] 步驟2.2、對詞庫C里面的每個詞按照詞頻構建HafTman樹,葉子結點表示語料中的 詞,非葉子結點只做輔助,并非是真實的結點,都標記為〇或者1,左邊標為1,右邊標為〇,在 本發明專利中表示的是一個邏輯回歸函數;
[0013] 步驟2.3、根據構建好的Haffman樹計算詞的概率,具體如下:
[0014]
(:2)
[0015] 其中,w表示語料庫中的詞;Γ表示詞w所在的層數
表示詞w在j層的取 值;Vw表示詞w的向量估計值;$ e 示詞w在第j層的參數估i
[0016]步驟2.4、最大似然估計模型參數,具體如下:
[0017]
[0018]
[0019]
[0020] 其中,context (w)表示詞w的上下文信息,即w前window個詞和后window個詞,但不包括詞《,在實現過程中wind〇w = 5;函數Γ是要優化的目標函數,為了方便求梯度,令:
[0021;
[0022;
[0023;
[0024;
[0025;
[0026] 在W〇rd2VeC的實現過程中,對于詞向量Vw的更新,先從根到詞w更新所有參數后, 再更新context (w)中每一個詞的向量:
[0027]
(:9)
[0028] 其中,uecontext(w),α為學習率;
[0029] 步驟2.5、經過步驟2.4以后,可以得到詞庫C中每個詞w e C的詞向量¥|,在實現過 程中Vw的是256維的向量;
[0030] 步驟3、生成圖像的文本描述模型,本發明采用的是一個多模型的長短時記憶循環 神經網絡具體方法如下:
[0031 ]步驟3.1、對圖像的文本描述進行預處理,包括兩個方面:
[0032]步驟3.1.1對文本描述做低頻處理,在實現過程中個選擇頻率大于等于5的詞,處 理后詞庫中詞的的個數為2537;
[0033] 步驟3.1.2對低頻處理后大小為2537,中的詞創建索引,第一個詞的索引為1,最后 一個詞的索引為2537,除此以外增加了一個索引0表示句子的開頭和結尾標注,一共2538個 索引;
[0034]步驟3.1.3對詞庫中的所有詞按照索引構建一個大小為2538*256的矩陣We,矩陣 中的第i行對應著索引為i的詞;
[0035] 步驟3.2、向前傳播過程,給定一個包含N個詞的圖像文本描述X,先通過詞索引將 詞轉化為一個大小為N+1的索引向量,向量的第一個元素為0表不句子的開始,索引向量通 過查找詞編碼矩陣We,得到一個(N+1)*D的詞特征矩陣,連同圖像編碼向量一起作為長短時 記憶網絡的輸入,該網絡是一個三層網絡,輸入層大小為256個神經元;隱含層,大小為256 個神經元;輸出層,大小為2538個神經元;具體過程如下,其中I <t<N+l:
[0036]
U0)
[0037] yt = o(ff〇hht+bd) (11)
[0038] 其中,激活函數;i,f,〇,c分別表示長短時記憶網絡結構 中的輸入門、遺忘門、輸出門
、記憶細胞,他們和隱含層具有相同的維度;xt是大小為(N+1)* D詞特征矩陣的第t行;Wxl是輸入到輸入門權值;Wh^上一時刻隱含層到輸入門的權值;W cl 是上一時刻記憶細胞到輸入門的權值;bi是當前時刻輸入門偏置;Wxf是輸入到遺忘門的權 值;Whf是上一時刻遺忘門到當前時刻遺忘門的權值;W cf是上一時刻記憶細胞到遺忘門的權 值;bf是當前時刻遺忘門偏置;Wxc是輸入到記憶細胞的權值;W hc是上一時刻隱含層到當前時 刻記憶細胞的權值;bc是當前時刻記憶細胞的偏置;Wx。是輸入到輸出門的權值;Wh。是上一時 亥神俞出門到當前時刻輸出門的權值;W。。是當前時刻記憶細胞到輸出門之間的權值;b。是當 前時刻輸出門的偏置;Woh是隱含層到輸出層的權值;bd是輸出層的偏置;一個(N+l )*D的訓 練樣本經過前向過程得到一個Y= (N+1)*T的輸出,在這里T的大小是2538,每一列元素表示 詞庫中每個詞出現的概率;
[0039]步驟3.3、計算殘差,將輸入的文本X通過詞索引將詞轉化為一個大小為N+1的索引 向量IL,該向量的最后一個元素為0表示句子的結束;通過3.1的前向計算得到的矩陣Y與對 索引向量IU司對應的的標簽矩陣相減,每個詞的標簽是one-hot形式表示的一維向量,第t (l<t<N+l)個詞對應的索引位置取值為1,其他都為0;訓練樣本的第t個詞經過前向傳播 得到的輸出Yt,訓練樣本中第t個詞的索引為i,IL向量第t個詞的索引j,殘差表達式如下: [0040;
[0041] 其中下標ti,表示訓練樣本中第t個詞出現的索引序號i;得到每個句子的殘差以 后開始反向學習,計算模型中參數的梯度;
[0042] 步驟3.4、反向計算過程,利用步驟3.2中殘差計算模型中參數的梯度,計算公式, 并利用隨機梯度下降法對參數進行優化;
[0043]步驟3.5、不斷的重復步驟3.1、3.2、3.3,實現模型參數優化,迭代次數為15000;
[0044] 步驟4、利用訓練好的模型生成圖像描述,讀取測試圖像,將測試圖像先提取特征 然后編碼,將編碼后的圖像輸入到步驟3.2,得到圖像描述。
[0045] 本發明與現有技術相比,具有以下明細優勢和有益效果:
[0046] 本發明在機器視覺和自然語言處理具有廣泛的應用,在圖像描述方法方面提出了 新的思路和解決方法。目前在圖像描述中,對文本的編碼是隨機生成的,具有一定的盲目 性,而且效果也不好。而本發明恰恰解決了圖像描述中對描述文本的編碼問題,彌補了其隨 機性、盲目性和不穩定性的缺陷。利用W 〇rd2VeC對文本進行編碼,大大提高了圖像描述的應 用能力,為機器視覺的發展奠定了基礎。
【附圖說明】
[0047]圖1為算法流程圖 [0048]圖2為模型困惑度對比圖
[0049] 圖3為模型Bleu-I對比圖
[0050] 圖4為模型Bleu-2對比圖 [0051 ] 圖5為模型Bleu-3對比圖 [0052] 圖6為模型Bleu-4對比圖
[0053]圖7為部分實例在本發明模型的實驗結果 [0054]圖8為部分實例在兩種模型中的實驗對比
【具體實施方式】
[0055]下面結合附圖及具體實施案例對本發明作進一步的描述。
[0056] 應用在機器視覺和自然語言處理中的圖像描述方法流程圖。如圖1所示。
[0057]其特征在于包括以下步驟:
[0058] 步驟1、對圖像進行編碼,具體步驟如下:
[0059]步驟1.1、用卷積神經網絡對圖像進行特征提取,所采用的VGG網絡結構,該網絡在 ImageNet數據集上進行參數學習;輸入一張訓練圖像It,經過網絡進行特征提取,最后得到 一個大小為4096的特征向量Ft;
[0060] 步驟1.2、通過一個4096*256的映射矩陣We對提取的特征向量Ft進行編碼,編碼后 得到一個大小為256的向量V:
[0061] V = FtTffe+bm (1)
[0062] 其中We是一個映射矩陣,bm是偏置,都是需要學習的參數。
[0063] 步驟2、對文本進行編碼,計算機無法處理文本數據,必須先將文本編碼成計算機 能識別的數據;本發明在編碼文本數據所用的方法是W 〇rd2VeC,該方法是一個深度學習模 型,可以將一個詞映射到一個向量空間,通過計算向量空間上的相似度表示文本語義上的 相似度,具體步驟如下:
[0064] 步驟2.1、對原始數據集中的描述文本進行低頻處理,選取詞頻大于等于5的詞,去 除低頻詞匯,處理后的語料庫為C,大小為2537;
[0065] 步驟2.2、對詞庫C里面的每個詞按照詞頻構建HafTman樹,葉子結點表示語料中的 詞,非葉子結點只做輔助,并非是真實的結點,都標記為〇或者1,左邊標為1,右邊標為〇,在 本發明專利中表示的是一個邏輯回歸函數;
[0066] 步驟2.3、根據構建好的HafTman樹計算詞的概率,具體如下:
[0067
[0068] 其中,w表示語料庫中的詞;Γ表示詞w所在的層數;< £[0,![表示詞w在
[0069] j層的取值;Vw表示詞w的向量估計值;fe/?表示詞w在第j層的參數估計;
[0074] 其中,context (w)表示詞w的上下文信息,即w前window個詞和后window個詞,但不 包括詞w,在實現過稈中window = 5:函數Γ是要優化的目標函數,為了方便求梯度,今:
[0075]
[0077]
[0076] Θ的梯度計算:
[0080] 在W〇rd2VeC的實現過程中,對于詞向量Vw的更新,先從根到詞w更新所有參數后, 再更新context (w)中每一個詞的向量:
[0078]
[0079]
[0081]
m
[0082] 其中,uecontext(w),α為學習率;
[0083] 步驟2.5、經過步驟2.4以后,可以得到詞庫C中每個詞w e C的詞向量¥,,在實現過 程中Vw的是256維的向量;
[0084]步驟3、生成圖像的文本描述模型,本發明采用的是一個多模型的長短時記憶循環 神經網絡具體方法如下:
[0085]步驟3.1、對圖像的文本描述進行預處理,包括兩個方面:
[0086]步驟3.1.1對文本描述做低頻處理,在實現過程中個選擇頻率大于等于5的詞,處 理后詞庫中詞的的個數為2537;
[0087] 步驟3.1.2對低頻處理后大小為2537,中的詞創建索引,第一個詞的索引為1,最后 一個詞的索引為2537,除此以外增加了一個索引0表示句子的開頭和結尾標注,一共2538個 索引;
[0088] 步驟3.1.3對詞庫中的所有詞按照索引構建一個大小為2538*256的矩陣We,矩陣 中的第i行對應著索引為i的詞;
[0089] 步驟3.2、向前傳播過程,給定一個包含N個詞的圖像文本描述X,先通過詞索引將 詞轉化為一個大小為N+1的索引向量,向量的第一個元素為0表不句子的開始,索引向量通 過查找詞編碼矩陣We,得到一個(N+1)*D的詞特征矩陣,連同圖像編碼向量一起作為長短時 記憶網絡的輸入,該網絡是一個三層網絡,輸入層大小為256個神經元;隱含層,大小為256 個神經元;輸出層,大小為2538個神經元;具體過程如下,其中I <t<N+l:
[0091] y t - υι, WohIltTUd ; 、丄丄y
[0090] rIO)
[0092]其中,tanh = CXpfA);CXpM,為激活函數;i,f,ο,〇分別表示長短時記憶網絡結構 exp LtJ-I CXp ("XJ 中的輸入門、遺忘門、輸出門、記憶細胞,他們和隱含層具有相同的維度;Xt是大小為(Ν+1)* D詞特征矩陣的第t行;Wxl是輸入到輸入門權值;Wh^上一時刻隱含層到輸入門的權值;W cl 是上一時刻記憶細胞到輸入門的權值;bi是當前時刻輸入門偏置;Wxf是輸入到遺忘門的權 值;Whf是上一時刻遺忘門到當前時刻遺忘門的權值;W cf是上一時刻記憶細胞到遺忘門的權 值;bf是當前時刻遺忘門偏置;Wxc是輸入到記憶細胞的權值;Whc是上一時刻隱含層到當前時 刻記憶細胞的權值;be是當前時刻記憶細胞的偏置;W x。是輸入到輸出門的權值;Wh。是上一時 亥神俞出門到當前時刻輸出門的權值;We。是當前時刻記憶細胞到輸出門之間的權值;b。是當 前時刻輸出門的偏置;Woh是隱含層到輸出層的權值;bd是輸出層的偏置;一個(N+l )*D的訓 練樣本經過前向過程得到一個Y= (Ν+Ι)*τ的輸出,在這里T的大小是2538,每一列元素表示 詞庫中每個詞出現的概率;
[0093]步驟3.3、計算殘差,將輸入的文本X通過詞索引將詞轉化為一個大小為N+1的索引 向量IL,該向量的最后一個元素為0表示句子的結束;通過3.1的前向計算得到的矩陣Y與對 索引向量IU司對應的的標簽矩陣相減,每個詞的標簽是one-hot形式表示的一維向量,第t (l<t<N+l)個詞對應的索引位置取值為1,其他都為0;訓練樣本的第t個詞經過前向傳播 得到的輸出Yt,訓練樣本中第t個詞的索引為i,IL向量第t個詞的索引j,殘差表達式如下:
[0094] % = ILe -1
[0095] 其中下標ti,表示訓練樣本中第t個詞出現的索引序號i;得到每個句子的殘差以 后開始反向學習,計算模型中參數的梯度;
[0096] 步驟3.4、反向計算過程,利用步驟3.2中殘差計算模型中參數的梯度,計算公式, 并利用隨機梯度下降法對參數進行優化;
[0097] 步驟3.5、不斷的重復步驟3.1、3.2、3.3,實現模型參數優化,迭代次數為15000;
[0098] 步驟4、利用訓練好的模型生成圖像描述,讀取測試圖像,將測試圖像先提取特征 然后編碼,將編碼后的圖像輸入到步驟3.2,得到圖像描述。
[00"]下面給出一個本發明設計應用在f I i ckr8k數據集的實例。
[0100] 實例采用的數據集是flickrSk數據集,該數據集在圖像描述領域中有廣泛的應 用,被眾多的研究者給認可。其中訓練集有6000張圖片,每個圖片有五種標準的文本表達。 1000個測試集和1000個驗證集。
[0101] 利用本模型在f IickrSk數據集上的實驗,生成圖像描述,部分實驗結果如圖7所 不。
[0102] 本實例分別采用兩種模型在flickrSk數據集上對比實驗,在試驗迭代過程中,會 不斷的用驗證集去驗證當前模型,如果當前模型滿足一定條件,就視為有用模型。W 〇rd2VeC 對文本編碼的模型產生的有用模型是20個,隨機編碼的模型產生的有用模型為15個。
[0103] 1對比兩種板型的困惑度,實驗結果如圖1:
[0104] 2,對比兩種模型在測試集上的效果,比較Bleu得分,圖2是兩個模型Bleu-ι得分對 比圖,圖3是Bleu-2對比圖,圖4是Bleu-3對比圖,圖5是Bleu-4對比圖。
[0105] 3,對比兩種模型生成圖像描述結果,如圖8:
[0106] Word2Vec編碼文本生成的描述:
[0107] aman in ablack shirt and glasses is holding a camera
[0108] 隨機對文本編碼生成的描述:
[0109] aman in ablack shirt and awoman in ablack shirt
[0110]從以上實驗可以看出,用word2Vec對文本進行編碼在f Iickr8k數據集的效果明顯 優于隨機編碼的。
[0111]以上實例僅用于說明本發明,而非限制本發明所描述的技術方案。因此,一切不脫 離本發明精神和范圍的技術方案及其改進,均應涵蓋在本發明的權利要求范圍中。
【主權項】
1. 一種基于卷積循環混合模型的圖像描述方法,其特征在于:用文本語言描述圖像內 容上,在描述內容的準確性上有很好的效果,具體步驟如下, 步驟1、對圖像進行編碼,具體步驟如下: 步驟1.1、用卷積神經網絡對圖像進行特征提取,所采用的VGG網絡結構,該網絡在 Image化t數據集上進行參數學習;輸入一張訓練圖像It,經過網絡進行特征提取,最后得到 一個大小為4096的特征向量Ft; 步驟1.2、通過一個4096*256的映射矩陣We對提取的特征向量Ft進行編碼,編碼后得到 一個大小為256的向量V: V = FjWe+bm (1) 其中We是一個映射矩陣,bm是偏置,都是需要學習的參數; 步驟2、對文本進行編碼,計算機無法處理文本數據,必須先將文本編碼成計算機能識 別的數據;在編碼文本數據所用的方法是Word2Vec,該方法是一個深度學習模型,能夠將一 個詞映射到一個向量空間,通過計算向量空間上的相似度表示文本語義上的相似度,具體 步驟如下: 步驟2.1、對原始數據集中的描述文本進行低頻處理,選取詞頻大于等于5的詞,去除低 頻詞匯,處理后的語料庫為C,大小為2537; 步驟2.2、對詞庫C里面的每個詞按照詞頻構建化ffman樹,葉子結點表示語料中的詞, 非葉子結點只做輔助,并非是真實的結點,都標記為0或者1,左邊標為1,右邊標為0,在本發 明專利中表示的是一個邏輯回歸函數; 步驟2.3、根據構建好的化f f man樹計算詞的概率,具體如下:其中,W表示語料庫中的詞;Γ表示詞W所在的層數;式' e {〇, I}表示詞W在j層的取值;Vw表 示詞W的向量估計值;聲e表示詞W在第j層的參數估計;步驟2.4、最大似然估計模型參數,具體如下:其中,context(w)表示詞W的上下文信息,即W前window個詞和后window個詞,但不包括 詞W,在實現過程中window = 5;函數Γ是要優化的目標函數,為了方便求梯度,令:在Word2Vec的實現過程中,對于詞向量Vw的更新,先從根到詞w更新所有參數后,再更新 context(w)中每一個詞的向量:(9) 其中,11£。01116別(訊),日為學習率; 步驟2.5、經過步驟2.4 W后,可W得到詞庫C中每個詞W e C的詞向量Vw,在實現過程中Vw 的是256維的向量; 步驟3、生成圖像的文本描述模型,本發明采用的是一個多模型的長短時記憶循環神經 網絡具體方法如下: 步驟3.1、對圖像的文本描述進行預處理,包括兩個方面: 步驟3.1.1對文本描述做低頻處理,在實現過程中個選擇頻率大于等于5的詞,處理后 詞庫中詞的的個數為2537; 步驟3.1.2對低頻處理后大小為2537,中的詞創建索引,第一個詞的索引為1,最后一個 詞的索引為2537,除此W外增加了一個索引0表示句子的開頭和結尾標注,一共2538個索 引; 步驟3.1.3對詞庫中的所有詞按照索引構建一個大小為253糾256的矩陣We,矩陣中的第 i行對應著索引為i的詞; 步驟3.2、向前傳播過程,給定一個包含N個詞的圖像文本描述X,先通過詞索引將詞轉 化為一個大小為N+1的索引向量,向量的第一個元素為0表示句子的開始,索引向量通過查 找詞編碼矩陣We,得到一個(N+1)*D的詞特征矩陣,連同圖像編碼向量一起作為長短時記憶 網絡的輸入,該網絡是一個Ξ層網絡,輸入層大小為256個神經元;隱含層,大小為256個神 經元;輸出層,大小為2538個神經元;具體過程如下,其中《化1: it 二 0 (WjdXt+Wh出t-1+WciCt-l+bi ) f t = σ (Wxf Xt+Whfht-I+Wcf Ct-i+bf) ct = ftct-i+it tanh(WxcXt+Whcht-i+bc) (10) ot - ο (WxoXt+Wh 山 t-i+Wc〇ct+b〇+l{t - 1} V) ht = 〇t tanh(ct) yt = 〇(W〇jJit+bd) (11) 其中I為激活函數;i,f,〇,c分別表示長短時記憶網絡結構中的 輸入口、遺忘口、輸出口、記憶細胞,他們和隱含層具有相同的維度;xt是大小為(N+1)*D詞 特征矩陣的第t行;Wxi是輸入到輸入口權值;Whi是上一時刻隱含層到輸入口的權值;Wei是上 一時刻記憶細胞到輸入口的權值;bi是當前時刻輸入口偏置;Wxf是輸入到遺忘口的權值;Whf 是上一時刻遺忘口到當前時刻遺忘口的權值;Wrf是上一時刻記憶細胞到遺忘口的權值;bf 是當前時刻遺忘口偏置;Wxc是輸入到記憶細胞的權值;Whc是上一時刻隱含層到當前時刻記 憶細胞的權值;be是當前時刻記憶細胞的偏置;Wx。是輸入到輸出口的權值;Wh。是上一時刻輸 出口到當前時刻輸出口的權值;We。是當前時刻記憶細胞到輸出口之間的權值;b。是當前時 刻輸出口的偏置;Woh是隱含層到輸出層的權值;bd是輸出層的偏置;一個(N+1)*D的訓練樣 本經過前向過程得到一個Y=(N+1)*T的輸出,在運里T的大小是2538,每一列元素表示詞庫 中每個詞出現的概率; 步驟3.3、計算殘差,將輸入的文本X通過詞索引將詞轉化為一個大小為N+1的索引向量 IL,該向量的最后一個元素為0表示句子的結束;通過3.1的前向計算得到的矩陣Y與對索引 向量IL詞對應的的標簽矩陣相減,每個詞的標簽是one-hot形式表示的一維向量,第t(l《t 《N+1)個詞對應的索引位置取值為1,其他都為0;訓練樣本的第t個詞經過前向傳播得到的 輸出Yt,訓練樣本中第t個詞的索引為i,IL向量第t個詞的索引j,殘差表達式如下:其中下標ti,表示訓練樣本中第t個詞出現的索引序號i;得到每個句子的殘差W后開 始反向學習,計算模型中參數的梯度; 步驟3.4、反向計算過程,利用步驟3.2中殘差計算模型中參數的梯度,計算公式,并利 用隨機梯度下降法對參數進行優化; 步驟3.5、不斷的重復步驟3.1、3.2、3.3,實現模型參數優化,迭代次數為15000; 步驟4、利用訓練好的模型生成圖像描述,讀取測試圖像,將測試圖像先提取特征然后 編碼,將編碼后的圖像輸入到步驟3.2,得到圖像描述。
【文檔編號】G06N3/08GK105938485SQ201610231898
【公開日】2016年9月14日
【申請日】2016年4月14日
【發明人】李玉鑑, 丁勇, 劉兆英
【申請人】北京工業大學