日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

結合多重嵌入表示的短文本情報處理方法及系統

文檔序號:41984644發布日期:2025-05-23 16:40閱讀:19來源:國知局

本發明涉及短文本處理,具體涉及結合多重嵌入表示的短文本情報處理方法及系統。


背景技術:

1、在自然語言處理領域,短文本情報處理和實體識別一直是重要的研究課題,短文本指的是信息量相對較少、包含的上下文信息有限的文本,例如社交媒體帖子、消息、報告、新聞摘要等,這類文本的特點是信息濃縮、表達簡潔,但也因此存在著一些問題,一方面,短文本由于其信息量較小,往往無法提供足夠的上下文信息,這使得傳統的自然語言處理方法,尤其是基于序列模型的實體識別方法,往往難以有效捕捉文本中的實體關系和語義特征,與長文本相比,短文本通常缺乏足夠的上下文來幫助模型理解詞匯之間的精確關系,導致模型的表現不佳;另一方面,在短文本中,同一實體可能有多個不同的表現形式,例如別名、縮寫、同義詞等,這給實體識別帶來了挑戰,尤其是在一些特定領域,實體名稱常常變化多端,如何準確地識別出實體及其具體指代成為了一個難點。


技術實現思路

1、本申請通過提供了結合多重嵌入表示的短文本情報處理方法及系統,旨在解決傳統的實體識別方法大多依賴于詞匯級別的處理,缺乏對實體多樣化表示的全面理解,導致信息處理的精度不足的技術問題。

2、本申請公開的第一個方面,提供了結合多重嵌入表示的短文本情報處理方法,所述方法包括:采用多重嵌入表示法處理裝備知識圖譜中的實體名信息,以及外部百科中的別名信息,生成實體嵌入向量表示;將目標短文本通過bert網絡進行上下文特征提取,并將提取結果輸入bigru網絡進行特征優化,生成最大池化向量,基于所述最大池化向量生成目標實體的實體語義表示,其中,所述目標實體為所述目標短文本中的提及實體;將所述實體語義表示和所述實體嵌入向量表示結合,并通過卷積層、全連接層和sigmoid激活函數進行處理,計算得到所述目標實體的目標預測概率;基于所述目標實體,從已標注實體中選擇正面樣本,從所述別名信息對應的候選實體中選擇負面樣本,結合所述目標預測概率進行bert-bigru模型訓練;將所述目標短文本、所述目標實體輸入所述bert-bigru模型,提取cls向量、開始位置特征向量、結束位置特征向量,進行向量拼接后,輸入全連接神經網絡層進行向量分類處理,通過激活函數,獲得所述目標實體的目標概率得分。

3、本申請公開的第二個方面,提供了結合多重嵌入表示的短文本情報處理系統,所述系統用于上述結合多重嵌入表示的短文本情報處理方法,所述系統包括:實體嵌入向量表示生成模塊,用于采用多重嵌入表示法處理裝備知識圖譜中的實體名信息,以及外部百科中的別名信息,生成實體嵌入向量表示;實體語義表示生成模塊,用于將目標短文本通過bert網絡進行上下文特征提取,并將提取結果輸入bigru網絡進行特征優化,生成最大池化向量,基于所述最大池化向量生成目標實體的實體語義表示,其中,所述目標實體為所述目標短文本中的提及實體;目標預測概率計算模塊,用于將所述實體語義表示和所述實體嵌入向量表示結合,并通過卷積層、全連接層和sigmoid激活函數進行處理,計算得到所述目標實體的目標預測概率;模型訓練模塊,用于基于所述目標實體,從已標注實體中選擇正面樣本,從所述別名信息對應的候選實體中選擇負面樣本,結合所述目標預測概率進行bert-bigru模型訓練;目標概率得分獲取模塊,用于將所述目標短文本、所述目標實體輸入所述bert-bigru模型,提取cls向量、開始位置特征向量、結束位置特征向量,進行向量拼接后,輸入全連接神經網絡層進行向量分類處理,通過激活函數,獲得所述目標實體的目標概率得分。

4、本申請中提供的一個或多個技術方案,至少具有如下技術效果或優點:

5、通過多重嵌入表示法,能夠處理來自不同數據源的信息,包括裝備知識圖譜和外部百科的別名信息,并將其轉化為實體嵌入向量表示,裝備知識圖譜中的實體名信息能夠為模型提供關于實體的正式命名和結構化語義,外部百科中的別名信息能夠補充實體的不同表示形式,通過這種方式,模型不僅能理解正式的實體名,還能識別其在不同語境下的多樣化表達,這使得系統在面對多樣的輸入時,能夠更全面地理解和匹配目標實體;通過bert網絡進行上下文特征提取,模型能夠從目標短文本中捕捉到細粒度的上下文信息,bert作為基于transformer的雙向預訓練語言模型,能夠綜合文本中每個單詞的前后語境,提供更加準確的上下文表示,接著,通過bigru網絡進行特征優化,進一步增強了序列建模能力,使得模型能夠從文本中捕捉長期依賴關系,通過最大池化操作,保留了最顯著的特征,從而確保了模型在處理短文本時能夠精準地提取關鍵信息;通過將實體語義表示與實體嵌入向量表示結合,形成一個更加全面的實體表示,從而在不同上下文中識別和匹配實體,卷積層和全連接層的使用進一步增強了特征的提取能力,使得模型能夠更好地對目標實體進行分類和預測;基于目標實體,從已標注的實體中選擇正面樣本,從別名信息對應的候選實體中選擇負面樣本,結合目標預測概率進行bert-bigru模型的訓練,正負樣本的選擇引導模型學習如何區分目標實體和其他無關實體,增強了模型的分類精度,通過對預測概率的引導,模型能夠更好地進行樣本選擇,減少誤差,提高實體鏈接的精度;通過輸入目標短文本和目標實體到bert-bigru模型,提取cls向量、開始位置特征向量、結束位置特征向量,并進行向量拼接后,輸入全連接神經網絡進行分類,通過激活函數得到目標實體的預測概率得分,這一過程通過將目標實體的多維度特征結合起來,進一步提升了目標實體預測的準確性,特別是通過拼接向量的方式,模型能夠綜合多方面的信息,從而實現更精確的分類和預測,從而大幅提升了短文本情報處理的性能。

6、上述說明僅是本申請技術方案的概述,為了能夠更清楚了解本申請的技術手段,而可依照說明書的內容予以實施,并且為了讓本申請的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本申請的具體實施方式。



技術特征:

1.結合多重嵌入表示的短文本情報處理方法,其特征在于,所述方法包括:

2.如權利要求1所述的結合多重嵌入表示的短文本情報處理方法,其特征在于,所述采用多重嵌入表示法處理裝備知識圖譜中的實體名信息,以及外部百科中的別名信息,生成實體嵌入向量表示,方法還包括:

3.如權利要求1所述的結合多重嵌入表示的短文本情報處理方法,其特征在于,所述基于所述最大池化向量生成目標實體的實體語義表示,方法包括:

4.如權利要求1所述的結合多重嵌入表示的短文本情報處理方法,其特征在于,所述bert網絡基于雙向transformers結構,表達式如下:

5.如權利要求1所述的結合多重嵌入表示的短文本情報處理方法,其特征在于,所述bigru網絡包括更新門和重置門,用于控制gru單元內部的信息流。

6.如權利要求5所述的結合多重嵌入表示的短文本情報處理方法,其特征在于,一個所述gru單元的數學公式表示如下:

7.如權利要求1所述的結合多重嵌入表示的短文本情報處理方法,其特征在于,所述bigru網絡由兩個獨立gru層組成,其中,正向gru按照時間順序處理序列,反向gru按照反向時間順序處理序列。

8.結合多重嵌入表示的短文本情報處理系統,其特征在于,用于實施權利要求1-7任一項所述的結合多重嵌入表示的短文本情報處理方法,所述系統包括:


技術總結
本發明提供了結合多重嵌入表示的短文本情報處理方法及系統,涉及短文本處理技術領域,包括:生成實體嵌入向量表示;將目標短文本通過BERT網絡進行上下文特征提取,輸入BiGRU網絡進行特征優化,生成最大池化向量,生成實體語義表示;計算得到目標預測概率;選擇正面樣本、負面樣本進行BERT?BiGRU模型訓練;提取CLS向量、開始位置特征向量、結束位置特征向量,進行向量拼接后輸入全連接神經網絡層進行向量分類處理,通過激活函數,獲得目標實體的目標概率得分。本發明解決了傳統的實體識別方法大多依賴于詞匯級別的處理,缺乏對實體多樣化表示的全面理解,導致信息處理的精度不足的技術問題。

技術研發人員:石永琪,楊若鵬,楊遠濤,殷昌盛,陶宇,左柏瞬,盧穩新,黃博
受保護的技術使用者:中國人民解放軍國防科技大學
技術研發日:
技術公布日:2025/5/22
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1