網絡文本的情感信息檢測方法和裝置的制造方法
【技術領域】
[0001 ]本發明屬于互聯網數據分析技術領域,具體地說,涉及一種網絡文本的情感信息 檢測方法和裝置。
【背景技術】
[0002] 隨著網絡與Web2.0的不斷發展,社交媒體已經成為了人們日常生活中不可或缺的 獲得信息和發布信息的重要渠道。移動設備的不斷推新,人們可以通過移動設備關注周圍 發生的事情,并且可以迅速上傳到社交媒體中;在社交媒體上,用戶可以記錄自己的生活, 也可以對當下熱點發表自己的看法,表達自己的意見,而這一類社交媒體往往含有發布者 的情感。如果沒有合理進行監測,可能會出現非法信息,錯誤引導公眾的判斷,導致輿論走 向錯誤的方向。
[0003] 例如,網民對產品、服務、重大事件的評價和對熱點事件的評論,這些評論表達了 用戶在某領域的主觀傾向性觀點,這些帶有情感傾向性的文本在新聞、電子商務、政務等方 面具有巨大的挖掘潛力。因此,通過對用戶在網絡上發布的文本信息進行情感分析,從而推 斷出用戶的情感,以實現從社交媒體上挖掘社會群體對于某些熱點事件的情感狀況。
[0004] 現有技術對網絡上的情感分析主要依賴于關鍵詞,如"憤怒"、"高興"等詞,也包括 了一些重大事件的感情詞、關鍵詞等,但這些詞在一定程度上并沒有反映到整個文章、網 站、通信信息的感情,因此,現有技術對網絡文本信息的情感分析的準確性較差。
【發明內容】
[0005] 有鑒于此,本申請提供了一種網絡文本的情感信息檢測方法和裝置,以解決現有 技術對網絡文本信息的情感分析的準確性較差的技術問題。
[0006] 為了解決上述技術問題,本申請公開了一種網絡文本的情感信息檢測方法,包括:
[0007] 對獲取的網絡文本進行分詞處理得到多個詞;
[0008] 獲取所述多個詞的特征向量,得到所述網絡文本的特征向量;
[0009] 利用調優參數對所述網絡文本的特征向量進行情感分類處理,得到所述網絡文本 的情感信息。
[0010] 可選地,所述對獲取的網絡文本進行分詞處理得到多個詞之前,包括:
[0011] 對所述獲取的網絡文本進行情感極性的確定;
[0012] 若確定所述獲取的網絡文本的情感極性為正面極性或負面極性,則對所述網絡文 本進行無用信息去除處理。
[0013] 可選地,所述對獲取的網絡文本進行分詞處理得到多個詞之后,包括:
[0014] 獲取所述多個詞中每個詞的特征值。
[0015] 可選地,獲取所述多個詞的特征向量,得到所述網絡文本的特征向量,包括:
[0016] 根據所述多個詞中每個詞的特征值,構建所述多個詞的特征向量,得到所述網絡 文本的特征向量。
[0017] 可選地,獲取所述多個詞的特征向量,得到所述網絡文本的特征向量,包括:
[0018] 所述網絡文本的特征向量表達式為:
[0020]其中,i表示網絡文本中第i個詞,表示網絡文本中第i個詞條,CU表示第i個詞條 在特征向量中第一維度的值,ti · cb表示第i個詞條^第一維度的值。
[0021 ] 可選地,獲取所述多個詞的特征向量,得到所述網絡文本的特征向量,包括:
[0022]所述網絡文本的特征向量表達式為:
[0024]其中,i表示網絡文本中第i個詞,^表示網絡文本中第i個詞條,cU表示第i個詞條 在特征向量中第一維度的值,ti · cU表示第i個詞條ti第一維度的值,ti · IDF表示第i個詞 條ti的特征值,作為特征向量的權重。
[0025] 可選地,所述調優參數是根據召回率、準確率和/或分類整體性能值,在對大量的 網絡文本進行情感分類處理基礎上得到的調優參數,用于表示根據所述調優參數生成的情 感分類器的準確率為最優。
[0026] 可選地,所述情感分類器包括情感句識別分類器和情感極性分類器;
[0027]當所述調優參數中的C參數為8、gamma參數為0.03125時,根據所述調優參數生成 的情感句識別分類器的準確率為88.6163% ;
[0028] 當所述調優參數中的c參數為2、gamma參數為0.125時,根據所述調優參數生成的 情感極性分類器的準確率為92.2894%。
[0029] 本發明還提供一種網絡文本的情感信息檢測裝置,包括:
[0030] 分詞模塊,用于對獲取的網絡文本進行分詞處理得到多個詞;
[0031] 獲取特征向量模塊,用于獲取所述多個詞的特征向量,得到所述網絡文本的特征 向量;
[0032] 情感分類模塊,用于利用調優參數對所述網絡文本的特征向量進行情感分類處 理,得到所述網絡文本的情感信息。
[0033] 可選地,所述的裝置還包括:
[0034]情感極性確定模塊,用于對所述獲取的網絡文本進行情感極性的確定;
[0035]去噪模塊,用于若確定所述獲取的網絡文本的情感極性為正面極性或負面極性, 則對所述網絡文本進行無用信息去除處理。
[0036] 可選地,所述的裝置還包括:
[0037] 獲取特征值模塊,用于獲取所述多個詞中每個詞的特征值。
[0038] 可選地,所述獲取特征向量模塊:用于根據所述獲取特征值模塊獲取的多個詞中 每個詞的特征值,構建所述多個詞的特征向量,得到所述網絡文本的特征向量。
[0039] 可選地,所述獲取特征向量模塊具體用于:根據所述網絡文本的特征向量表達式 計算所述網絡文本的特征向量;
[0040]所述網絡文本的特征向量表達式為:
[0042] 其中,i表示網絡文本中第i個詞,表示網絡文本中第i個詞條,cU表示第i個詞條 在特征向量中第一維度的值,^ · cb表示第i個詞條^第一維度的值。
[0043] 可選地,所述獲取特征向量模塊具體用于:根據所述網絡文本的特征向量表達式 計算所述網絡文本的特征向量;
[0044] 所述網絡文本的特征向量表達式為:
[0046] 其中,i表示網絡文本中第i個詞,表示網絡文本中第i個詞條,cU表示第i個詞條 在特征向量中第一維度的值,ti · cU表示第i個詞條ti第一維度的值,ti · IDF表示第i個詞 條ti的特征值,作為特征向量的權重。
[0047] 可選地,所述調優參數是根據召回率、準確率和/或分類整體性能值,在對大量的 網絡文本進行情感分類處理基礎上得到的調優參數,用于表示根據所述調優參數生成的情 感分類器的準確率為最優。
[0048] 可選地,所述情感分類器包括情感句識別分類器和情感極性分類器;
[0049] 當所述調優參數中的c參數為8、gamma參數為0.03125時,根據所述調優參數生成 的情感句識別分類器的準確率為88.6163% ;
[0050] 當所述調優參數中的c參數為2、gamma參數為0.125時,根據所述調優參數生成的 情感極性分類器的準確率為92.2894%。
[0051] 本發明實施例對獲取的網絡文本進行分詞處理得到多個詞;獲取所述多個詞的特 征向量,得到所述網絡文本的特征向量;利用調優參數對所述網絡文本的特征向量進行情 感分類處理,得到所述網絡文本的情感信息。由于本發明實施例采用的調優參數是根據召 回率、準確率和/或分類整體性能值,在對大量的網絡文本進行情感分類處理基礎上得到 的,用于表示根據所述調優參數生成的情感分類器的準確率為最優,因此,利用調優參數對 所述網絡文本的特征向量進行情感分類處理,得到所述網絡文本的情感信息的準確率也是 最高的,可以解決現有技術對網絡文本信息的情感分析的準確性較差的技術問題。
【附圖說明】
[0052]此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申 請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
[0053] 圖1是本申請實施例的提供的一種網絡文本的情感信息檢測方法的流程示意圖;
[0054] 圖2為本發明實施例應用的特征值搜索引擎示意圖;
[0055] 圖3為本發明實施例應用的情感分類器的測試結果示意圖;
[0056]圖4為本發明實施例應用的情感識別分類器的情感識別交叉驗證結果示意圖;
[00