日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

利用答案相關性排序的評估度量來計算問題相似度的方法

文檔序號:10534975閱讀:543來源:國知局
利用答案相關性排序的評估度量來計算問題相似度的方法
【專利摘要】本發明公開了一種利用答案相關性排序的評估度量來計算問題相似度的方法,該方法包括:步驟一:在問答知識庫中的訓練數據集上學習答案排序模型;步驟二:采用快速信息檢索從問答知識庫中檢索出用戶問題的相關問題;步驟三:根據學習出的答案排序模型分別對用戶問題和相關問題的同一候選答案集進行排序;步驟四:計算問題?答案相關性排序的評估度量,即斯皮爾曼、皮爾森和肯德爾相關系數;步驟五:將得到的相關系數直接作為問題的相似度得分;或加入到相似度特征集合中訓練分類器,然后將分類器輸出的概率置信得分作為問題的相似度得分。本發明通過答案的相似度來計算問題的相似度,克服了同一問題具有不同自然語言表述的詞匯鴻溝難題。
【專利說明】
利用答案相關性排序的評估度量來計算問題相似度的方法
技術領域
[0001] 本發明涉及到社區問答(CQA)系統中的問題檢索技術,涉及利用問題-答案相關性 排序的評估度量來計算檢索問題相似度的方法。
【背景技術】
[0002] 近年來,隨著社區問答(Community-based Question Answering,CQA)網站,如 Yahoo Answer、Wiki Answer、百度知道、搜搜問問等的蓬勃發展,越來越多的研究機構和研 究者開始關注這一領域。一方面,用戶可以提出各種問題,這些問題在社區問答網站上被有 相關知識的用戶或專家回答。另一方面,針對用戶提出的查詢問題(記作Qo),CQA系統檢索 現有的問答知識庫找出已有答案的相關問題(記作&),并將相關問題的答案(記作A)返回 作為用戶查詢問題的答案。CQA系統通常包括兩個重要模塊:(1)問題檢索:以用戶問題作為 查詢內容,從問題知識庫中檢索出相關問題;(2)答案排序:根據答案和問題的語義相關的 匹配程度,對多個候選答案進行排序。目前問題檢索采用的主要方法可歸為以下幾類:(1) 基于信息檢索的方法:采用傳統信息檢索的方法如TFIDF、BM25,把用戶問題作為查詢去檢 索出知識庫中最相關的問題;(2)基于有監督的機器學習的方法:從問題之間抽取多種不同 的特征如:詞匹配、基于翻譯、基于主題等的相似特征,然后使用機器學習方法去估計問題 間的相似度,從而找出最相關的問題。然而,上述這些大多都是在問題之間采用基于詞匹配 或淺層語義分析檢索相似問題,并沒有考慮到與問題相關的答案信息,因此很難解決針對 同一問題用戶采用不同自然語言表述的實際情況。

【發明內容】

[0003] 本發明的目的是針對現有技術的不足而提供的一種問題相似度計算方法,該方法 利用了問題-答案相關性排序的評估度量來計算問題的相似度,提高問題相似度評估的準 確性。
[0004] 實現本發明目的的具體技術方案是:
[0005] -種利用答案相關性排序的評估度量來計算問題相似度的方法,該方法包括如下 步驟:
[0006] 步驟一:在CQA問答知識庫中已有問題-答案排序信息的訓練數據集上學習有監督 的答案排序模型;
[0007] 步驟二:采用快速信息檢索方法,從問答知識庫中檢索出與用戶問題相關的候選 問題集合,其中包含噪聲問題;
[0008] 步驟三:根據構建的答案排序模型計算分別得到用戶問題和各個相關候選問題針 對同一答案集的相關性排序;
[0009]步驟四:計算相關性排序的評估度量,即斯皮爾曼(Spearman)、皮爾森(Pearson) 和肯德爾(Kendall)相關系數;
[0010]步驟五:得到的相關系數直接作為用戶問題和相關問題的相似度得分;或者加入 到問題相似度特征集合中來訓練分類器,然后將分類器輸出的概率置信得分作為用戶問題 和相關問題的相似度得分。
[0011] 所述步驟一中的訓練數據集上學習有監督的答案排序模型,包括如下步驟:
[0012] 步驟al:從問答知識庫中抽取已有的問題-答案對,根據用戶對不同答案的評分, 給予對應的問題-答案對不同的標簽,構建訓練數據集;
[0013] 步驟a2:在訓練數據集上采用機器學習模型學習出有監督的答案排序模型;其中, 所述機器學習模型為邏輯回歸或支持向量機。
[0014] 所述步驟二中從問答知識庫中檢索出與用戶問題相關的候選問題集合,包括如下 步驟:
[0015] 步驟bl:采用快速信息檢索方法,以用戶問題為查詢內容,在問答知識庫中進行查 詢檢索;其中,所述快速信息檢索方法為TFIDF或BM25;
[0016] 步驟b2:返回的結果作為與用戶問題相關的候選問題集合,其中包含噪聲問題。
[0017] 所述步驟三中計算分別得到用戶問題和各個相關候選問題針對同一答案集的相 關性排序,包括如下步驟:
[0018] 步驟cl:使用步驟一中已訓練的答案排序模型,計算用戶問題與候選問題集的各 個答案的相關得分進行相關性排序;
[0019] 步驟c2:使用步驟一中已訓練的答案排序模型,計算相關問題與候選問題集的各 個答案的相關得分進行相關性排序。
[0020] 所述步驟四中計算相關性排序的評估度量,包括如下步驟:
[0021 ] 步驟dl:選擇評估排序的度量,即斯皮爾曼(Spearman)、皮爾森(Pearson)和肯德 爾(Kendall)相關系數;
[0022]步驟d2:針對步驟三得到的相關性排序,計算各個排序相關系數的值。
[0023] 所述步驟五中用戶問題和相關問題的相似度得分包括如下步驟:
[0024] 步驟el:將計算得到的相關系數值直接作為用戶問題和相關問題的相似度得分;
[0025] 步驟e2:將計算得到的相關系數值加入到問題相似度特征集合中,訓練分類器,然 后將分類器輸出的概率置信得分作為用戶問題和相關問題的相似度得分。
[0026] 本發明與現有技術不同之處:⑴、本方法通過計算問題-答案相關性排序的評估度 量即斯皮爾曼、皮爾森和肯德爾相關系數,將問題-答案的排序信息加入到問題相似性計算 中,通過答案的相似度來估計問題的相似度,克服問題檢索中同一問題具有不同自然語言 表述的難題;⑵、本方法中提出使用相關性排序的度量,既可以直接作為問題的相關性得 分,也可以與其他簡單詞匹配和淺層語義相似度特征結合,從多個角度捕獲自然語言表述 的不同問題之間的相似度,提高問題語義相似估計的準確性和全面性。
[0027] 本發明的有益效果包括:本發明提出利用問題與答案之間的相關性排序的評估度 量來計算問題相似度的方法,將答案排序信息通過計算排序相關系數的方式融入到問題檢 索中,克服了由于采用不同自然語言表達的詞匯鴻溝問題,提高用戶問題檢索的準確性和 全面性。并且該方法也可以應用在已有CQA問題知識庫的管理,通過發現知識庫中已有的相 似問題,進行相似問題的答案的合并和優化,提升用戶體驗。
【附圖說明】
[0028] 圖1為本發明的流程圖。
【具體實施方式】
[0029] 結合以下具體實施例和附圖,對本發明作進一步的詳細說明。實施本發明的過程、 條件、實驗方法等,除以下專門提及的內容之外,均為本領域的普遍知識和公知常識,本發 明沒有特別限制內容。
[0030] 本發明中所涉及的專業術語的定義如下:
[0031 ] 社區問答(community question answering): -方面,用戶可以提出任意主題的 問題,這些問題在社區問答網站上被有相關知識的用戶或專家回答,另一方面,社區問答系 統針對用戶問題,檢索相關問題并返回相關問題的答案作為用戶問題的答案。
[0032] 問題檢索(question retrieval):輸入一個查詢問題,在社區問答知識庫中檢索 出相似的問題。
[0033]答案排序(answer ranking):給定一個問題和多個候選答案,根據問題-答案的相 關匹配程度對答案進行相關性排序。
[0034] 排序相關系數(rank correlation coefficient):表示兩個排序之間的統計依存 程度,常用的排序相關系數有斯皮爾曼(Spearman)、皮爾森(Pearson)、肯德爾(Kendall)排 序相關系數等。
[0035] 為了利用答案排序信息,社區問答中用戶會給予不同質量的答案不同的評分,這 一評分能夠反映答案與問題的匹配程度,回答地越好的答案評分會越高。本發明的第一步 就利用這種社區用戶數據標記的方法,雖然社區用戶標記數據的質量不如專家標記數據 高,存在一些噪聲,但減少了很多人工成本,并且可以獲得大量足夠的標記訓練數據樣本。 在標記的訓練集上訓練有監督的排序模型有兩種方式:一是基于兩兩比較的排序模型,即 學習排序(!^1']1;[1^-1:0-抑1110,然后用模型的輸出直接作為排序得分 ;二是訓練有監督的 分類模型,即邏輯回歸(Logistic Regression,LR)、支持向量機(Support Vector Machine,SVM)等,然后利用模型的概率輸出置信得分作為排序得分。以第二種方式為例,模 型訓練過程描述如下:
[0036] 輸入:問題答案集合Q_A= {qi-ai,q2_a2,…,qn_an},標記值集合T = {tl,t2,…, tn},分類算法及其相關參數
[0037]輸出:訓練好的答案排序模型 [0038]過程:
[0039] 步驟al:對Q-A集合的問題答案句子對抽取特征如:詞匹配特征,基于翻譯的特征, 基于主題的特征。抽取的特征描述如下:
[0040] (1)、詞匹配特征:該特征記錄了問題和答案句子中共同出現的詞的比例,以Qi-Ai 對為例,該特征采用了以下5種度量方法:
(4)
[0042] 其中|Qi|,|心|分別表示問題和答案中不重復詞的數量。
[0043] (2)、基于翻譯的特征:該特征將問題和答案相關性看作是統計機器翻譯問題,即 給定答案^,問題&出現的概率值P(Qi | A〇。具體的計算方法如下: (5) (6)
(7)
[0047] 其中P^lAd表示問題&中詞w從答案M生成的概率,0是平滑參數,C表示問答語料 庫,P ml(w|C)可以通過最大似然計算,PdwlAi)通過訓練數據計算得到,P(w|a)表示從^中 的詞&到&中詞w的翻譯概率。
[0048] (3)、基于主題的特征:該特征使用LDA主題模型來訓練問題和答案的主題向量,然 后計算兩個主題向量的余弦值。
[0049] 步驟a2:初始化分類器參數,將抽取的特征和標記值T輸入分類器,訓練分類器模 型。
[0050] 本發明的第二步采用快速信息檢索方法(即TFIDF、BM25),從問答知識庫中檢索出 大量與用戶問題相關的候選問題集合(包含噪聲)。
[00511本發明的第三步利用構建的答案排序模型分別對用戶問題Q0和相關問題Qi的同一 答案集4=以1^2,-111}進行排序,11為答案集4中答案的數量,得到排序結果得分為5 0 = {S01,S02,…,SOn}和 Sl= {sil,S12,…,Sin} 0
[0052]本發明的第四步是在第三步得到的排序結果SdPSi上計算這兩個排序的相關系 數,采用斯皮爾曼(Spearman)、皮爾森(Pearson)、肯德爾(Kendall)這三種常用相關系數, 如下:
[0053] (1)、斯皮爾曼相關系數:評估兩個得分排序結果是否能用單調函數很好的描述出 來,輸出值在1和-1之間,正數表示正相關,負數表示負相關,值越大表示越相關,計算方法 如下:
(1)
[0055] 其中,di表示先將得分So和Si轉化為排序Ro = {roi,r〇2,…,r〇n}和Ri = {rii,ri2,…, rin},然后計算roi-rii的值。
[0056] (2)、皮爾森相關系數:評估兩個得分排序結果是否線性相關,1表示正相關,0表示 不相關,1表示負相關,計算方法如下,
(2)
[0059] (3)、肯德爾相關系數:評估兩個得分排序結果是否序相關,計算方法如下:

[0061 ] 假如,對于所有的得分s〇i和Sli都是唯一的,如果SQihi且SQjhj或者soihlsoK sij,那么得分對(SQi,Sli)和(SQj,sij)是一致的(concordant pairs),反之是不一致的 (disconcordant pairs)。
[0062] 最終,本發明第五步中將得到的相關系數直接作為用戶問題和相關問題的相似度 得分,或者加入到問題相似度特征集合中,常用的問題相似度特征有詞匹配、基于翻譯和基 于主題的特征等,計算方法與在Q-A對上的計算方式一樣,使用這些特征來訓練分類器,然 后將分類器的概率輸出置信得分作為用戶問題和相關問題的相似度得分。
[0063] 表1 一個包含相似問題與它們各自答案集的相關排序的示例表
【主權項】
1. 一種利用答案相關性排序的評估度量來計算問題相似度的方法,其特征在于,該方 法包括如下步驟: 步驟一:在CQA問答知識庫中已有問題-答案排序信息的訓練數據集上學習有監督的答 案排序模型; 步驟二:采用快速信息檢索方法,從問答知識庫中檢索出與用戶問題相關的候選問題 集合,其中包含噪聲問題; 步驟三:根據構建的答案排序模型計算分別得到用戶問題和各個相關候選問題針對同 一答案集的相關性排序; 步驟四:計算相關性排序的評估度量,即斯皮爾曼、皮爾森和肯德爾相關系數; 步驟五:得到的相關系數直接作為用戶問題和相關問題的相似度得分;或者加入到問 題相似度特征集合中來訓練分類器,然后將分類器輸出的概率置信得分作為用戶問題和相 關問題的相似度得分。2. 如權利要求1所述的方法,其特征在于,所述步驟一中的訓練數據集上學習有監督的 答案排序模型,包括如下步驟: 步驟al:從問答知識庫中抽取已有的問題-答案對,根據用戶對不同答案的評分,給予 對應的問題-答案對不同的標簽,構建訓練數據集; 步驟a2:在訓練數據集上采用機器學習模型學習出有監督的答案排序模型;其中,所述 機器學習模型為邏輯回歸或支持向量機。3. 如權利要求1所述的方法,其特征在于,所述步驟二中從問答知識庫中檢索出與用戶 問題相關的候選問題集合,包括如下步驟: 步驟bl:采用快速信息檢索方法,以用戶問題為查詢內容,在問答知識庫中進行查詢檢 索;其中,所述快速信息檢索方法為TFIDF或BM25; 步驟b2:返回的結果作為與用戶問題相關的候選問題集合,其中包含噪聲問題。4. 如權利要求1所述的方法,其特征在于,所述步驟三中計算分別得到用戶問題和各個 相關候選問題針對同一答案集的相關性排序,包括如下步驟: 步驟cl:使用步驟一中已訓練的答案排序模型,計算用戶問題與候選問題集的各個答 案的相關得分進行相關性排序; 步驟c2:使用步驟一中已訓練的答案排序模型,計算相關問題與候選問題集的各個答 案的相關得分進行相關性排序。5. 如權利要求1所述的方法,其特征在于,所述步驟四中計算相關性排序的評估度量, 包括如下步驟: 步驟dl:選擇評估排序的度量,即斯皮爾曼、皮爾森和肯德爾相關系數; 步驟d2:針對步驟三得到的相關性排序,計算各個排序相關系數的值。6. 如權利要求1所述的方法,其特征在于,所述步驟五中用戶問題和相關問題的相似度 得分包括如下步驟: 步驟e 1:將計算得到的相關系數值直接作為用戶問題和相關問題的相似度得分; 步驟e2:將計算得到的相關系數值加入到問題相似度特征集合中,訓練分類器,然后將 分類器輸出的概率置信得分作為用戶問題和相關問題的相似度得分。
【文檔編號】G06F17/30GK105893523SQ201610194522
【公開日】2016年8月24日
【申請日】2016年3月31日
【發明人】蘭曼, 吳國順
【申請人】華東師范大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1