日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

一種基于雙綴過濾的大數據相似性連接方法

文檔序號:9911124閱讀:776來源:國知局
一種基于雙綴過濾的大數據相似性連接方法
【技術領域】
[0001] 本發明屬于數據挖掘技術領域,具體涉及一種基于雙綴過濾的大數據相似性連接 方法。
【背景技術】
[0002] 隨著大數據時代到來,針對互聯網存在的大量數據,并不是所有的數據都是有用 的信息,從大量數據中提取有用的數據信息處理技術越來越火。將不同來源的數據正確地 集成在一起,利用數據挖掘技術,挖掘并分析其中巨大的價值。相似性連接技術 (Similarity Join)已經成為了一種必不可少的數據集成清洗方法。相似性連接區別于等 值連接,通過計算兩條記錄的相似度,將滿足閾值條件的記錄對連接在一起。目前,相似性 連接技術主要分為兩個階段,分別為過濾階段和確認階段,不同的相似性連接技術的不同 之處主要體現在過濾階段,通過不同的過濾規則對一定不滿足相似度閾值的記錄對進行過 濾,提高相似性連接效率。而在確認階段則是對不能直接過濾掉的,也就是可能滿足閾值條 件的記錄對進行計算,得到最終的相似記錄對,完成相似連接。在已有的相關文獻中,提出 了針對有序記錄進行前綴過濾的解決方案,即將記錄中的所有元素按照某種序進行排序, 通過計算公式,計算前綴長度并獲取前綴,建立倒排索引,同一個元素的倒排索引中的所有 記錄成為相互的候選記錄。在過濾階段也會使用一些其他技術,例如利用不同記錄的長度 進行過濾,利用記錄中元素的位置進行過濾。

【發明內容】

[0003] 本發明的目的在于提供一種基于雙綴過濾的大數據相似性連接方法。
[0004] 本發明的技術方案是:
[0005] -種基于雙綴過濾的大數據相似性連接方法,包括以下步驟:
[0006] 步驟1:提取不同數據源的文本格式數據,得到待清洗的實體記錄;
[0007] 步驟2:詞頻統計:對實體記錄中的元素進行詞頻統計并對實體記錄中的元素按詞 頻升序排序;
[0008] 步驟3:將實體記錄前綴中的每一個元素作為該實體記錄的索引,對實體記錄建立 倒排索引表;
[0009] 步驟4:對同一個索引內的實體記錄對進行雙綴過濾相似性連接,得到相似度大于 相似度閾值的實體記錄對,實現分布式計算。
[0010] 步驟4-1:對同一個索引內的實體記錄對進行雙綴過濾相似性連接:對升序排序的 實體記錄計算前綴長度,將實體記錄分為前綴和后綴,利用前后綴中元素的位置信息計算 實體記錄對的相似度上限值,并將相似度上限值與相似度閾值進行比較,保留相似度上限 值大于相似度閾值的實體記錄對,實現過濾;
[0011]步驟4-2:對保留的實體記錄對計算相似度,得到相似度值大于相似度閾值的實體 記錄對,完成基于雙綴過濾的大數據相似性連接。
[0012] 有益效果:
[0013] 本發明利用實體記錄對中前后綴中元素位置信息實現過濾,極大地降低了候選集 合的大小,針對不同大小的數據源以及不同閾值的情況,雙綴過濾可以達到良好的時間效 果。并且雙綴過濾可以實現面向大數據的分布式計算,可以將其應用于分布式計算中,提高 大數據清洗效率。
【附圖說明】
[0014] 圖1為本發明的基于雙綴過濾相似性連接的大數據清洗應用示意圖;
[0015] 圖2為本發明【具體實施方式】的雙綴過濾第1種情況;
[0016] 圖3為本發明【具體實施方式】的雙綴過濾第2種情況;
[0017] 圖4為本發明【具體實施方式】的雙綴過濾第3種情況;
[0018] 圖5為本發明【具體實施方式】的記錄排序并獲取記錄前綴;
[0019] 圖6為本發明【具體實施方式】的分布式雙綴過濾示意圖;
[0020] 圖7為本發明【具體實施方式】的一種基于雙綴過濾的大數據相似性連接方法流程 圖。
【具體實施方式】
[0021] 下面結合附圖對本發明的【具體實施方式】做詳細說明。
[0022] 目前,企業面對激增的數據,其需求往往是從海量異構不確定數據集中尋找有用 的具有分析價值的數據。相似連接技術是指在一個或多個數據源中尋找滿足相似度定義的 數據,以用來進行數據清洗及數據集成等操作,例如,社交網絡會根據用戶興趣愛好以及好 友關系從眾多虛擬網絡人群中推薦部分用戶作為好友;知識產權檢測會從世界上大量不同 的數據庫中對論文進行相似查詢等;一些用戶需要檢測集成過程中出現的不同機構在真實 情況下是否是同一個機構,如檢索到東北大學,就需要檢測該學校是中國、日本還是美國 的;解決這些問題需要用到相似連接技術或者相似查詢技術?;陔p綴過濾相似性連接的 大數據清洗應用如圖1所示。
[0023] 作為實現實體識別(Entity Recognition)的一種重要方法,相似連接技術通過將 相似的記錄進行聚集來達到發現相似實體的目的。在數據清洗集成中,針對不同數據源的 實體記錄,根據已知相似度計算函數對記錄對進行相似度計算,得到滿足相似度閾值的記 錄對。對滿足相似度閾值的記錄進行相似連接之后,利用現有技術中依據實體的相似度構 建成圖,在子圖的基礎上,實現相關應用。
[0024] -種基于雙綴過濾的大數據相似性連接方法,如圖7所示,包括以下步驟:
[0025] 步驟1:提取不同數據源的文本格式數據,得到待清洗的實體記錄;
[0026] 步驟2:詞頻統計:對實體記錄中的元素進行詞頻統計并對實體記錄中的元素按詞 頻升序排序;
[0027] 詞頻統計的目的是為了計算實體記錄的前綴長度,有序的實體記錄是雙綴過濾的 計算的前提。對所有實體記錄進行分詞(對記錄按照語義進行拆分),分詞將每條實體記錄 拆分成多個元素,對元素進行詞頻統計,根據詞頻對元素進行升序排列,形成記錄的集合。
[0028] 步驟3:將實體記錄前綴中的每一個元素作為該實體記錄的索引,對實體記錄建立 倒排索引表;
[0029] 如圖5所示,序G是所有記錄經過分詞產生的并且依據詞頻由低到高的順序排列的 元素列表,如id為1的記錄,經過排序之后變為03,〇3^},經過重新排序的記錄,依據定 義的相似度函數來計算前綴長度,假設使用Jaccard相似度,設閾值t為0.8,那么該記錄的 前綴長度為2,該記錄可以形成分別以A和B為key的兩條索引。
[0030] 步驟4:對同一個索引內的實體記錄對進行雙綴過濾相似性連接,得到相似度大于 相似度閾值的實體記錄對,實現分布式計算。
[0031] 步驟4-1:對同一個索引內的實體記錄對進行雙綴過濾相似性連接:對升序排序的 實體記錄計算前綴長度,將實體記錄分為前綴和后綴,利用前后綴中元素(token)的位置信 息計算實體記錄對的相似度上限值,并將相似度上限值與相似度閾值進行比較,保留相似 度上限值大于相似度閾值的實體記錄對,實現過濾;
[0032] 選取相似度度量函數,給定兩條記錄s和r,定義相似度函數為sim(S,r)。
[0033] 相似度函數一般具有以下性質:
[0034] (1 )0 < sim(s ,r) < 1
[0035] (2)sim(s,r)=sim(r,s)
[0036] 當8;[1]1(8,1')=0時表示,兩條實體記錄的相似度為0,表示兩條實體記錄是不相似 實體記錄對。
[0037] 當sim(S,r) = l時表示兩條實體記錄是完全相似,可表示同一實體的兩條記錄。
[0038] 當0<sim(S,r)<l時,表示兩條實體記錄相似,相似度函數值越大,越相似,相似 度函數值越小,越不相似。
[0039] 對記錄進行分詞即可得到記錄相對應的集合,那么對于集合S和集合R而言,不同 相似度函數
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1