一種數據流相似性的連接方法與流程

文檔序號：12470115閱讀：532來源：國知局

本發明涉及數據管理技術領域，尤其涉及一種數據流相似性的連接方法。

背景技術：

Melody-Join策略為基于地球移動距離(英文：Earth Mover’s Distance，簡稱EMD)距離的相似性查詢設計了高效的索引構建策略。先通過特征向量將高維數據元組映射到為一維直方圖，然后對映射得到的一維的直方圖構建累積分布函數(CDF)，再通過近似估計把CDF轉化為正態分布，之后把得到的正態分布通過霍夫變換轉化得到二維空間的數據點。以上過程將高維數據元組轉換為二維空間的數據點。Melody-Join之后便可在二維空間上構建網格索引并推導出各個網格中的數據元組和查詢對象之間的EMD距離的下界值，基于該下界值過濾無關數據元組。

此外，TBI策略(Tree-Based Indexing策略)也為基于EMD距離的相似性查詢設計了高效的索引結構。基于EMD距離對偶線性規劃問題的一組可行解可以將高維數據元組映射為一維實數值，然后基于該一維映射空間構建一個B+樹索引。給定L組可行解因此可以同時構建L棵B+樹索引，構成一個B+樹森林。已證明和查詢對象q之間EMD距離接近的數據元組在B+樹索引上的鍵值必然落于一個鍵值區間(參見本文公式(1))。因此基于該鍵值區間對每棵B+樹進行范圍查詢都可得到該q的一個查詢候選集，多棵B+樹索引返回的查詢候選集的并集即是q的約簡的查詢候選集。之后再基于一系列EMD距離的上界或下界函數對該查詢候選集中的數據對象進行過濾，之后便可得到查詢對象q最終的相似性查詢的查詢結果。

Melody-Join方案在將高維數據元組轉換為二維空間中數據點的過程中需要多次映射和變換，需要基于采樣數據進行聚類等復雜操作才能得到較好的映射所用的向量，因此該轉化過程給系統帶來了不可小視的開銷。數據流上數據快速到達，數據分布多變，不可能基于一部分數據聚類便可得到適用于所有數據的較好的映射向量，因而Melody-Join方案不適用于應用于為數據流上的數據構建索引。

TBI方案不是針對于動態的數據流環境而是相對靜態的數據庫環境所構建的，因此在建立索引時給數據庫中的所有數據統一構建了一個大的B+樹森林索引。這種方案不適用于數據流環境，因為：首先，數據流上的數據是源源不斷到達系統的，不可能在系統中構建一個大索引組織所有的數據，因此要定期根據滑動窗口的語義刪除掉一些過期的數據索引，然而如果頻繁的在大索引結構上進行過期數據的刪除，會帶來巨大的索引維護開銷(例如要頻繁調整B+樹的平衡性)，降低系統的處理效率，因此亟待需要設計針對數據流環境下的輕量級的索引；其次，數據流上的數據可能存在亂序到達系統的現象，需要在設計輕量級索引結構的同時慎重考慮過期數據的刪除策略，確保未來查詢結果的正確性和完整性。

公開于該背景技術部分的信息僅僅旨在增加對本發明的總體背景的理解，而不應當被視為承認或以任何形式暗示該信息構成已為本領域一般技術人員所公知的現有技術。

技術實現要素：

技術問題

有鑒于此，本發明要解決的技術問題是，如何提供一種高效的數據流相似性的連接方法。

解決方案

為解決以上技術問題，本發明在第一方面提供一種數據流相似性的連接方法，包括：

根據預設時間跨度值P在數據流R上構建B+樹森林集合索引；

當所述數據流R和所述數據流S上的數據元組的時間戳在當前滑動窗口的時間范圍內時，基于所述B+樹森林集合索引，進行滑動窗口語義下基于EMD距離的所述數據流R和所述數據流S之間的相似性連接。

在一種可能的實現方式中，所述根據預設時間跨度值P在數據流R上構建B+樹森林集合索引包括：

根據預設時間跨度值P把時間域劃分為T個互相不重疊的時間區間，T大于等于1；

為所述R數據流上每個所述時間區間內達到的所述數據元組構建一個R數據流B+樹森林索引，得到所述R數據流所述時間域上T個B+樹森林索引，所述T個B+樹森林索引構成所述R數據流的B+樹森林集合索引。

在一種可能的實現方式中，在根據預設時間跨度值P在數據流R上構建B+樹森林集合索引之后，還包括：

當所述B+樹森林集合索引中所包含的數據元組的個數大于等于c*P的值且F_active.maxTime-F_active.minTime>＝P時，新建一個B+樹森林索引F_new，并將所述B+樹森林索引F_new設定為當前的活躍索引F_active；

其中，F_active.maxTime為當前活躍索引所維護的數據元組的最大時間戳，F_active.minTime為當前活躍索引所維護的數據元組的最小時間戳，c為預設的B+樹森林索引的容量系數。

在一種可能的實現方式中，在基于所述數據流R上的B+樹森林集合索引，進行滑動窗口語義下基于EMD距離的所述數據流R和所述數據流S之間的相似性連接之前，還包括：

當接收到所述數據流S上的數據元組s之后，計算所述B+樹森林集合索引中的每個所述時間區間上構建的B+樹森林索引Fi中數據元組的最小時間戳和所述元祖s的時間戳之間的差值；

當所述差值大于所述滑動窗口大小和最大網絡延遲D之和時，則可安全刪除所述B+樹森林索引F_i，因為由于滑動窗口的限制F_i中的數據元組不會和未來S上新到達的數據元組進行比較連接。

在一種可能的實現方式中，還包括：設置所述預設時間跨度值

其中，|W|為所述滑動窗口大小。

在一種可能的實現方式中，所述基于所述B+樹森林集合索引，進行滑動窗口語義下基于EMD距離的所述數據流R和所述數據流S之間的相似性連接，包括：

基于所述數據流S中的數據元組s_i的時間戳，從B+樹森林集合F中找到時間跨度區間和所述數據元組si要查詢的時間滑動窗口有交集的所述B+樹森林集合F’；

當所述B+樹森林集合F中的B+樹森林Fj∈F’滿足si.timestamp-Fj.maxTime≤|W|時，返回Fj中和si間的EMD距離不大于θ的且時間戳落在si的滑動窗口范圍內的所述R數據流上的數據元組R’{rj}和元組s_i構成的相似性連接結果元組對<r_j,s_i>，將所述元組對<r_j,s_i>存入結果集RS_i。

在一種可能的實現方式中，所述Fj中和si間的EMD距離不大于θ的所述R數據流上的數據元組R’{rj}包括：滿足公式1規定的區間范圍的數據元組R'{rj}，所述公式1規定的區間范圍為[min(Ф_l)+key(s,Ф_l)-θ,θ-ckey(s,Ф_l)]，

min(Ф_l)是和EMD距離對偶線性規劃問題的可行解Ф_l相關的實數，key(s,Ф_l)是s基于可行解Ф_l計算得到的鍵值，ckey(s,Ф_l)是s基于可行解Ф_l計算得到的反鍵值。

在一種可能的實現方式中，在返回Fj中和si間的EMD距離不大于θ的所述R數據流上的數據元組R’{rj}和結果元組對<r_j,s_i>之前，還包括：

如果數據元組r_j和數據元組s_i之間EMD距離的上界值小于或等于相似性閾值θ，則將所述元組對<r_j,s_i>存入結果集RS_upperbound。

在一種可能的實現方式中，在返回F_j中和s_i間的EMD距離不大于θ的所述R數據流上的數據元組R’{rj}和元組對<r_j,s_i>之前，還包括：

如果數據元組r_j和數據元組s_i之間EMD距離的下界值大于相似性閾值θ，則將刪除數據元組r_j，r_j不再和s_i進行后續的相似性比較。

在一種可能的實現方式中，所述進行滑動窗口語義下基于EMD距離的所述數據流R和所述數據流S之間的相似性連接包括：將所述結果集RS_i和所述結果集RS_upperbound的并集作為所述相似性連接的結果。

有益效果

本發明提供的一種數據流相似性的連接方法，通過根據預設時間跨度值P在數據流R上構建B+樹森林集合索引；當所述數據流R和所述數據流S上的數據元組的時間戳在當前滑動窗口的時間范圍內時，基于所述B+樹森林集合索引，進行滑動窗口語義下基于EMD距離的所述數據流R和所述數據流S之間的相似性連接，能夠基于B+樹森林集合索引設計數據流上基于滑動窗口語義和EMD距離的相似性連接方法，為滑動窗口語義下基于EMD距離的數據流相似性連接查詢提出了解決方案，顯著提高了相似性連接的處理效率和性能。

本發明實施例提供的一種數據流相似性的連接方法，針對數據流環境，為數據流上基于EMD距離的相似性分析設計了高效的索引結構，即B+樹森林集合索引，以及該索引結構的維護方法。

本發明實施例提供的一種數據流相似性的連接方法，結合了數據流達到速率快，數據連續無止境到達的特點，將大索引分解成不同時間區間上的小索引，因此過期數據可以以索引為基本粒度進行一次刪除，這樣避免了由于數據過期而對單一B+樹索引結構進行反復刪除數據元組帶來B+樹平衡性不斷進行調整而帶來的索引維護開銷。

本發明實施例提供的一種數據流相似性的連接方法，給出了如何確定每個B+樹森林的時間區間跨度P的最優值的方法。

根據下面參考附圖對示例性實施例的詳細說明，本發明的其它特征及方面將變得清楚。

附圖說明

包含在說明書中并且構成說明書的一部分的附圖與說明書一起示出了本發明的示例性實施例、特征和方面，并且用于解釋本發明的原理。

圖1示出本發明實施例提供的一種數據流相似性的連接方法的流程圖；

圖2示出數據流R上的B+樹森林集合索引維護B+樹森林索引的示意圖；

圖3示出B+樹索引構成B+樹森林索引的示意圖；

圖4示出本發明另一實施例提供的一種數據流相似性的連接方法的流程圖。

具體實施方式

下面結合附圖，對本發明的具體實施方式進行詳細描述，但應當理解本發明的保護范圍并不受具體實施方式的限制。

為使本發明實施例的目的、技術方案和優點更加清楚，下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例是本發明一部分實施例，而不是全部的實施例。基于本發明中的實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都屬于本發明保護的范圍。除非另有其它明確表示，否則在整個說明書和權利要求書中，術語“包括”或其變換如“包含”或“包括有”等等將被理解為包括所陳述的元件或組成部分，而并未排除其它元件或其它組成部分。

在這里專用的詞“示例性”意為“用作例子、實施例或說明性”。這里作為“示例性”所說明的任何實施例不必解釋為優于或好于其它實施例。

另外，為了更好的說明本發明，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對于本領域技術人員熟知的方法、手段、元件未作詳細描述，以便于凸顯本發明的主旨。

實施例1

本發明實施例給定兩個數據流R和S，每個數據流均由基本形式為r_i＝(r,time)、s_j＝(s,time)的數據元組(Tuple)構成，其中r＝(r₁,...r_n)是包含n個數據桶的直方圖記錄，time為該產生該直方圖記錄的時間戳。給定相似性閾值θ和滑動窗口大小|W|，本發明實施例返回一系列元組對的集合，即{<r_i,s_j>}，其中r_i∈R，s_j∈S，且滿足滑動窗口時間限制|r_i.timestamp-s_j.timestamp|≦|W|和基于EMD距離的相似度限制EMD(r_i,s_j)≦θ。相關符號的含義詳見表1。

表1

圖1示出本發明實施例提供的一種數據流相似性的連接方法的流程圖，如圖1所示，該方法可以包括：

步驟S1、根據預設時間跨度值P在數據流R上構建B+樹森林集合索引。

基于L組EMD距離對偶線性規劃問題的可行解，記為{Φ₁，...,Φ_L}，將數據流R上的每一個元組分別映射至L個一維實數鍵值映射空間，記為{Ω₁,...,Ω_L}(映射函數f：給定任意一組EMD距離對偶線性規劃問題的可行解，記為Φ＝{φ₁，...，φ_n}和Π＝{π₁，...，π_n}，通過計算數據流上數據元組r＝{r1,…,rn}的鍵值，即即可將該數據元組映射至一維實數鍵值空間Ω中)。

在一種可能的實現方式中，本步驟可以包括根據預設時間跨度值P把時間域劃分為T個互相不重疊的時間區間，T大于等于1。為所述R數據流上每個所述時間區間內達到的數據元組構建一個R數據流B+樹森林索引，得到所述R數據流所述時間域上T個B+樹森林索引，所述T個B+樹森林索引構成所述R數據流的B+樹森林集合索引。

在一種可能的實現方式中，可以設置所述預設時間跨度值其中，|W|為所述滑動窗口大小。為了有效降低滑動窗口檢查時所訪問的B+樹森林的個數和所訪問的B+樹森林中的數據元組個數之和，從而提高查詢處理的效率，可證明當B+樹森林的時間跨度值時，可以使得滑動窗口合法性檢查時所訪問的B+樹森林的個數和所訪問的B+樹森林中的數據元組的個數之和達到最優，從而有效降低系統查詢處理在進行數據元組滑動窗口檢查時的索引訪問的開銷。

此外，本發明實施例還可以包括隔一段時間統計一下各個B+樹森林所包含的數據元組的平均個數n，基于n可以得到B+樹森林索引的容量系數為c，即c＝n/P_actual，其中P_actual為B+樹森林的實際時間跨度值。基于更新后的c值和公式即可以計算并更新P值，以便構建和維護新的B+樹森林時使用。

圖2示出數據流R上的B+樹森林集合索引維護B+樹森林索引的示意圖，如圖2所示，數據流R上的B+樹森林集合索引維護了T＝6個B+樹森林索引，該T＝6個B+樹森林索引即{F1,…,F6}，每個B+樹森林負責組織一個時間區間內的數據元組。擁有最新時間戳元組的B+樹森林索引被稱為活躍索引(Active Index)，記為F_active，如圖2中F_active＝F6，F6就是當前的活躍索引。

每個時間區間的B+樹森林索引由L棵B+樹索引構成。每個B+樹索引基于一個一維實數鍵值映射空間，即Ω_l，來組織R數據流上所有在該時間區間內達到的數據元組。

圖3示出B+樹索引構成的B+樹森林索引的示意圖，如圖3所示，以L＝2為例，展示了一個由兩棵B+樹索引(即T₁和T₂)構成的B+樹森林索引。假設有2組EMD距離對偶問題的可行解Ф1和Ф2和16個數據流R上的數據元組{r1,r2,…,r16}。基于可行解Ф1和Ф2可以將每個元組分別映射到兩個一維實數空間Ω1和Ω2，在每個實數空間都可以構建一棵B+樹索引，即得到T1和T2，這兩棵B+樹用自己的方式來組織這16個數據元組。注意：每個B+樹索引的葉子節點中僅存放每個數據元組在內存中的地址。

步驟S2、當所述數據流R和所述數據流S上的數據元組的時間戳在當前滑動窗口的時間范圍內時，基于所述B+樹森林集合索引，進行滑動窗口語義下基于EMD距離的所述數據流R和所述數據流S之間的相似性連接。

本步驟具體可以包括：首先基于s_i的時間戳對B+樹森林集合F進行滑動窗口合法性檢查，即從F中找到時間跨度區間和si要查詢的時間滑動窗口有交集的所有B+樹森林集合，記為F’。該集合中的每個B+樹森林Fj∈F’需滿足si.timestamp-Fj.maxTime≤|W|的條件限制(參見算法2：行7-8)。然后以si為查詢、θ為相似性閾值在F’中每個B+樹森林F_j上執行基于EMD距離的相似性搜索(參見算法2：行9)，返回Fj中和si間的EMD距離不大于θ且時間戳落在si的滑動窗口范圍內的所有R數據流上的元組，設為R’{rj}，并將每個元組對<rj,si>，rj∈R’作為相似性連接的結果對返回(算法2：行10)。

表2

其中，以si為查詢、θ為相似性閾值在F’中每個B+樹森林Fj上執行基于過濾鏈的相似性搜索(算法2：行9)的具體執行過程詳見算法3，具體步驟如下：

對于Fj∈F’，檢查其中的每個數據元組r_k是否滿足查詢si的滑動窗口條件限制，即檢查|r_k.timestamp-s_i.timestamp|≤|W|是否成立，若成立則進一步檢驗r_k是否滿足B+樹森林索引過濾條件，即看r_k是否同時存在于Fj中各個B+樹索引返回的查詢候選集中，即滿足r_k∈rangeQuery(s_i,θ,F_j)。如果以上兩個條件均滿足，即可將r_k放入查詢候選集candidate中(參見算法3：行2-3)。

根據數據流上相鄰數據間往往相似程度比較大的特點，基于每一次真實EMD計算過程中新產生的可行解Ф_new和公式1對si的查詢候選集candidate中的無關數據進行進一步過濾(算法3：行4-5)。

所述公式1規定的區間范圍為

[min(Ф_l)+key(s,Ф_l)-θ,θ-ckey(s,Ф_l)] (1)

具言之，B+樹森林索引可以過濾掉對無關數據的訪問和連接條件的判斷，大大提高查詢處理的執行效率。給定基于可行解Ф_l構建的B+樹索引，已證明對于給定的數據流S上的任意一個數據元組s和用戶給定的相似性閾值θ，則和s之間的EMD距離不大于θ的R上的元組r(即能和s連接上的元組r)，其在B+樹上的一維鍵值key(r,Ф_l)的取值必落在以下公式1規定的鍵值區間。因此基于公式1所示的區間在B+樹上進行一次范圍查詢即可以返回一個約簡過的s的查詢候選集。因為B+樹森林中的每棵B+樹都可以返回一個約簡的查詢候選集，這些查詢候選集的交集是進一步約簡的s的查詢候選集。例如圖3中的B+樹T1返回的查詢候選集(已用虛線框標明)為{r6,r7,r11,r12}，B+樹T2返回的查詢候選集為{r5,r6,r7,r8,r12,r13}，因而查詢s的約簡后的查詢候選集在此例為{r6,r7,r12}。

基于EMD距離的下界函數LB_IM對上一步驟得到的si的約簡后的查詢候選集candidate中的每個元組進行判斷和過濾，得到進一步約簡的查詢候選集candidate(詳見算法3：行6-8)。

基于EMD距離的上界函數UB_p上一步驟得到的si的約簡后的查詢候選集candidate中的每個數據進行判定，若candidate中的元組rj和si之間EMD距離的上界值已經小于或等于相似性閾值θ，則將<rj,si>作為相似性連接的結果對插入結果集RS_upperbound，同時將rj從candidate中刪除(詳見算法3：行9-12)。

對于candidate中經過上一步驟還未能過濾掉的數據元組rj，計算其到si之間的EMD距離，若該EMD距離值小于等于相似性閾值θ，則將<rj,si>作為相似性連接的結果對插入結果集RS中，同時將EMD距離計算過程中新產生的一組EMD距離對偶線性規劃問題的可行解保存下來以供算法3第4-5行新可行解過濾所用(詳見算法3：行13-16)。

將數據元組si從緩存ca中刪除(詳見算法3：行17)。

將結果集RS和RS_upperbound取并集，該并集就是數據元組si∈S和數據流R上相應滑動窗口內的數據元組的進行基于EMD距離的相似性連接的操作結果(詳見算法3：行18)。

表2

本發明實施例提供的一種數據流相似性的連接方法，基于所提出的B+樹森林集合索引設計了數據流上基于滑動窗口語義和EMD距離的相似性連接方法，顯著提高了相似性連接的處理效率和性能。

本發明實施例提供的一種數據流相似性的連接方法，給出了如何確定每個B+樹森林的時間區間跨度P的最優值的方法。

實施例2

圖4示出本發明另一實施例提供的一種數據流相似性的連接方法的流程圖，在圖4中與圖1采用相同附圖標記的步驟，均與圖1適用于相同的文字說明，在此不再贅述。

如圖4所示，在步驟S1之后還包括步驟S3、當所述B+樹森林集合索引中所包含的數據元組的個數大于等于c*P的值且F_active.maxTime-F_active.minTime>＝P時，新建一個B+樹森林索引F_new，并將所述B+樹森林索引F_new設定為當前的活躍索引F_active；其中，F_active.maxTime為當前活躍索引所維護的數據元組的最大時間戳，F_active.minTime為當前活躍索引所維護的數據元組的最小時間戳，c為預設的B+樹森林索引的容量系數。

具言之，每個B+樹森林Fi都維護其所包含的數據元組中的最小的時間戳(即最舊的時間戳)，記為Fi.minTime；和其所包含的數據元組中的最大的時間戳(即最新的時間戳)，記為Fi.maxTime。如果不存在數據流的亂序到達問題(即時間戳新的元組反而在時間戳舊的元組之后到達查詢系統的現象)，數據流R上每個新到達的數據r被插入到當前的活躍索引中(例如圖2中的F6)，同時更新當前活躍索引所維護的F_active.maxTime值和F_active.minTime值。設B+樹森林索引的容量系數為c，B+樹森林的時間跨度值為P，則僅當活動索引中所包含的數據元組的個數大于等于c*P值且F_active.maxTime-F_active.minTime>＝P時，系統會新建一個B+樹森林索引F_new，并將其設定為當前的活躍索引F_active。(參見算法1：行1-2、行6-9。)

此外，步驟S1之后還可以包括步驟S4、當接收到所述數據流S上的數據元組s之后，計算所述B+樹森林集合索引中的每個所述時間區間上構建的B+樹森林索引F_i中數據元組的最小時間戳和所述元祖s的時間戳之間的差值；當所述差值大于所述滑動窗口大小和最大網絡延遲D之和時，則可安全刪除所述B+樹森林索引F_i，因為由于滑動窗口的限制Fi中的數據元組不會和未來S上新到達的數據元組進行比較連接。

具言之，當一個數據流S上的元組s到達查詢處理系統(算法1：行11)，元組s被插入至內存中的緩存隊列ca中(算法1：行12)。系統之后會檢查B+樹森林集合索引中的每個時間區間上構建的B+樹森林索引Fi中元組的最小時間戳(即最早到達的元組的時間戳)和s的時間戳之間的差值，即s.timestamp-Fi.minTime，如果該差值大于窗口大小和最大網絡延遲D之和，即大于|W|+D，則表示Fi中的數據元組的時間太舊，在滑動窗口語義限制下不會和未來到達系統的S數據流上的元組進行連接，故此時可以安全地從內存中刪除該B+樹森林索引Fi(參見算法1：行14-15)。

表3

如果存在數據流的亂序到達問題，設亂序到達的數據元組的r的時間戳為r.timestamp，則可以證明目前系統中肯定維護有一個B+樹森林索引Fi，該索引的時間跨度包含r的時間戳r.timestamp，則將r插入到該B+樹森林索引Fi中，(參見算法1：行3-5)。

本發明實施例提供的一種數據流相似性的連接方法，為滑動窗口語義下基于EMD距離的數據流相似性連接查詢提出了解決方案。

本發明實施例提供的一種數據流相似性的連接方法，結合了數據流達到速率快，數據連續無止境到達的特點，將大索引分解成不同時間區間上的小索引，因此過期數據可以以索引為基本粒度進行一次刪除，這樣避免了由于數據過期而對單一B+樹索引結構進行反復刪除帶來B+樹平衡性不斷進行調整而帶來的索引維護開銷。

本發明實施例提供的一種數據流相似性的連接方法，針對數據流上的數據亂序到達的現象設計了合理高效的內存數據過期刪除策略，能保證相似性連接操作結果的完整性。

與現有的Melody-Join和TBI方案相比，本發明實施例具有以下優點：

本發明實施例和Melody-Join雖然都需要將高維數據降維映射至低維空間然后構建索引。然而，本方案的降維映射只需要獲得一組EMD距離對偶線性規劃問題的可行解，該可行解可以在計算任意兩個數據對象之間的EMD距離的過程中順帶產生，因此更快捷方便。Melody-Join在獲得降維映射向量時則需要基于數據集進行復雜度較高的聚類操作，因而不適用于數據動態變化快速到達的流式計算環境。

Melody-Join和TBI只是針對相對靜態的數據庫環境構建一個大索引。如本文第四節所指出，該方案用于數據流上過于笨重，當有數據頻繁需要從索引刪除時增大了索引的維護代價，影響了系統性能。而本文提出的方案結合數據流的動態變化的特點設計了輕量級高效的基于不同時間區間的子索引結構，在滑動窗口語義下可以以子索引為粒度刪除過期數據，避免了從索引結構中刪除數據元組，因而提高了索引的維護性能和開銷。

本發明實施例結合數據流上數據可能亂序到達的特點，在設計輕量級索引結構的同時結合最大網絡延遲D慎重考慮過期數據的刪除策略，確保未來查詢結果的正確性和完整性。

Melody-Join和TBI因為針對的是數據庫中的數據設計的，因此沒有利用數據流上數據的時間關聯性來進一步過濾查詢后選集。本方案結合數據流上時間相鄰的數據元組往往取值相似的特點(即數據流上的時間關聯性)，使用在系統最近進行EMD計算過程中新產生的可行解來進一步過濾查詢候選集。系統中最近進行的EMD計算都是針對兩個數據流上最新到達的數據進行的。根據數據流上數據間的時間關聯性，接下來要計算比較的兩個數據對象和之前EMD距離計算比較的兩個對象可能極為相似，因此基于之前EMD計算過程中產生的新可行解來計算當前兩個數據對象之間的EMD距離的下界值，該下界值會更緊(離真實EMD距離值更接近)，能夠大大縮減查詢候選集的大小，從而提高整個系統的查詢處理效率。

前述對本發明的具體示例性實施方案的描述是為了說明和例證的目的。這些描述并非想將本發明限定為所公開的精確形式，并且很顯然，根據上述教導，可以進行很多改變和變化。對示例性實施例進行選擇和描述的目的在于解釋本發明的特定原理及其實際應用，從而使得本領域的技術人員能夠實現并利用本發明的各種不同的示例性實施方案以及各種不同的選擇和改變。本發明的范圍意在由權利要求書及其等同形式所限定。

以上所描述的裝置實施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部模塊來實現本實施例方案的目的。本領域普通技術人員在不付出創造性的勞動的情況下，即可以理解并實施。

完整全部詳細技術資料下載

當前第1頁1 2 3