本發(fā)明涉及數(shù)據(jù)處理,具體涉及一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法和設(shè)備。
背景技術(shù):
1、基于深度學(xué)習(xí)的全自動(dòng)標(biāo)簽算法在互聯(lián)網(wǎng)領(lǐng)域已經(jīng)取得了廣泛的應(yīng)用,其自動(dòng)化和高效性為數(shù)據(jù)或商品分類檢索、用戶畫像構(gòu)建以及個(gè)性化推薦等方面帶來了顯著的便利。然而,對(duì)于數(shù)據(jù)分類標(biāo)簽處理多數(shù)還是依賴人工經(jīng)驗(yàn)定義標(biāo)簽規(guī)則,通過預(yù)置關(guān)鍵詞庫和固定分類體系手動(dòng)完成標(biāo)注,其準(zhǔn)確性依然依賴人工處理或?qū)?shù)據(jù)的質(zhì)量有很高的要求,在自動(dòng)化和智能化方面仍然存在著不可忽視的限制。
2、具體而言,全自動(dòng)標(biāo)簽算法在處理復(fù)雜多變的異質(zhì)異構(gòu)數(shù)據(jù)時(shí),可能會(huì)遇到識(shí)別精度不足的問題。例如,某些算法在處理模糊或邊界情況的數(shù)據(jù)時(shí),可能無法準(zhǔn)確判斷圖文數(shù)據(jù)的屬性或圖文數(shù)據(jù)之間的差異,從而導(dǎo)致標(biāo)簽的誤判。此外,算法的設(shè)計(jì)也可能存在固有的偏差,使得生成的標(biāo)簽與實(shí)際情況存在一定的偏差。這些錯(cuò)誤標(biāo)簽的存在,可能會(huì)對(duì)用戶產(chǎn)生誤導(dǎo)。例如在數(shù)據(jù)檢索時(shí)(特別是針對(duì)科研單位的海量異質(zhì)異構(gòu)圖像數(shù)據(jù)),用戶可能會(huì)因?yàn)殄e(cuò)誤的標(biāo)簽而錯(cuò)過真正符合需求的數(shù)據(jù),影響用戶的檢查精度,和降低數(shù)據(jù)的使用效率;在推薦系統(tǒng)中,錯(cuò)誤的標(biāo)簽也可能導(dǎo)致推薦結(jié)果的偏差,從而降低推薦的準(zhǔn)確性;以及在電商領(lǐng)域中,生成的標(biāo)簽與實(shí)際情況存在一定的偏差,不僅會(huì)影響用戶的購物體驗(yàn),還可能降低電商平臺(tái)的轉(zhuǎn)化率。針對(duì)異質(zhì)異構(gòu)數(shù)據(jù),可以大大提高標(biāo)記標(biāo)簽的準(zhǔn)確率。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法方法、裝置和設(shè)備,以提高標(biāo)簽處理精度,為實(shí)現(xiàn)以上目的,本發(fā)明采用如下技術(shù)方案:
2、第一方面,本申請(qǐng)?zhí)峁┮环N基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,包括:
3、獲取用戶用于搜索的基礎(chǔ)數(shù)據(jù),并通過元文件屬性提取、光學(xué)字符識(shí)別、自動(dòng)語音識(shí)別或字幕解析技術(shù)從所述基礎(chǔ)數(shù)據(jù)中提取文本線索;其中,所述基礎(chǔ)數(shù)據(jù)的類型包括視頻和圖像;
4、將所述文本線索輸入至預(yù)設(shè)的文本摘要語言模型中,生成內(nèi)容摘要;
5、將所述內(nèi)容摘要輸入至預(yù)設(shè)的基于bert架構(gòu)的命名實(shí)體識(shí)別模型中,得到命名實(shí)體的信息,以生成標(biāo)簽集合;
6、基于fasttext算法對(duì)標(biāo)簽集合中的標(biāo)簽進(jìn)行語義關(guān)聯(lián)性分析和融合領(lǐng)域語料進(jìn)行增量訓(xùn)練,并進(jìn)行特征提取,得到由標(biāo)簽向量組成的圖結(jié)構(gòu)向量;并通過主成分分析法對(duì)所述圖結(jié)構(gòu)向量進(jìn)行降維處理,得到候選標(biāo)簽向量;
7、通過預(yù)設(shè)的標(biāo)簽系統(tǒng)比對(duì)所述候選標(biāo)簽向量和基礎(chǔ)向量,以為所述候選標(biāo)簽向量匹配基礎(chǔ)向量,并基于以基礎(chǔ)向量為查詢條件從目標(biāo)數(shù)據(jù)庫中得到的搜索結(jié)果集,確定對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果,以實(shí)現(xiàn)通過所述候選標(biāo)簽向量對(duì)目標(biāo)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行標(biāo)記;其中,所述標(biāo)簽系統(tǒng)基于預(yù)訓(xùn)練模型構(gòu)建生成;所述基礎(chǔ)向量包括由所述標(biāo)簽系統(tǒng)中預(yù)定義的標(biāo)簽和主題轉(zhuǎn)換得到的向量;
8、收集用戶行為數(shù)據(jù),通過向量空間模型計(jì)算用戶興趣權(quán)值,和利用對(duì)抗生成網(wǎng)絡(luò)模擬標(biāo)注錯(cuò)誤案例對(duì)所述標(biāo)簽系統(tǒng)進(jìn)行優(yōu)化。
9、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,還包括:
10、通過文本線索收集器臨時(shí)存儲(chǔ)和管理所述文本線索,和通過數(shù)據(jù)庫對(duì)所述文本線索進(jìn)行結(jié)構(gòu)化存儲(chǔ)。
11、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,所述命名實(shí)體的信息包括:圖像元素的數(shù)量、類別、名稱、品牌、型號(hào)和價(jià)格中的一種或多種。
12、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,在得到所述標(biāo)簽集合之后,還包括:通過tf-idf方法對(duì)所述標(biāo)簽集合中的標(biāo)簽進(jìn)行去重和篩選。
13、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,在所述通過主成分分析法對(duì)所述圖結(jié)構(gòu)向量進(jìn)行降維處理,得到候選標(biāo)簽向量之后,還包括:基于z-score歸一化方法對(duì)降維處理后的候選標(biāo)簽向量進(jìn)行標(biāo)準(zhǔn)化處理。
14、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,所述通過預(yù)設(shè)的標(biāo)簽系統(tǒng)比對(duì)所述候選標(biāo)簽向量和基礎(chǔ)向量,以為所述候選標(biāo)簽向量匹配基礎(chǔ)向量,包括:
15、基于余弦相似度原理,計(jì)算所述候選標(biāo)簽向量和所述基礎(chǔ)向量的相似性分值,并基于預(yù)設(shè)的排序策略,確定與每個(gè)候選標(biāo)簽向量對(duì)應(yīng)的一個(gè)或多個(gè)基礎(chǔ)向量。
16、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,所述基于以基礎(chǔ)向量為查詢條件從目標(biāo)數(shù)據(jù)庫中得到的搜索結(jié)果集,確定對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果,包括:
17、利用基礎(chǔ)向量作為查詢條件,從數(shù)據(jù)庫中提取相應(yīng)的搜索結(jié)果集;
18、將所述搜索結(jié)果集中的數(shù)據(jù)進(jìn)行排序和過濾操作后的結(jié)果,作為對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果。
19、第二方面,本申請(qǐng)?zhí)峁┮环N基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理設(shè)備,包括處理器和存儲(chǔ)器,所述處理器與存儲(chǔ)器相連:
20、其中,所述處理器,用于調(diào)用并執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的程序;
21、所述存儲(chǔ)器,用于存儲(chǔ)所述程序,所述程序至少用于執(zhí)行上述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法。
22、本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法和設(shè)備,該方法包括:獲取用戶用于搜索的基礎(chǔ)數(shù)據(jù),并通過元文件屬性提取、光學(xué)字符識(shí)別、自動(dòng)語音識(shí)別或字幕解析技術(shù)從基礎(chǔ)數(shù)據(jù)中提取文本線索;基于文本線索和文本摘要語言模型中,生成內(nèi)容摘要;基于內(nèi)容摘要和基于bert架構(gòu)的命名實(shí)體識(shí)別模型得到命名實(shí)體的信息,生成標(biāo)簽集合;基于fasttext算法對(duì)標(biāo)簽集合中的標(biāo)簽進(jìn)行語義關(guān)聯(lián)性分析和融合領(lǐng)域語料進(jìn)行增量訓(xùn)練,并進(jìn)行特征提取,得到由標(biāo)簽向量組成的圖結(jié)構(gòu)向量并進(jìn)行降維處理;通過標(biāo)簽系統(tǒng)匹配候選標(biāo)簽向量和基礎(chǔ)向量,將以基礎(chǔ)向量為查詢條件從目標(biāo)數(shù)據(jù)庫中得到的搜索結(jié)果集,確定對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果;以及收集用戶行為數(shù)據(jù),通過向量空間模型計(jì)算用戶興趣權(quán)值,和利用對(duì)抗生成網(wǎng)絡(luò)模擬標(biāo)注錯(cuò)誤案例對(duì)標(biāo)簽系統(tǒng)進(jìn)行優(yōu)化。如此,
1.一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,還包括:
3.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,所述命名實(shí)體的信息包括:圖像元素的數(shù)量、類別、名稱、品牌、型號(hào)和價(jià)格中的一種或多種。
4.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,在得到所述標(biāo)簽集合之后,還包括:通過tf-idf方法對(duì)所述標(biāo)簽集合中的標(biāo)簽進(jìn)行去重和篩選。
5.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,在所述通過主成分分析法對(duì)所述圖結(jié)構(gòu)向量進(jìn)行降維處理,得到候選標(biāo)簽向量之后,還包括:基于z-score歸一化方法對(duì)降維處理后的候選標(biāo)簽向量進(jìn)行標(biāo)準(zhǔn)化處理。
6.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,所述通過預(yù)設(shè)的標(biāo)簽系統(tǒng)比對(duì)所述候選標(biāo)簽向量和基礎(chǔ)向量,以為所述候選標(biāo)簽向量匹配基礎(chǔ)向量,包括:
7.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,所述基于以基礎(chǔ)向量為查詢條件從目標(biāo)數(shù)據(jù)庫中得到的搜索結(jié)果集,確定對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果,包括:
8.一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述處理器與存儲(chǔ)器相連: