日韩中文字幕久久久97都市激情,久久91网,亚洲天堂最新,国产精品嫩草影院九色,亚洲午夜精品一本二本,精品少妇一区二区三区蜜桃,av一道本

基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法和設(shè)備

文檔序號(hào):42169670發(fā)布日期:2025-06-13 16:25閱讀:10來源:國知局

本發(fā)明涉及數(shù)據(jù)處理,具體涉及一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法和設(shè)備。


背景技術(shù):

1、基于深度學(xué)習(xí)的全自動(dòng)標(biāo)簽算法在互聯(lián)網(wǎng)領(lǐng)域已經(jīng)取得了廣泛的應(yīng)用,其自動(dòng)化和高效性為數(shù)據(jù)或商品分類檢索、用戶畫像構(gòu)建以及個(gè)性化推薦等方面帶來了顯著的便利。然而,對(duì)于數(shù)據(jù)分類標(biāo)簽處理多數(shù)還是依賴人工經(jīng)驗(yàn)定義標(biāo)簽規(guī)則,通過預(yù)置關(guān)鍵詞庫和固定分類體系手動(dòng)完成標(biāo)注,其準(zhǔn)確性依然依賴人工處理或?qū)?shù)據(jù)的質(zhì)量有很高的要求,在自動(dòng)化和智能化方面仍然存在著不可忽視的限制。

2、具體而言,全自動(dòng)標(biāo)簽算法在處理復(fù)雜多變的異質(zhì)異構(gòu)數(shù)據(jù)時(shí),可能會(huì)遇到識(shí)別精度不足的問題。例如,某些算法在處理模糊或邊界情況的數(shù)據(jù)時(shí),可能無法準(zhǔn)確判斷圖文數(shù)據(jù)的屬性或圖文數(shù)據(jù)之間的差異,從而導(dǎo)致標(biāo)簽的誤判。此外,算法的設(shè)計(jì)也可能存在固有的偏差,使得生成的標(biāo)簽與實(shí)際情況存在一定的偏差。這些錯(cuò)誤標(biāo)簽的存在,可能會(huì)對(duì)用戶產(chǎn)生誤導(dǎo)。例如在數(shù)據(jù)檢索時(shí)(特別是針對(duì)科研單位的海量異質(zhì)異構(gòu)圖像數(shù)據(jù)),用戶可能會(huì)因?yàn)殄e(cuò)誤的標(biāo)簽而錯(cuò)過真正符合需求的數(shù)據(jù),影響用戶的檢查精度,和降低數(shù)據(jù)的使用效率;在推薦系統(tǒng)中,錯(cuò)誤的標(biāo)簽也可能導(dǎo)致推薦結(jié)果的偏差,從而降低推薦的準(zhǔn)確性;以及在電商領(lǐng)域中,生成的標(biāo)簽與實(shí)際情況存在一定的偏差,不僅會(huì)影響用戶的購物體驗(yàn),還可能降低電商平臺(tái)的轉(zhuǎn)化率。針對(duì)異質(zhì)異構(gòu)數(shù)據(jù),可以大大提高標(biāo)記標(biāo)簽的準(zhǔn)確率。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本發(fā)明的目的在于提供一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法方法、裝置和設(shè)備,以提高標(biāo)簽處理精度,為實(shí)現(xiàn)以上目的,本發(fā)明采用如下技術(shù)方案:

2、第一方面,本申請(qǐng)?zhí)峁┮环N基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,包括:

3、獲取用戶用于搜索的基礎(chǔ)數(shù)據(jù),并通過元文件屬性提取、光學(xué)字符識(shí)別、自動(dòng)語音識(shí)別或字幕解析技術(shù)從所述基礎(chǔ)數(shù)據(jù)中提取文本線索;其中,所述基礎(chǔ)數(shù)據(jù)的類型包括視頻和圖像;

4、將所述文本線索輸入至預(yù)設(shè)的文本摘要語言模型中,生成內(nèi)容摘要;

5、將所述內(nèi)容摘要輸入至預(yù)設(shè)的基于bert架構(gòu)的命名實(shí)體識(shí)別模型中,得到命名實(shí)體的信息,以生成標(biāo)簽集合;

6、基于fasttext算法對(duì)標(biāo)簽集合中的標(biāo)簽進(jìn)行語義關(guān)聯(lián)性分析和融合領(lǐng)域語料進(jìn)行增量訓(xùn)練,并進(jìn)行特征提取,得到由標(biāo)簽向量組成的圖結(jié)構(gòu)向量;并通過主成分分析法對(duì)所述圖結(jié)構(gòu)向量進(jìn)行降維處理,得到候選標(biāo)簽向量;

7、通過預(yù)設(shè)的標(biāo)簽系統(tǒng)比對(duì)所述候選標(biāo)簽向量和基礎(chǔ)向量,以為所述候選標(biāo)簽向量匹配基礎(chǔ)向量,并基于以基礎(chǔ)向量為查詢條件從目標(biāo)數(shù)據(jù)庫中得到的搜索結(jié)果集,確定對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果,以實(shí)現(xiàn)通過所述候選標(biāo)簽向量對(duì)目標(biāo)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行標(biāo)記;其中,所述標(biāo)簽系統(tǒng)基于預(yù)訓(xùn)練模型構(gòu)建生成;所述基礎(chǔ)向量包括由所述標(biāo)簽系統(tǒng)中預(yù)定義的標(biāo)簽和主題轉(zhuǎn)換得到的向量;

8、收集用戶行為數(shù)據(jù),通過向量空間模型計(jì)算用戶興趣權(quán)值,和利用對(duì)抗生成網(wǎng)絡(luò)模擬標(biāo)注錯(cuò)誤案例對(duì)所述標(biāo)簽系統(tǒng)進(jìn)行優(yōu)化。

9、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,還包括:

10、通過文本線索收集器臨時(shí)存儲(chǔ)和管理所述文本線索,和通過數(shù)據(jù)庫對(duì)所述文本線索進(jìn)行結(jié)構(gòu)化存儲(chǔ)。

11、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,所述命名實(shí)體的信息包括:圖像元素的數(shù)量、類別、名稱、品牌、型號(hào)和價(jià)格中的一種或多種。

12、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,在得到所述標(biāo)簽集合之后,還包括:通過tf-idf方法對(duì)所述標(biāo)簽集合中的標(biāo)簽進(jìn)行去重和篩選。

13、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,在所述通過主成分分析法對(duì)所述圖結(jié)構(gòu)向量進(jìn)行降維處理,得到候選標(biāo)簽向量之后,還包括:基于z-score歸一化方法對(duì)降維處理后的候選標(biāo)簽向量進(jìn)行標(biāo)準(zhǔn)化處理。

14、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,所述通過預(yù)設(shè)的標(biāo)簽系統(tǒng)比對(duì)所述候選標(biāo)簽向量和基礎(chǔ)向量,以為所述候選標(biāo)簽向量匹配基礎(chǔ)向量,包括:

15、基于余弦相似度原理,計(jì)算所述候選標(biāo)簽向量和所述基礎(chǔ)向量的相似性分值,并基于預(yù)設(shè)的排序策略,確定與每個(gè)候選標(biāo)簽向量對(duì)應(yīng)的一個(gè)或多個(gè)基礎(chǔ)向量。

16、進(jìn)一步地,在本申請(qǐng)一些實(shí)施例中,所述基于以基礎(chǔ)向量為查詢條件從目標(biāo)數(shù)據(jù)庫中得到的搜索結(jié)果集,確定對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果,包括:

17、利用基礎(chǔ)向量作為查詢條件,從數(shù)據(jù)庫中提取相應(yīng)的搜索結(jié)果集;

18、將所述搜索結(jié)果集中的數(shù)據(jù)進(jìn)行排序和過濾操作后的結(jié)果,作為對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果。

19、第二方面,本申請(qǐng)?zhí)峁┮环N基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理設(shè)備,包括處理器和存儲(chǔ)器,所述處理器與存儲(chǔ)器相連:

20、其中,所述處理器,用于調(diào)用并執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的程序;

21、所述存儲(chǔ)器,用于存儲(chǔ)所述程序,所述程序至少用于執(zhí)行上述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法。

22、本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法和設(shè)備,該方法包括:獲取用戶用于搜索的基礎(chǔ)數(shù)據(jù),并通過元文件屬性提取、光學(xué)字符識(shí)別、自動(dòng)語音識(shí)別或字幕解析技術(shù)從基礎(chǔ)數(shù)據(jù)中提取文本線索;基于文本線索和文本摘要語言模型中,生成內(nèi)容摘要;基于內(nèi)容摘要和基于bert架構(gòu)的命名實(shí)體識(shí)別模型得到命名實(shí)體的信息,生成標(biāo)簽集合;基于fasttext算法對(duì)標(biāo)簽集合中的標(biāo)簽進(jìn)行語義關(guān)聯(lián)性分析和融合領(lǐng)域語料進(jìn)行增量訓(xùn)練,并進(jìn)行特征提取,得到由標(biāo)簽向量組成的圖結(jié)構(gòu)向量并進(jìn)行降維處理;通過標(biāo)簽系統(tǒng)匹配候選標(biāo)簽向量和基礎(chǔ)向量,將以基礎(chǔ)向量為查詢條件從目標(biāo)數(shù)據(jù)庫中得到的搜索結(jié)果集,確定對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果;以及收集用戶行為數(shù)據(jù),通過向量空間模型計(jì)算用戶興趣權(quán)值,和利用對(duì)抗生成網(wǎng)絡(luò)模擬標(biāo)注錯(cuò)誤案例對(duì)標(biāo)簽系統(tǒng)進(jìn)行優(yōu)化。如此,



技術(shù)特征:

1.一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,還包括:

3.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,所述命名實(shí)體的信息包括:圖像元素的數(shù)量、類別、名稱、品牌、型號(hào)和價(jià)格中的一種或多種。

4.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,在得到所述標(biāo)簽集合之后,還包括:通過tf-idf方法對(duì)所述標(biāo)簽集合中的標(biāo)簽進(jìn)行去重和篩選。

5.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,在所述通過主成分分析法對(duì)所述圖結(jié)構(gòu)向量進(jìn)行降維處理,得到候選標(biāo)簽向量之后,還包括:基于z-score歸一化方法對(duì)降維處理后的候選標(biāo)簽向量進(jìn)行標(biāo)準(zhǔn)化處理。

6.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,所述通過預(yù)設(shè)的標(biāo)簽系統(tǒng)比對(duì)所述候選標(biāo)簽向量和基礎(chǔ)向量,以為所述候選標(biāo)簽向量匹配基礎(chǔ)向量,包括:

7.根據(jù)權(quán)利要求1所述的基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法,其特征在于,所述基于以基礎(chǔ)向量為查詢條件從目標(biāo)數(shù)據(jù)庫中得到的搜索結(jié)果集,確定對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果,包括:

8.一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述處理器與存儲(chǔ)器相連:


技術(shù)總結(jié)
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種基于搜索自反饋的數(shù)據(jù)向量化標(biāo)簽處理方法和設(shè)備,該方法包括:通過元文件屬性提取、光學(xué)字符識(shí)別、自動(dòng)語音識(shí)別或字幕解析技術(shù)提取文本線索;利用語言模型和文本線索生成內(nèi)容摘要;利用基于BERT架構(gòu)的NER模型對(duì)內(nèi)容摘要進(jìn)行分析處理并提取特征,得到標(biāo)簽集合;通過FastText算法對(duì)標(biāo)簽集合進(jìn)行處理,并降維得到候選標(biāo)簽向量;通過標(biāo)簽系統(tǒng)匹配候選標(biāo)簽向量和基礎(chǔ)向量,基于基礎(chǔ)向量的搜索結(jié)果集確定對(duì)應(yīng)候選標(biāo)簽向量的搜索結(jié)果;以及收集用戶行為數(shù)據(jù),通過計(jì)算用戶興趣權(quán)值,和利用對(duì)抗生成網(wǎng)絡(luò)模擬標(biāo)注錯(cuò)誤案例對(duì)標(biāo)簽系統(tǒng)進(jìn)行優(yōu)化。如此,針對(duì)異質(zhì)異構(gòu)數(shù)據(jù),可以大大提高標(biāo)記標(biāo)簽的準(zhǔn)確率。

技術(shù)研發(fā)人員:王冬梅,高永翔,王涵盾,顧秦銘,陳雨婧,陶欣然,袁青蕓,王欣怡,柴歡純,萬雯
受保護(hù)的技術(shù)使用者:中國科學(xué)技術(shù)大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/12
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1