本發(fā)明涉及計(jì)算機(jī)視覺(jué)技術(shù),特別是涉及一種針對(duì)視覺(jué)模塊進(jìn)行動(dòng)態(tài)剪枝的參數(shù)高效微調(diào)方法。
背景技術(shù):
1、參數(shù)高效微調(diào)方法,通過(guò)凍結(jié)基礎(chǔ)模型的預(yù)訓(xùn)練參數(shù),只微調(diào)少量的模型參數(shù)的方式,能以更低的計(jì)算成本和存儲(chǔ)成本將基礎(chǔ)模型遷移到下游任務(wù)。參數(shù)高效微調(diào)方法最初在自然語(yǔ)言處理領(lǐng)域中提出,而后逐漸拓展到計(jì)算機(jī)視覺(jué)領(lǐng)域。計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)模型,通常以原始的視覺(jué)transformer作為主要架構(gòu),但這種架構(gòu)缺乏視覺(jué)先驗(yàn),直接使用無(wú)法引入視覺(jué)先驗(yàn)的參數(shù)高效微調(diào)方法遷移視覺(jué)基礎(chǔ)模型時(shí),會(huì)獲得次優(yōu)的遷移效果,因此,在設(shè)計(jì)視覺(jué)參數(shù)高效微調(diào)方法時(shí),需要設(shè)計(jì)能夠引入視覺(jué)先驗(yàn)的視覺(jué)模塊。
2、設(shè)計(jì)以混合專家網(wǎng)絡(luò)為基本架構(gòu)的視覺(jué)模塊,以引入視覺(jué)先驗(yàn),是其中一種模塊設(shè)計(jì)方式?;旌蠈<揖W(wǎng)絡(luò)已經(jīng)有三十多年的歷史,目標(biāo)是在計(jì)算成本不增加過(guò)多的前提下,擴(kuò)大模型容量,增強(qiáng)模型能力?;旌蠈<揖W(wǎng)絡(luò)的基本架構(gòu),一般由一個(gè)門(mén)控網(wǎng)絡(luò)和多個(gè)專家網(wǎng)絡(luò)構(gòu)成。門(mén)控網(wǎng)絡(luò)用于根據(jù)不同的輸入動(dòng)態(tài)地選擇專家網(wǎng)絡(luò),每個(gè)專家網(wǎng)絡(luò)各司其職,負(fù)責(zé)處理不同輸入,能最大化自身優(yōu)點(diǎn),增強(qiáng)模型整體能力。利用混合專家網(wǎng)絡(luò)設(shè)計(jì)視覺(jué)模塊,門(mén)控網(wǎng)絡(luò)能實(shí)現(xiàn)動(dòng)態(tài)選擇專家網(wǎng)絡(luò)的效果,且多個(gè)專家網(wǎng)絡(luò)可以負(fù)責(zé)處理不同尺度的特征圖,巧妙地考慮了多尺度信息,同時(shí)可以配合卷積等操作,引入視覺(jué)先驗(yàn)。因此,綜合門(mén)控網(wǎng)絡(luò)和專家網(wǎng)絡(luò)的特性,設(shè)計(jì)一個(gè)基于混合專家網(wǎng)絡(luò)的視覺(jué)模塊,能實(shí)現(xiàn)動(dòng)態(tài)地將視覺(jué)先驗(yàn)引入到合適尺度特征圖的目標(biāo),如conv-lora,設(shè)計(jì)了moe-conv這一以混合專家網(wǎng)絡(luò)作為主要架構(gòu)的視覺(jué)模塊。
3、然而,這類視覺(jué)模塊需要額外操作來(lái)引入視覺(jué)先驗(yàn),如卷積操作和特征圖插值操作,會(huì)引入額外的計(jì)算開(kāi)銷。一些研究工作將剪枝、量化等模型壓縮算法用于參數(shù)高效微調(diào)方法,能夠降低計(jì)算成本,但這類方法基本都用于自然語(yǔ)言處理領(lǐng)域,缺乏對(duì)視覺(jué)模塊進(jìn)行計(jì)算優(yōu)化的設(shè)計(jì),導(dǎo)致即使是采用了模型壓縮方案的參數(shù)高效微調(diào)方法,視覺(jué)模塊的計(jì)算成本依然是瓶頸。而現(xiàn)有的視覺(jué)參數(shù)高效微調(diào)方法,盡管有些研究工作已經(jīng)考慮到了視覺(jué)模塊的設(shè)計(jì),但未解決視覺(jué)模塊的計(jì)算開(kāi)銷優(yōu)化問(wèn)題。
4、需要說(shuō)明的是,在上述背景技術(shù)部分公開(kāi)的信息僅用于對(duì)本申請(qǐng)的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于克服上述背景技術(shù)中存在的缺陷,提供一種針對(duì)視覺(jué)模塊進(jìn)行動(dòng)態(tài)剪枝的參數(shù)高效微調(diào)方法。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、一種針對(duì)視覺(jué)模塊進(jìn)行動(dòng)態(tài)剪枝的參數(shù)高效微調(diào)方法,所述視覺(jué)模塊基于混合專家網(wǎng)絡(luò)架構(gòu),所述方法包括以下步驟:
4、s1、局部專家剪枝:在視覺(jué)模塊的訓(xùn)練過(guò)程中,利用門(mén)控網(wǎng)絡(luò)的輸出值衡量各專家網(wǎng)絡(luò)的重要性,根據(jù)預(yù)設(shè)的剪枝閾值,動(dòng)態(tài)地用計(jì)算開(kāi)銷較小的專家網(wǎng)絡(luò)替代計(jì)算開(kāi)銷較大的專家網(wǎng)絡(luò),以減少單個(gè)模塊的計(jì)算量。
5、s2、全局模塊剪枝:在視覺(jué)模塊的訓(xùn)練過(guò)程中,通過(guò)比較各層moe-conv模塊的樣本數(shù)量分布相似性,識(shí)別出冗余模塊,并根據(jù)預(yù)設(shè)的跳過(guò)策略,動(dòng)態(tài)跳過(guò)冗余模塊的計(jì)算,以降低整體計(jì)算開(kāi)銷。
6、進(jìn)一步地,所述步驟s1中,所述動(dòng)態(tài)替代進(jìn)一步包括:
7、根據(jù)當(dāng)前輸入的特征圖,通過(guò)門(mén)控網(wǎng)絡(luò)實(shí)時(shí)計(jì)算各專家網(wǎng)絡(luò)的門(mén)控值,并基于門(mén)控值的相對(duì)差異選擇重要性相近的專家網(wǎng)絡(luò)進(jìn)行替代;所述替代操作僅在插值率較小的專家網(wǎng)絡(luò)與目標(biāo)專家網(wǎng)絡(luò)的門(mén)控值差異滿足預(yù)設(shè)條件時(shí)觸發(fā),以實(shí)現(xiàn)對(duì)高計(jì)算開(kāi)銷專家網(wǎng)絡(luò)的動(dòng)態(tài)剪枝。
8、進(jìn)一步地,所述步驟s1中,所述剪枝閾值為可調(diào)超參數(shù),用于平衡模型計(jì)算效率與性能損失,且所述閾值在訓(xùn)練過(guò)程中通過(guò)驗(yàn)證集反饋動(dòng)態(tài)優(yōu)化。
9、進(jìn)一步地,所述步驟s2中,所述樣本數(shù)量分布相似性通過(guò)以下方式衡量:
10、計(jì)算各層moe-conv模塊的專家網(wǎng)絡(luò)樣本數(shù)量分布向量之間的差異范數(shù),并基于各層間差異的平均值確定冗余模塊;所述冗余模塊的跳過(guò)優(yōu)先級(jí)與其分布相似性成反比,相似性越高的模塊越優(yōu)先被跳過(guò)。
11、進(jìn)一步地,所述跳過(guò)策略具體為:
12、在模型前向過(guò)程中,根據(jù)各層模塊的相似性排名,選擇topk相似性最高的模塊進(jìn)行動(dòng)態(tài)跳過(guò),且跳過(guò)的模塊數(shù)量由預(yù)設(shè)的全局剪枝比例控制,以適配不同任務(wù)的計(jì)算資源約束。
13、進(jìn)一步地,所述動(dòng)態(tài)剪枝方案進(jìn)一步包括:
14、在局部專家剪枝中,優(yōu)先保留門(mén)控值較高的專家網(wǎng)絡(luò)以維持模型性能;在全局模塊剪枝中,通過(guò)跨層樣本分布相似性分析,僅剪枝對(duì)模型輸出影響最小的冗余模塊,從而實(shí)現(xiàn)計(jì)算效率與模型精度的聯(lián)合優(yōu)化。
15、進(jìn)一步地,所述方法適用于異構(gòu)或同構(gòu)專家網(wǎng)絡(luò)架構(gòu)的混合專家網(wǎng)絡(luò),其中異構(gòu)專家網(wǎng)絡(luò)的剪枝通過(guò)門(mén)控值差異自適應(yīng)調(diào)整替代策略,而同構(gòu)專家網(wǎng)絡(luò)的剪枝通過(guò)跨層分布相似性增強(qiáng)冗余模塊識(shí)別。
16、進(jìn)一步地,所述方法在參數(shù)高效微調(diào)框架下實(shí)現(xiàn),通過(guò)凍結(jié)預(yù)訓(xùn)練模型參數(shù),僅對(duì)門(mén)控網(wǎng)絡(luò)及剪枝相關(guān)超參數(shù)進(jìn)行微調(diào),以降低訓(xùn)練成本并保持下游任務(wù)遷移性能。
17、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的方法。
18、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的方法。
19、本發(fā)明具有如下有益效果:
20、本發(fā)明針對(duì)基于混合專家網(wǎng)絡(luò)的視覺(jué)模塊,提出了一種參數(shù)高效微調(diào)與動(dòng)態(tài)剪枝協(xié)同優(yōu)化的創(chuàng)新方法,通過(guò)凍結(jié)預(yù)訓(xùn)練模型參數(shù)并僅微調(diào)門(mén)控網(wǎng)絡(luò)及剪枝相關(guān)超參數(shù),顯著降低了計(jì)算與存儲(chǔ)成本,同時(shí)設(shè)計(jì)了局部專家剪枝與全局模塊剪枝的雙層動(dòng)態(tài)優(yōu)化機(jī)制:局部剪枝利用門(mén)控網(wǎng)絡(luò)輸出的門(mén)控值動(dòng)態(tài)評(píng)估專家網(wǎng)絡(luò)重要性,以閾值控制的替代策略實(shí)現(xiàn)高計(jì)算開(kāi)銷專家的精準(zhǔn)剪枝;全局剪枝則通過(guò)分析跨層moe-conv模塊的樣本分布相似性,識(shí)別冗余模塊并動(dòng)態(tài)跳過(guò)其計(jì)算,從而在保證模型性能的前提下,實(shí)現(xiàn)計(jì)算速度提升。該方法突破傳統(tǒng)靜態(tài)剪枝對(duì)視覺(jué)模塊優(yōu)化的局限性,支持異構(gòu)與同構(gòu)專家網(wǎng)絡(luò)架構(gòu),且在醫(yī)學(xué)、農(nóng)業(yè)及遙感等多領(lǐng)域下游任務(wù)中展現(xiàn)出泛化能力,實(shí)驗(yàn)驗(yàn)證其相比magnitudepruning等方案在加速比與精度平衡上具有顯著優(yōu)勢(shì),解決了視覺(jué)參數(shù)高效微調(diào)中計(jì)算開(kāi)銷與遷移性能難以兼顧的瓶頸問(wèn)題。
21、本發(fā)明實(shí)施例中的其他有益效果將在下文中進(jìn)一步述及。
1.一種針對(duì)視覺(jué)模塊進(jìn)行動(dòng)態(tài)剪枝的參數(shù)高效微調(diào)方法,所述視覺(jué)模塊基于混合專家網(wǎng)絡(luò)架構(gòu),其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟s1中,所述動(dòng)態(tài)替代進(jìn)一步包括:
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述步驟s1中,所述剪枝閾值為可調(diào)超參數(shù),用于平衡模型計(jì)算效率與性能損失,且所述閾值在訓(xùn)練過(guò)程中通過(guò)驗(yàn)證集反饋動(dòng)態(tài)優(yōu)化。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟s2中,所述樣本數(shù)量分布相似性通過(guò)以下方式衡量:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述跳過(guò)策略具體為:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述動(dòng)態(tài)剪枝方案進(jìn)一步包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法用于異構(gòu)或同構(gòu)專家網(wǎng)絡(luò)架構(gòu)的混合專家網(wǎng)絡(luò),其中異構(gòu)專家網(wǎng)絡(luò)的剪枝通過(guò)門(mén)控值差異自適應(yīng)調(diào)整替代策略,而同構(gòu)專家網(wǎng)絡(luò)的剪枝通過(guò)跨層分布相似性增強(qiáng)冗余模塊識(shí)別。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法在參數(shù)高效微調(diào)框架下實(shí)現(xiàn),通過(guò)凍結(jié)預(yù)訓(xùn)練模型參數(shù),僅對(duì)門(mén)控網(wǎng)絡(luò)及剪枝相關(guān)超參數(shù)進(jìn)行微調(diào),以降低訓(xùn)練成本并保持下游任務(wù)遷移性能。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的方法。