本發明實施例涉及安全計算,尤其涉及一種面向基因組學的抗量子魯棒參數聚合聯邦學習方法及裝置。
背景技術:
1、聯邦學習(federated?learning,?fl)是一種分布式機器學習范式,它允許多個機構在不交換原始數據的情況下協作訓練一個共享模型。這種方法在需要嚴格保護數據隱私的領域尤為重要,例如基因組學領域,其中單細胞rna測序(scrna-seq)數據包含敏感的遺傳信息。在傳統的聯邦學習中,每個參與機構在其私有數據集上訓練本地模型,并僅與中央服務器共享模型參數(例如權重或梯度)。中央服務器聚合這些參數以更新全局模型,然后將更新后的模型重新分發給各機構進行進一步訓練。這種迭代過程保持了數據的局部性,降低了直接暴露數據的風險。
2、盡管聯邦學習具有上述優勢,但在應用于單細胞rna測序(scrna-seq)數據分析時,傳統的聯邦學習仍然存在如下問題:
3、以明文形式傳輸模型參數構成了重大的隱私威脅,攻擊者可能通過推理攻擊(例如成員推理攻擊)利用這些參數重構原始數據的部分內容或推斷個體的敏感信息,這種漏洞破壞了基因組數據處理所需的隱私保證。
4、現有的加密方法,通常允許對加密數據進行計算,但僅限于近似算術。這些方案無法支持高級聚合算法所需的精確比較操作,限制了其在安全方式下確保魯棒和準確模型更新的能力。
5、傳統的聯邦學習系統通常假設參與者是良性的。然而,在現實場景中,惡意節點(例如拜占庭對手)可能會提交損壞的更新以干擾訓練過程或降低模型性能。而標準的聚合方法缺乏檢測或緩解此類攻擊的機制,當大量節點被破壞時,系統可靠性會降低。
技術實現思路
1、基于現有技術的上述情況,本發明實施例的目的在于提供一種面向基因組學的抗量子魯棒參數聚合聯邦學習方法及裝置,通過tfhe算法和增強的魯棒聚合算法,解決了傳統聯邦學習存在的隱私、計算精度以及抗對抗干擾的問題。
2、為達到上述目的,根據本發明的第一個方面,提供了一種面向基因組學的抗量子魯棒參數聚合聯邦學習方法,包括步驟:
3、客戶端在tee內對本地模型參數進行量化處理和tfhe加密處理;
4、客戶端將加密模型參數的密文從所述tee中導出后上傳至中央服務器;
5、中央服務器在加密域中對所述加密模型參數進行魯棒聚合處理,得到優化模型參數并發送至客戶端;
6、客戶端對所述優化模型參數進行解密和反量化處理后,對本地模型進行更新;
7、其中,本地模型參數由客戶端基于本地私有數據集,在tee內訓練本地模型得到;所述魯棒聚合處理基于各個客戶端加密模型參數之間的相似度,對全局模型參數進行優化更新。
8、進一步的,所述方法還包括步驟:
9、客戶端獲取每一更新的優化模型參數相對前一輪該模型參數的變化值,并將所述變化值與該輪加密模型參數的密文上傳至中央服務器;
10、中央服務器基于所述變化值確定各參數的重要度,并根據所述重要度對各客戶端的加密模型參數進行截斷處理。
11、進一步的,所述本地私有數據集包括原始單細胞rna測序數據;所述方法還包括步驟:
12、對本地私有數據集的原始單細胞rna測序數據進行預處理。
13、進一步的,所述預處理包括清除數據中的零表達基因、將原始單細胞rna測序數據轉換為cpm、根據轉換后的數據選取高表達量基因、以及對選取后的基因進行pca降維處理。
14、進一步的,所述魯棒聚合處理包括:
15、計算各個客戶端的加密模型參數向量兩兩之間的歐氏距離;
16、基于計算得到的歐氏距離,對參與全局模型的加密模型參數進行調整;
17、基于所述調整的結果對全局模型參數進行優化更新。
18、進一步的,基于計算得到的歐氏距離,對參與全局模型的加密模型參數進行調整,包括:
19、針對每一個客戶端,計算該客戶端與其他客戶端加密模型參數之間的歐氏距離之和,作為該客戶端的距離集;
20、在所有客戶端的距離集中,將最大的距離集對應的客戶端模型參數剔除。
21、進一步的,基于所述調整的結果對全局模型參數進行優化更新,包括:
22、剔除最大的距離集對應的客戶端模型參數后,對剩余各客戶端的加密模型參數向量求取平均值;
23、采用該平均值作為全局模型的優化更新參數。
24、進一步的,中央服務器通過執行編譯好的tfhe計算電路中的同態操作來對密文進行魯棒聚合處理。
25、進一步的,所述tfhe計算電路在任一客戶端根據該客戶端的本地模型參數向量預先生成。
26、根據本發明的另一個方面,提供了一種面向基因組學的抗量子魯棒參數聚合聯邦學習裝置,包括:
27、客戶端參數加密模塊,用于在tee內對本地模型參數進行量化處理和tfhe加密處理;
28、客戶端參數上傳模塊,用于將加密模型參數的密文從所述tee中導出后上傳至中央服務器;
29、中央服務器聚合模塊,用于在加密域中對所述加密模型參數進行魯棒聚合處理,得到優化模型參數并發送至客戶端;
30、客戶端參數更新模塊,用于對所述優化模型參數進行解密和反量化處理后,對本地模型進行更新;
31、其中,本地模型參數由客戶端基于本地私有數據集,在tee內訓練本地模型得到;所述魯棒聚合處理基于各個客戶端加密模型參數之間的相似度,對全局模型參數進行優化更新。
32、綜上所述,本發明實施例提供了一種基于面向基因組學的抗量子魯棒參數聚合聯邦學習方法及裝置,該方法包括步驟:客戶端在tee內對本地模型參數進行量化處理和tfhe加密處理;客戶端將加密模型參數的密文從所述tee中導出后上傳至中央服務器;中央服務器在加密域中對所述加密模型參數進行魯棒聚合處理,得到優化模型參數并發送至客戶端;客戶端對所述優化模型參數進行解密和反量化處理后,對本地模型進行更新。本發明實施例的技術方案,通過結合用于本地計算的tee和用于參數傳輸及聚合的tfhe方式,可以使得原始數據和模型更新在整個過程中保持加密,消除了通過推理攻擊導致數據泄露的風險,為敏感單細胞rna測序(scrna-seq)數據提供了零暴露保證;增強的krum算法通過選擇與大多數更新一致的更新,可以有效減輕惡意節點的影響,即使在對抗性干擾存在時也能保持模型的完整性,這種魯棒性對于無法假定所有參與者可信的現實部署至關重要;動態截斷的使用減少了tfhe操作的計算開銷,同時保留了模型訓練和聚合所需的足夠精度。基于tee的本地訓練通過避免在計算密集的訓練階段進行加密,進一步優化了性能,平衡了安全性和效率。本發明實施例提供的技術方案支持跨分布式數據集的準確細胞類型分類和其他單細胞rna測序(scrna-seq)任務,使得各個客戶端能夠在不犧牲數據隱私或模型質量的情況下進行協作,并且與各種機器學習模型兼容。
1.一種面向基因組學的抗量子魯棒參數聚合聯邦學習方法,其特征在于,包括步驟:
2.根據權利要求1所述的方法,其特征在于,所述方法還包括步驟:
3.根據權利要求1所述的方法,其特征在于,所述本地私有數據集包括原始單細胞rna測序數據;所述方法還包括步驟:
4.根據權利要求3所述的方法,其特征在于,所述預處理包括清除數據中的零表達基因、將原始單細胞rna測序數據轉換為cpm、根據轉換后的數據選取高表達量基因、以及對選取后的基因進行pca降維處理。
5.根據權利要求1-4中任意一項所述的方法,其特征在于,所述魯棒聚合處理包括:
6.根據權利要求5所述的方法,其特征在于,基于計算得到的歐氏距離,對參與全局模型的加密模型參數進行調整,包括:
7.根據權利要求6所述的方法,其特征在于,基于所述調整的結果對全局模型參數進行優化更新,包括:
8.根據權利要求7所述的方法,其特征在于,中央服務器通過執行編譯好的tfhe計算電路中的同態操作來對密文進行魯棒聚合處理。
9.根據權利要求8所述的方法,其特征在于,所述tfhe計算電路在任一客戶端根據該客戶端的本地模型參數向量預先生成。
10.一種面向基因組學的抗量子魯棒參數聚合聯邦學習裝置,其特征在于,包括: