本發明涉及智能醫療領域,更具體地,涉及一種預測新輔助治療結果模型的構建方法、設備、介質和程序產品。
背景技術:
1、腫瘤的新輔助治療指主要治療手段(手術)之前的一種治療,包括化療、放療、內分泌治療、靶向藥物、免疫藥物等,新輔助治療的目的是使腫瘤縮小,殺滅看不見的轉移細胞,提高整體治療效果。而病理學完全緩解(pcr)指的是在接受新輔助治療后,取出腫瘤標本到病理顯微鏡下化驗,惡性腫瘤細胞完全消失。一般來說pcr越高,提示新輔助治療效果越好。
2、文獻報道,大約50%接受新輔助治療的乳腺癌患者未達到病理完全緩解,約21.4%的患者會在15年內出現局部復發,38.2%的患者會出現遠處復發。先前基于基因組學、轉錄組學、放射組學、病理學,甚至是多組學的模型都是基于小樣本量和采用單一治療策略隊列開發,盡管上述模型在內部驗證中可以實現較高的預測性能,但是其并不能很好地推廣到更復雜的現實應用場景。原因在于:(1)現有的模型采用的數據類型單一、樣本量少,不能全面的表征腫瘤狀態以提高模型的預測性能;(2)由于抗癌藥物類型相對有限且結構多樣,無法了解化合物結構表征并且將化合物結構數據與轉錄組狀態整合起來很困難,因此根據以往的用化合物結構直接表征化合物并不適用;由于許多化療藥物缺乏特定靶點,靶向治療的作用機制往往超出主要靶點,因此基于特定基因靶標的藥物表征并不能完全代表所有類型的藥物或全面表征其機制;臨床上藥物的聯合使用會導致復雜的協同或拮抗相互作用,需要模擬這些相互作用,但現有的模型均無法滿足上述需求適當表征藥物以準確模擬藥物與腫瘤之間的相互作用,而藥物與腫瘤之間的相互作用對于預測腫瘤對治療的反應至關重要。
技術實現思路
1、本發明旨在至少解決現有技術中存在的技術問題之一。為此,本發明提供一種基于全基因組表征藥物的方法、設備、介質和程序產品;基于用基因表達相關性表征藥物的方法構建新輔助治療結果模型,并提供預測新輔助治療結果模型的構建方法、設備、介質和程序產品;應用階段提供一種預測新輔助治療結果的方法、設備、介質和程序產品,結合藥物表征和生物組學概況的生物學深度學習可以作為數字類器官來優化諸如乳腺癌疾病等的新輔助治療選擇。
2、本技術第一方面公開一種基于全基因組表征藥物的方法,所述方法包括:
3、101,獲取癌癥藥物敏感性基因組學數據庫中泛癌細胞系的全基因組數據和藥物;所述藥物包括小分子藥物;
4、102,計算所述小分子藥物的ic50值;
5、103,基于ic50值確定全基因組數據中與小分子藥物顯著相關的基因表達記做ge;
6、104,計算所述ic50值與所述顯著相關的基因之間的相關性記做基因與藥物敏感性相關性gcd;gcd用作表征小分子藥物。
7、在一些實施例中,如果所述基因組學數據庫中缺少第一小分子藥物,使用數據庫中具有相似作用機制、相同抗腫瘤藥物類型內最相關藥物表示所述第一小分子藥物;
8、可選的,如果所述基因組學數據庫至少包括2個,且至少2個數據庫中同時存在第二小分子藥物,優先使用認可度高的數據庫計算表示第二小分子藥物;比如當數據庫包括gdsc和ctrp數據集時,采用gdsc數據集;
9、可選的,所述小分子藥物包括以下任一種或幾種:紫杉醇、阿霉素、環磷酰胺、奧拉帕尼、pdcd1、5-氟尿嘧啶、表柔比星、環磷酰胺、拉帕替尼、erbb2、erbb2mk-2206、eng;
10、可選的,所述相關性的取值范圍為大于等于-1且小于等于1;
11、可選的,所述癌癥藥物敏感性基因組學數據庫包括gdsc和ctrp數據集;
12、可選的,所述藥物不包括在gdsc或ctrp數據庫中沒有相應藥物敏感性數據的藥物,比如:t-dm1、內分泌治療類藥物。
13、在一些實施例中,所述小分子藥物可以替換為抗體類藥物;或者,所述藥物還包括抗體類藥物;
14、可選的,所述抗體類藥物的表征方式包括:確定抗體類藥物的靶點基因;確定全基因組數據中與靶點基因顯著相關的基因;計算所述靶點基因的表達水平和所述顯著相關的基因表達ge之間的相關性,記做基因與藥物敏感性相關性gcd;gcd用作表征抗體類藥物;
15、優選的,所述靶點基因的表達水平和所述顯著相關的基因表達ge之間的相關性的負值表征抗體類藥物;
16、可選的,所述抗體類藥物包括:her2藥物。
17、本技術第二方面公開一種預測新輔助治療結果模型的構建方法,所述方法包括:
18、201,獲取已接受新輔助治療的訓練集樣本的全基因組數據和治療方案;所述治療方案為至少包含1種藥物組成的方案;所述藥物用本技術第一方面所述基因與藥物敏感性相關性gcd表征;
19、202,將所述訓練集樣本的全基因組數據和治療方案輸入到包括輸入層、基因層、至少1個生物過程層和輸出層的生物信息神經網絡模型中進行訓練,得到所述新輔助治療結果模型。
20、在一些實施例中,當所述治療方案包括至少2種藥物時,計算每種藥物表征方式中相同基因的藥物敏感性相關性gcd的加和表示治療方案。
21、可選的,所述方法還包括對201中每個樣本的全基因組數據進行秩歸一化標準化處理;
22、可選的,所述202中的全基因組數據和治療方案輸入到神經網絡模型的方式包括:并行輸入ge和gcd到神經網絡模型,或者聚合ge和gcd后得到接受治療時基因表達的注意力值gatt,將注意力值輸入到神經網絡模型;
23、可選的,注意力值gatt的計算方式包括:gatt=gex*(exp-gcd);
24、可選的,所述輸入層輸入的類型包括全基因組數據和藥物;
25、可選的,所述生物過程層包括以下任一種或幾種:精細通路層、更復雜的生物通路和生物過程;
26、可選的,所述生物信息神經網絡模型包括:gdnet框架;
27、可選的,在每個隱藏層之后添加帶有sigmoid激活的預測層;
28、可選的,輸入層、基因層和生物過程層結果的損失權重逐級增加;
29、可選的,所述方法還包括:計算模型中所有層中所有節點的樣本級別重要性得分;
30、可選的,所述訓練集樣本是經過去除重復并過濾掉非預處理狀態或缺失關鍵信息(結果和治療)后的樣本。
31、本技術第三方面公開一種預測新輔助治療結果的方法,所述方法包括:
32、301,獲取受試的基因組數據和治療藥物種類;
33、302,將基因組數據和治療藥物種類輸入到本技術第二方面所述的新輔助治療結果模型中,輸出接受所述治療藥物種類新輔助治療后的反應預測值;
34、可選的,所述方法還包括303:基于所述反應預測值得到所述藥物種類治療效果的輔助預測效果;當反應預測值大于第一閾值時,輸出受試使用所述治療藥物種類治療效果好的輔助預測結果;當預測得分小于第一閾值時,輸出受試使用所述治療藥物種類治療效果差的輔助預測結果。
35、本技術第四方面一種預測新輔助治療結果的方法,所述方法包括:
36、401,獲取受試的基因組數據和治療藥物種類;所述基因組數據中的基因包括以下任一種或幾種:psmc5、ccnd1、psmb3、psmd14、cul1;
37、402,將基因組數據和治療藥物種類輸入到本技術第二方面所述的新輔助治療結果模型中,輸出接受所述治療藥物種類新輔助治療后的反應預測值;
38、可選的,所述治療藥物種類包括以下任一種或幾種:紫杉醇、阿霉素、環磷酰胺、奧拉帕尼、pdcd1、5-氟尿嘧啶、表柔比星、環磷酰胺、拉帕替尼、erbb2、erbb2mk-2206、eng;
39、可選的,所述方法還包括403:基于所述反應預測值得到所述藥物種類治療效果的輔助預測效果;當反應預測值大于第一閾值時,輸出受試使用所述治療藥物種類治療效果好的輔助預測結果;當預測得分小于第一閾值時,輸出受試使用所述治療藥物種類治療效果差的輔助預測結果。本技術第五方面公開一種計算機設備,所述設備包括:存儲器和處理器;所述存儲器用于存儲計算機程序;所述處理器執行所述計算機程序以實現本技術第一方面和/或第二方面和/或第三方面所述方法的步驟。
40、本技術第六方面公開一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現本技術第一方面和/或第二方面和/或第三方面所述方法的步驟。
41、本技術第七方面公開一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現本技術第一方面和/或第二方面和/或第三方面所述方法的步驟。
42、本技術具有以下有益效果:
43、1、本技術創新性的公開一種用基因表達相關性來表示藥物的簡單方法,將藥物與轉錄組數據充分融合,將藥物映射為一系列基因和價值對,針對不同藥物(小分子藥物和抗體類藥物)分別使用不同的方法進行表征,更全面的表征腫瘤標志,適當表征藥物以準確模擬藥物與腫瘤之間的相互作用;2、本技術創新性的基于轉錄組和治療方案之間的相互作用構建gdnet模型,gdnet模型與僅轉錄組模型相比,在預測乳腺癌新輔助治療結果方面取得了顯著更高的性能。gdnet在兩個系列模擬臨床試驗中的應用表明,gdnet可以作為數字類器官來優化乳腺癌患者的治療選擇。與之前的模型相比,gdnet具有以下優勢:
44、(1)之前的大多數機器學習模型都面臨著樣本量有限、缺乏足夠的獨立外部驗證導致性能不穩定等問題。本技術收集了31個數據集,其中包含4371個乳腺癌樣本,其中包含可用的治療前轉錄組和新輔助治療信息,這是迄今為止數量最多的數據集,以穩健地訓練和驗證gdnet;
45、(2)通過對每個樣本應用排名歸一化策略,從所有類型的rna測序方法中收集數據。這種方法提供了針對技術假象的穩健性,否則可能會在絕對轉錄本計數中引入系統偏差,同時將每個細胞內基因的總體相對排名保持在更穩定的水平。由于易于標準化和減少批次效應,之前的研究僅限于有限的rna測序方法;然而,這些方法往往會減少可用樣本量,從而難以推廣到更廣泛的場景。盡管基于排名的編碼具有局限性,包括未充分利用轉錄本計數中提供的精確基因表達測量,但它使模型更適用于具有各種意外變量的現實條件。此外,與之前的研究不同,之前的研究在不同隊列或測試方法中的患者之間(例如z分數變換)甚至數據集(例如combat算法)之間進行歸一化,本方法僅包含每個患者的標準化。這種設計選擇源于這樣的理解:跨患者或數據集訓練的歸一化參數無法有效地應用于具有不同轉錄組測試協議的另一個數據集中的患者,從而導致過度擬合和通用性較差。因此,我們的模型可以直接推廣到在更廣泛的場景和復雜的現實條件下使用任何rna測序技術測試的新病例;
46、(3)之前的模型,如21基因復發評分、mammaprint、adjutorium,主要基于傳統的統計模型或機器學習模型。相比之下,gdnet基于深度學習框架,包含更多數量的基因以最大化模型容量。考慮到實現pcr意味著消除所有腫瘤細胞,因此在模型中保持足夠的靈活性以考慮腫瘤異質性和微環境變化非常重要,這是傳統機器模型無法解決的挑戰。深度學習框架以其大量的參數和靈活的架構,有望解決這些挑戰。先前的一項研究表明,深度學習方法能夠反映或預測腫瘤異質性和腫瘤環境。此外,通過整合先驗的生物學知識,gdnet顯著減少了學習參數的數量,從而比密集模型更穩定、更好的性能,這一點在之前的研究中也得到了證明。gdnet中多級基因和生物途徑的重要性和屬性的可視化實現了模型解釋的多級視圖,這可以指導研究人員提出有關耐藥性所涉及的潛在生物過程的假設,并將這些發現轉化為治療機會。具體來說,gdnet鑒定的基因,如src、ccnd1、mcf2l、rps6ka1和psmb7,可能在乳腺癌抵抗中發揮重要作用。
47、(4)gdnet創新性地整合了乳腺癌的治療方案,捕捉了藥物與腫瘤之間的相互作用模式,從而提高了模型性能。盡管少數乳腺癌新輔助治療模型考慮了特定的藥物類型,如化療和抗her2治療,但這些模型往往缺乏模擬腫瘤與藥物相互作用所需的靈活性。先前的研究已經探索了基于藥物結構的代表藥物,然而,這些方法具有局限性,因為缺乏足夠的藥物多樣性用于乳腺癌新輔助任務的全面訓練而不能代表抗體藥物,或者用靶點來藥物,但靶點代表藥物缺乏靈活性來模擬藥物與腫瘤的相互作用。為了解決這些缺點,引入了一種利用基因表達相關性來表示藥物的簡單方法,有助于引入與耐藥性相關的外部知識。這種方法提供了類似于腫瘤中基因表達的藥物表示結構,有助于融合并創造了模擬藥物和轉錄組相互作用的潛力。我們還證明,整合藥物表示和轉錄組的更好方法涉及將這兩種模式的數據并行輸入到神經網絡中,而不是簡單地通過專門設計的規則融合它們或聚合特定藥物模型的預測;
48、總之,gdnet是一種生物信息深度學習方法,融合了藥物表征和轉錄組,可以實現更精確的腫瘤學,并增強乳腺癌新輔助治療的治療決策過程。整合藥物表征和生物組學數據代表了一種模擬藥物與腫瘤相互作用的新方法,為精確腫瘤學提供了數字類器官平臺,可廣泛適用于不同的治療環境和各種癌癥類型。