<em id="lbmtt"></em>

<th id="lbmtt"><track id="lbmtt"></track></th>

<li id="lbmtt"></li>

<progress id="lbmtt"><big id="lbmtt"></big></progress>

當前位置：首頁 » 原創文章 » JMC | 新藥研發中的遷移學習

JMC | 新藥研發中的遷移學習

JMC | 新藥研發中的遷移學習

引言

在計算機輔助藥物設計中，可用于建模發現新藥的數據集規模一般很小。稀疏的數據樣本是人工智能藥物設計的難點之一。為了解決這個難題，科學家提出了以遷移學習為代表的一類針對小樣本數據集的算法。遷移學習先從一個更加廣泛的相關領域中學習知識，然后在小樣本數據集訓練，最后得到一個模型。藥物研究中最常用的是深度遷移學習模型，本文概述了遷移學習的發展和在藥物研究中的應用，并討論了遷移學習的未來發展方向。

介紹

新藥研發是一個研發成本高，周期長，失敗率高的工作。藥物從臨床到最后上市，失敗率高達90%以上。因此，科學家提出了許多計算模型，它們涵蓋了活性預測、虛擬篩選、逆合成分析、化合物生成等許多方面，極大提升了新藥研發的效率。在藥物研發早期階段，帶有標注的化合物往往不足一千，過少的數據限制了人工智能輔助藥物設計的應用。這時，遷移學習從相關領域學習知識，應用在數據稀疏的場景，能取得更好的效果。?

JMC | 新藥研發中的遷移學習

圖1.?遷移學習相關方法的流程圖

圖片來源于JMC

遷移學習

最初，科學家嘗試使用之前訓練學習好的模型加速后續任務的訓練，形成了遷移學習的雛形。這個思路啟發了多種創新的算法，比如歸納學習、終身學習、多任務學習、元學習、持續學習等。到了2010年，遷移學習有了權威的定義。機器學習通常有一個域和一個任務。一個任務是一個預測目標。假定現在有兩個問題，它們各自有一個域和一個任務。與傳統的機器學習會分別建立兩套不同的模型的方式不同(圖1a)，遷移學習嘗試使用模型在一個域和任務的訓練結果，來提升模型在另一個域和任務中的效果(圖1b)。

遷移學習的方法可以分為四類：基于實例的遷移學習、基于特征的遷移學習、基于參數的遷移學習和基于關系的遷移學習。不同類別的組合可以取得更好的效果。?

JMC | 新藥研發中的遷移學習

?

圖2.?深度遷移學習的流程圖

圖片來源于JMC

深度遷移學習

深度遷移學習是當下的主流，它組合深度學習和遷移學習(圖1c)。常見的一類遷移學習是基于參數的‘fine-tuning’ (圖2a)。假定訓練過的深度學習網絡中的參數權重蘊含從域中習得的知識，它將這樣模型作為相關領域的初始模型，訓練擬合相關的目標問題，能取得更好的效果。比如，在分子生成模型中，我們通常使用一個大化合物庫預訓練一個模型，然后針對不同靶點的小樣本數據集，微調模型生成具有特定功能的分子。Jason Yosinki在圖像識別的模型中使用了預訓練過的神經網絡作為初始模型，結果表明遷移學習賦權重的模型訓練效果優于隨機賦權重的模型。后來遷移學習被廣泛用于目標檢測、自然語言處理、藥物設計等領域。

深度遷移學習還可以用在基于特征的遷移學習中。遷移學習使用深度神經網絡對樣本做特征變換，將源數據集和目標數據集映射到隱特征空間，使得數據集的樣本具有相似的分布，有助于改善模型在目標數據集的表現。比如說，一個分子毒性數據集和一個分子生物活性數據集，在傳統機器中，他們會分別使用模型訓練。如果毒性數據集樣本稀少，那么就不能使用活性數據集直接去訓練毒性的模型。深度遷移學習會用活性數據集構造出隱特征空間，并使得兩個數據集的樣本在這個空間中具有相似的分布。這里通常采用兩種常用的方式維持深度學習中域特征的不變性。一是降低源域和目標域在隱空間的偏離，計算樣本在隱藏層的輸出，度量兩個域的差異，使得網絡學習的特征表示保持域不變性(圖2b)。二是采用對抗的思路(圖2c)，使用另一個網絡生成跨域的對抗樣本，使得訓練模型無法區分樣本的來源，模型效果良好，成為近年來的研究熱點。

JMC | 新藥研發中的遷移學習

圖3.?遷移學習在新藥研發中的應用與常見方法

圖片來源于JMC

JMC | 新藥研發中的遷移學習

圖4.?分子性質預測的遷移學習流程圖

圖片來源于JMC

?

新藥發現中的遷移學習

遷移學習在新藥發現中主要應用在三個場景:分子性質與活性預測、分子生成和基于結構的虛擬篩選(圖3)。

遷移學習常用來解決藥物研究數據稀少的問題(圖4)。Girschick在QSAR中組合歸納學習和距離學習，發現這種方法在大數據集和小數據集都取得良好的效果。Smith在QM預測中，先在一個大規模、低準確度的密度泛函理論數據集上訓練一個神經網絡，然后在一個高準確度的小數據集上訓練微調參數。模型錯誤率比基準模型降低了約20%。Lu也將‘fine-tuning’的方法用在分子能量預測與構象分析中，他們發現‘fine-tuning’不僅能提高預測準確率，還降低了訓練時間，從十幾個小時降低為數小時。Goh提出了ChemNet卷積網絡模型，這個模型先在ChEMBL上預訓練，再使用Tox21、HIV和FreeSolv微調。其訓練效果顯著優于單獨使用ChemNet訓練。

藥物研究中還使用了基于特征的遷移學習。Lovanac使用自動編碼機將所有分子映射到隱空間中提取特征，再用于pKa的預測。Abbasi在多任務學習中采用了基于對抗遷移學習的方法(adversarial domain adaptation network，ADAN)預測藥物副作用。他嘗試在Tox21、SIDER等數據集上做遷移學習，發現如果學習的知識與預測目標具有相關性，可提升模型效果。比如在對Tox21數據集的訓練中，使用ToxCast預訓練比SIDER和HIV的效果提升很多。這提示我們，預訓練數據集的知識相關性比數據集規模更重要。

JMC | 新藥研發中的遷移學習

圖5. 遷移學習的分子生成示例

圖片來源于JMC

分子生成可以模擬全新藥物設計，生成類藥分子。在這個過程中常見的遷移學習技術是‘fine-tuning’(圖5)。Segler使用含有140萬個化合物的ChEMBL數據集訓練一個LSTM模型，然后在一個靶點的小樣本數據集上做遷移學習，提高了模型訓練效率。Merk采用‘fine-tuning’的方法找到類視黃醇X受體和過氧化物酶激增劑受體(PPAR)的藥物。在排名靠前的5個化合物中，4個化合物表現出了納摩爾到微摩爾級的活性。強化學習搜索狀態空間，指導模型參數的更新，促使模型生成需要的結果。遷移學習約束搜索空間，集中在局部區域，發現符合條件的分子，它嚴重依賴于訓練的小樣本數據集。在實際應用中，研究者常用遷移學習加速強化學習訓練，提升了強化學習發現全新藥物的能力。比如Zhavoronkov提出的生成張量強化學習，他首先在ZINC數據集中訓練模型，然后遷移模型至DDR1數據集。在模型推薦的6個分子中，4個分子表現出了10 nM至1 μM的活性。

多任務學習

多任務學習使用一個模型共享權重并預測樣本的多個標簽，試圖在所有標簽預測上具有良好的表現(圖1d)。多任務學習和遷移學習都是以知識共享的方式來提升模型效果。Varnek在QSAR的淺層網絡中使用多任務模型，表明多任務模型的效果優于單模型的效果。在代謝預測中，Li使用自動編碼的DNN預測細胞色素P450抑制劑，效果也優于單模型。在藥物活性預測中，Ashrawy使用多任務學習同時預測藥物的結合模式、親和力和活性。預測效果超出了傳統的對接打分模型。Feinber在GCNN模型的多任務學習中證明，多任務模型能切實提高模型的泛化能力。但是這種泛化能力僅體現在同一個預測標簽在驗證集和訓練集間的泛化，無法提高模型在不同標簽中間的泛化能力。Xu解釋了多任務學習的優勢:它能從訓練集中相似的樣本中獲取有效信息，并將這些信息應用到不同的預測任務中，尤其是那些相關的任務。這些信息在樣本特征和網絡的層間實現了共享，間接具有數據增強的作用。

多任務學習也有自身的局限性。一是多任務學習的模式究竟是雙贏模型、權衡模型還是零和模型尚無定論。共享的特征具有相互依賴的特點，任務的相關性和數據分布對模型影響較大。二是共享特征的結果也有可能是雖然提升了少數任務的效果，卻犧牲了其他任務的效果。多任務模型更加適用于數據間具有相關性的場景，遷移學習則更適用于數據相關性較低的場景，因為它無需平衡任務間的效果。

討論

遷移學習在藥物研發中的應用還處于初步階段，相關的理論還需要繼續探索。比如，遷移學習的表現沒有統一的評判尺度。遷移學習的效果有可能是模型復雜度帶來的，不能簡單地以正確率等損失函數來衡量。當前我們還缺少與藥物研發相關的遷移學習的基準數據集，相關的文獻也不多。當前遷移學習依舊還有需要解決的挑戰。雖然研究證實數據集間的相關性比數據集規模更重要，但是現在沒有量化數據集間的相關性的有效方法。目前也沒有如何選用遷移學習的方法論。不當的方法會導致“負遷移”現象，反而降低了模型表現。最后，由于理論指導的缺失，遷移學習方法難以評價，因而也缺乏通用的選取標準。在藥物研發中使用遷移學習時，要注意判斷是否可以使用遷移學習。研究人員需要先度量數據集間的距離，比如分子指紋的相似度、化學空間距離等。采用自動編碼機將分子表示成一個連續值的向量，能有效避免負遷移效應。當前遷移學習主要用的還是“fine-tuning”的方法，我們希望其他的遷移學習方法尤其是基于特征的遷移學習，能在藥物研究中發揮更重要的作用。希望在未來的研究中，遷移學習方法能更充分地與其他方法組合，加速藥物研發流程。

參考文獻

Chenjing Cai, Shiwei Wang, Youjun Xu, Weilin Zhang, Ke Tang, Qi Ouyang, Luhua Lai, and Jianfeng Pei, Journal of Medicinal Chemistry, 2020, 63, 8683-8694. DOI: 10.1021/acs.jmedchem.9b02147

歡迎使用分子數字化智能計算平臺WeMol

X

亚洲网络在线,五月亚洲色图,亚洲色图小说,亚洲一级a毛片免费视频在线播放