<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    Drug Discovery Toady | 藥物發現中的先進機器學習技術

    Drug Discovery Toady | 藥物發現中的先進機器學習技術

    引言

    機器學習(ML)在藥物發現中的普及度持續增長,并取得了令人印象深刻的成果。隨著其使用量的增加,它們的局限性也越來越明顯。這些局限性包括對大數據的需求、數據的稀疏性以及缺乏可解釋性。此外,這些技術并不是真正的自主性技術,甚至在部署后也需要重新訓練。在這篇綜述中,作者詳細介紹了先進機器學習技術的使用來規避這些挑戰,并舉例說明了其在藥物發現和相關學科中的潛在應用。作者預期本文提出的技術將擴大ML在藥物發現中的適用性。

    背景介紹

    ML在藥物發現領域中的應用不斷增長,越來越多的制藥公司證明了ML的成功,在這些公司中ML是其業務模式中的核心(表1)。此外,大型制藥公司也在探索ML用于藥物發現。這樣的成功證明了ML用于藥物發現的必要性和實用性,并且明確表明藥物發現將與ML本質上聯系在一起,即其目標是降低藥物發現的資源和勞動強度,尤其是高通量篩選(HTS)技術。ML的另一個目的是避免動物試驗的必要性,因為近來動物試驗受到了負面宣傳。

    表1.?將ML作為業務模式核心的制藥公司示例

    圖片源自Drug Discovery Today

    Drug Discovery Toady | 藥物發現中的先進機器學習技術

    ML的成功在于它能夠識別復雜和大容量數據集中的模式(patterns),而且ML技術(MLT)可以使用包括Python和R在內的通用編程語言開發,大多數研究人員都可以訪問這些語言。此外,還有一些第三方軟件可以為不熟悉編程的研究人員提供訪問ML技術的渠道,比如蘋果的Create ML。傳統的MLTs在藥物發現中已經得到了深入的探索。這些技術包括有監督和無監督的MLTs,如k-最近鄰(kNN)、決策樹、隨機森林、支持向量機(SVM)、人工神經網絡(ANN)、主成分分析(PCA)和k-均值。與傳統的預測算法相比,這些技術的吸引力來自于它們的簡單性、計算量不大,同時預測精度也有所提高。同樣,非計算機科學家研究人員可以從認知上理解常規技術的底層機制。例如,對于kNN來說,用戶只需要控制一個參數,即k值,而k值又是基于多個投票確定分類搜索空間。

    傳統的MLTs盡管簡單,但也有其缺點。kNN受到維度的影響,即在高維空間,預測性能開始減弱。同樣,當維數大于樣本大小時,SVM的性能也開始下降。在隨機森林中增加樹的數量可以提高預測精度,盡管大量的樹結果會導致算法對于實時監測效率低下。然而,對MLT有兩個主要的批評,一是其對大數據的需求,二是缺乏透明度。鑒于數據的收集具有挑戰性、成本高且耗時長,因此需要解決這些限制。此外,透明度可能會促進用戶對發現過程的理解,并盡量減少他們對ML理解過程的依賴。傳統MLT的另一個限制是它們缺乏自主性。例如,監督學習需要標記目標變量(即要預測的變量)。此外,一旦部署,它將需要后期維護,特別是隨著數據集的發展。為了解決這些局限性,研究人員已經采用了新的ML技術,并取得了可喜的成果。預計這些先進的技術將進一步擴大ML的應用范圍,最終目標是實現藥物發現管道中的人工智能(AI)。AI是計算機科學中一個廣泛的分支,旨在利用機器創造人類智能,而ML是實現這一目標的核心。近年來,ML的一個分支–深度學習作為一種能夠在處理結構化和非結構化數據時從大數據中獲得較高準確性的技術,獲得了越來越多的應用。

    先進機器學習技術

    對MTL的一些批評包括對大數據集和人工干預的需求。從這些評論中,人們研究了先進的技術來解決傳統的MLT的缺點,從而進一步擴大了它們的適用性。這些先進的技術包括強化學習(RL),它彌補了與自主學習技術之間的差距;遷移學習以及多任務學習,用于在缺乏大數據的情況下開發預測模型。在這里,作者提供了這些先進技術的概述,并舉例說明了它們在藥物發現中的應用實例。表2中列出了這些技術的概要。

    表2.?本綜述中介紹的先進技術概要

    圖片源自Drug Discovery Today

    Drug Discovery Toady | 藥物發現中的先進機器學習技術

    1. 強化學習(RL, Reinforcement learning)

    RL與有監督和無監督學習的區別在于,它是一種自主學習的持續學習形式。RL通過接收來自其環境的強化信號,從經驗上學習要采取的最佳決策。當代RL集中于從頭分子設計或分子優化。Popova等人針對藥物的全新設計進行了將這兩個方面結合起來的值得注意的研究。通過這種方法,RL與兩種深度學習技術相結合,一種是生成模型,作為媒介,生成表面上化學可行的分子;另一種是預測模型,作為批評者獎勵或懲罰生成模型的每一個生成的分子。使用這種方法,研究人員使用了來自CheMBL21數據庫的約150萬個結構來訓練基于SMILES字符串的生成模型。結果表明,合成了100萬個化合物,其中95%的化合物通過ChemAxon的結構檢查器被證實是可行的。該研究還進一步證明,通過深層RL,可以優化理想的物理性質、化學復雜性或生物活性的新型化合物。雖然該研究表明RL可以被利用來生成新的化合物,但還需要進一步的工作來完善該模型。例如,所采用的策略可能無法保證特定于藥物的化合物。此外,該研究使用了SMILES,盡管SMILES是一種簡單而優雅的化合物表示,但在生成模型中的使用也引發了一些問題。雖然在藥學領域,RL的應用僅限于藥物設計,但在更廣泛的醫學界如組學、生物成像和醫學研究等中均已經探索了該算法的其他潛力。RL的示意性表示如圖1a所示。

    2. 遷移學習(Transfer learning)

    如果數據短缺,那么有一些技術可以用來規避這個問題。其中一種技術是遷移學習,它將從解決一個任務獲得的知識遷移到另一個相關任務的過程。該技術利用從大數據集(A用于預測其目標變量Ya)生成的特征,并依次遷移知識以從數據集B(數據不足)預測不同的目標Yb。在深度學習的背景下,使用更大的數據集訓練模型的學習權重,然后將其遷移到執行新的類似任務的模型(圖1b)。研究發現,該方法的性能優于在較小數據集上訓練的常規MLT。此外,由于優化過程已經完成,因此可以將遷移學習快速部署到新模型中。它假設較大數據集中的預測特征原則上可以應用于不同但又相關的任務。另外,如果特征在物理上是相關的,則可以將學習到的特征部分地作為目標域的輸入特征進行遷移。遷移學習目前已經在光譜、圖像、音頻、文本、和數字數據類型等方面得到了較好的實現和應用。最近,遷移學習還被應用于各種材料,包括小分子、聚合物和無機晶體材料。該研究能夠成功地將遷移學習應用于觀測值較少的數據集。此外,還揭示了小分子和聚合物之間、無機化學和有機化學之間的潛在聯系。

    3. 多任務學習(Multitask learning)

    遷移學習是順序學習以及隨后知識向另一任務的遷移,而多任務學習是在一個模型中同時學習不同任務。研究發現,與單獨學習任務時相比,學習相關任務可同時提高預測性能。多任務學習的好處在小批量數據集或噪聲很大的情況下特別有用。此外,發現多任務學習優于傳統的MLT,尤其是在數據相對稀疏的情況下。使用神經網絡的示例,傳統體系結構一次學習單個任務,并為預測任務輸出單個層。相比之下,多任務學習輸出對應于預測任務數的多個隱藏層。相關任務在輸出層可能是不相關的,但應在內部表示級別將它們相關。多任務學習允許任務之間進行知識的歸納式傳輸。這優化了多個損失函數,可以使模型更好地概括多個任務。在多任務學習中,由于相關任務之間共享了額外的信息,因此數據得到了放大(圖1c)。多個任務能夠相互學習,并且能夠在相關特征和不相關特征之間進行過濾,尤其是在數據很少或存在大量噪聲的情況下。此外,由于可以同時學習多個任務,因此可以減少偏置和過度擬合的情況。多任務學習既可以用于有監督的學習,也可以用于無監督的學習,并且可以通過不同的MLT實現,例如神經網絡、kNN、貝葉斯多元線性回歸和SVM。

    在藥物發現中,多任務學習已發現可以用于解決多靶點藥物的作用。對此類候選物進行研究是因為它們具有嚴重的不利影響,這是對多個靶標采取行動的不利結果。同樣重要的是,最近還發現,在多種復雜疾?。ɡ绨┌Y和代謝性疾?。┲?,多目標藥物比單目標藥物更有效。Li等人利用了這一基本原理,他們表明多任務學習可以發現受同一藥物影響的有用的多個靶標。研究人員將無監督的ML用于他們的方法以及表達數據和化合物結構信息。楊等開發了一個名為“Macau”的多任務框架,用于大規模藥物篩選,同時獲得了有關藥物特性與細胞系之間相互作用的可解釋的見解。

    Drug Discovery Toady | 藥物發現中的先進機器學習技術

    圖1. (a)強化學習(RL),(b)遷移學習和(c)多任務學習的原理示意圖

    圖片源自Drug Discovery Today

    4. 主動學習(Active learning)

    主動學習是一種獨特的半自動化機器學習方法,它試圖使用用戶反饋來解決低標簽數據集的問題。與被動學習相比,主動學習是理想的選擇,因為在這種情況下,大量無監督的訓練數據需要昂貴且耗費資源的實驗來標記。因此,用戶可以進行實驗并隨后為數據集的子集標記數據,并使用主動學習來獲得對其余未標記數據的預測。例如,使用ML預測藥物通過血腦屏障的滲透率時,一個人可以對10%的分子進行實驗,并使用該10%的分子訓練模型以對另外90%的分子進行預測。如果模型不確定,它將進行查詢,然后研究人員可以對這些樣本進行實驗。因此,與被動學習相比,它有可能需要相當少的標記數據,從而在最小化成本的同時加快了藥物開發過程。最新研究表明,主動學習還可以用于預測小分子生物活性、配體-靶標相互作用和毒性。

    5. 生成模型(Generative models)

    如前所述,生成模型是能夠生成新樣本的MLT。它常被用于RL de novo應用程序,但其也可以用作獨立技術。生成模型通過直接從輸入數據中學習而將自己與區分模型區分開,并不一定要求用戶編寫明確的規則。生成模型可以通過實現數據分布的概率估計器來生成新數據實例,其中新數據位于分布內。換句話說,生成模型能夠為給定的分布生成新的樣本。這與判別模型形成對比,判別模型在給定數據實例的情況下揭示了標記數據的概率,而與數據實例是否有效無關(圖2)。最近的研究使用了深度學習生成模型,該模型除了生成新化合物外,還可用于處理小型數據集時的數據擴充和降維。?

    Drug Discovery Toady | 藥物發現中的先進機器學習技術

    圖2. (a)判別模型與(b)生成模型之間的差異。判別模型通過建立例如決策邊界來進行分類,而生成模型著眼于類別的概率分布

    圖片源自Drug Discovery Today

    6. 貝葉斯神經網絡(BNN, Bayesian neural networks)

    BNN是使用貝葉斯推理將多個神經網絡模型組合在一起的集合模型。與需要大量數據進行訓練的常規神經網絡不同,BNN可以處理較小的數據集,因為其具有避免過度擬合的能力。過度擬合是與大多數常規MLT相關的問題,BNN通過事先的概率分布來計算訓練期間眾多模型之間的平均值,從而產生網絡的正則化效應,進而避免了過擬合問題。換句話說,神經元的權重和偏置不是一個單個值,而是從分布中采樣出來的,該分布會定期更新以訓練BNN。對于藥物發現,目前BNN的使用還沒有被徹底探索。最近的一項研究表明,利用ChEMBL數據集,貝葉斯圖網絡在預測分子的抑制活性方面優于傳統圖網絡。最近,BNN被用于識別藥物分子,其中單個分類器的貝葉斯誤差分布可以產生93%的準確度,以區分藥物樣分子與非藥物樣分子。盡管BNN能夠解決神經網絡的某些缺點,但它們需要付出較大的努力來設計神經網絡,這可能會導致建立偶然的影響力,而這種影響力可以通過對其進行單獨編程來識別。

    7. 可解釋性算法(Explainable algorithms)

    ML的使用確實可以促進和加快決策,特別是對于日常任務。因此,可能沒有必要了解該模型實現的決策過程。但是,了解ML做出的決策過程將帶給研究人員進一步的信心。解釋模型可以幫助研究人員解決模型出現錯誤時的問題。此外,決策過程中的洞察力可能會引發合理的研究問題。另外,它可以通過提供對決策的見解來促進對研究的理解。同樣,如果要將該技術商業化,透明度也可能會引起對監管機構的信任。最近一個可解釋的機器學習示例被應用到構效關系建模中,其中發現半監督的回歸樹優于監督的回歸樹。Rodriguez-Perez和Bajorath使用不同的策略來預測活性,他們開發了一種方法,該方法闡明了傳統技術以及集成和深度學習模型的預測過程,從而消除ML模型的“黑匣子”性質。在他們的方法中,為每個特征分配了給定預測的重要性值,并依次概述了哪些特征對模型的貢獻最大。

    新興機器學習技術

    1. 混合量子機器學習(H-QML, Hybrid quantum-machine learning)

    機器學習與量子計算的混合已經成為預測分析中的一項強大技術。量子計算的主要前景是能夠解決復雜問題的效率,而這些問題對于傳統計算機而言卻過于昂貴。在經典模型中,處理單元計算的位為0或1,而對于量子計算,量子位qubit處于0和1的疊加狀態。量子位由量子邏輯門處理,與經典邏輯門相反,量子邏輯門是可逆的。這就產生了計算能力,并且可以防止信息丟失,而擁有更快的分析和較低的功耗能力?;旌狭孔覯L的定義尚待確定。迄今為止,它包括使用量子計算機執行ML算法或在ML中采用量子信息處理。前一種方法可以看作是量子增強型ML,而后者可以看作是量子啟發式ML。H-QML的優勢確實可以在制藥科學中加以利用,但是,在撰寫本文時,該技術尚未得到應用。2018年,IBM發表了一篇關于量子計算在藥物發現中的潛力的文章,其中作者將量子ML的潛力納入了其綜述范圍。最近,Google LLC發布了針對python的開放訪問量子ML框架,該框架將使研究人員能夠使用混合量子ML。因此,在制藥科學中混合量子ML有望很快實現。

    2. 推薦系統(Recommendation systems)

    推薦系統在2006年因Netflix競賽而聲名鵲起,該競賽旨在為其用戶創建準確的用戶偏好內容。推薦系統是一種ML框架,它基于在一組用戶(例如,客戶)到一組項目(例如,產品)之間建立鏈接的數據。推薦系統在電子商務中(例如,亞馬遜和YouTube)大量使用,以推動其銷售。此類技術的優勢在于它們具有處理數據稀疏性,在無法獲得先驗信息的情況下進行預測的能力,以及通過解釋推薦系統如何做出決策來提供透明度的能力。推薦系統已被應用到了醫療研究中,其根據患者的病史可以提出正確的治療方案。但是,在藥物發現和開發中的應用尚未建立。Sosnina等開發了用于化合物與靶標相互作用預測抗病毒藥物發現的推薦系統。作者使用了基于內容的過濾推薦系統,該系統適用于稀疏數據和可解釋性。此外,他們的模型使執行冷啟動預測成為可能,其可以在沒有實驗數據的情況下進行預測。鑒于藥物發現和開發中的數據受這三個問題的困擾,預計推薦系統的使用將會增加。

    總結

    本文作者詳細介紹了ML在無需人工干預的情況下實現流程自動化的方法。在缺乏大數據時使用遷移學習和多任務學習;BNN可以避免過度擬合;以及可以說明模型決策過程的可解釋算法。此外,本文還討論了新興技術及其在藥物發現中的潛在作用?;旌狭孔覯L有可能進一步提高預測性能,而推薦系統可以解決數據稀疏性。預期在不久的將來將采用本文所討論的技術,并且它們的應用將進一步促進藥物發現的研究。另一方面,模型做出的預測的質量將取決于數據的質量,因此,ML在藥物發現中的應用將受益于戰略性和統一的數據庫。

    參考文獻

    Moe Elbadawi, Simon Gaisford, and Abdul W. Basit, Advanced Machine-learning techniques in drug discovery, 2021, 26, 3, 769-777. DOI: 10.1016/j.drudis.2020.12.003.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放