<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    Nature Mach Intell | 類藥性預測準確率有極限嗎?

    Nature Mach Intell | 類藥性預測準確率有極限嗎?

    引言

    在藥物發現的早期階段,如何對沒有成藥前途的分子進行盡早排除以避免不必要的生物學和臨床試驗至關重要,類藥性則是其中一個關鍵概念。關于類藥性的研究已持續了幾十年,最早可追溯到上世紀80年代的Lipinski“類藥五規則”(Ro5)。但隨著藥物研究的進一步發展,Ro5這類啟發性的類藥性判別方法受到越來越多的質疑。此后在2012年Bickerton提出的QED(類藥性的定量估計)方法則慢慢替代了Ro5,尤其是在機器學習領域,如分子生成模型。本研究中,來自波蘭科學院的Bartosz A. Grzybowski搭建了幾種不同的深度學習模型(多層感知機、圖卷積網絡、自編碼器)來進行了類藥性預測,同時也對比了多種非藥數據集(NOC、PDB及ZINC)和多種分子表示(RDKit、Mold2、MCS、ECFP4、Mol2vec)對預測準確率的影響。作者也使用這些模型的貝葉斯神經網絡對預測結果的確定性進行分析,并整合多個模型進行預測使預測準確率達到了93%。此外,作者通過對模型輸出的隨機性誤差和知識性誤差進行分析得出結論:93%的類藥性預測準確率很可能是當前數據集的極限。

    數據集準備

    藥物數據集由2,136個FDA批準的小分子藥物組成(此后簡稱為DRUGS)。DRUGS來自DrugBank的 2,635條相關數據,作者從中過濾掉了(1)無機化合物和重金屬配合物,(2)平衡離子(包括富馬酸鹽和檸檬酸鹽)和(3)10個包含128個以上原子的分子(由于圖卷積網絡(GCNN)無法計算過大的分子),剩余分子被中性化并轉化為Canonical SMILES。

    作者在研究中使用了3個非藥數據集:(1)ZINC15,約1.9千萬個有機化合物;(2)Network of Organic Chemistry(NOC),包括來自Reaxys和專利的約6百萬個分子;(3)來自PDB的約1.3萬個配體。3個非藥數據集均經過與DRUGS類似的清洗與預處理及去重,并刪去與DRUGS中的藥物相似的分子(ECFP4的Tanimoto相似性大于0.85)。

    作者選擇了5種分子表示進行研究:(1)RDKit中的200個描述符;(2)777個Mold2描述符;(3)2,048位ECFP4指紋;(4)一個二進制向量,其中每維表示在藥物和非藥物數據集中最頻繁出現的3,000個最大通用子結構(MCS)之一的存在與否;(5)分子圖的張量表示,每個分子使用兩個矩陣表示:原子特征矩陣和一個鄰接矩陣。對RDKit和Mold2兩種分子表示,在模型訓練前在訓練數據集上進行了標準化,包括刪除方差為零(即對于所有化合物為零或完全相同)的描述符及減去均值并除以標準差。對分子圖的張量表示,其原子特征矩陣包含了原子雜化和與每個重原子相連的氫原子數這兩個特征。

    由于非藥數據集比DRUGS的分子數目大幾個數量級,因此陰性數據集必須加以平衡。除非另有說明,否則作者將對較大的(非藥物)集合進行隨機下采樣;也就是說,作者隨機抽取了與DRUGS大小相同的非藥樣本,并對多個(通常是三個)樣本計算平均準確率。在模型選擇期間,將包含藥物和相等數量的非藥物的每個平衡數據集按9:1的比例分為訓練集和測試集,并將較大的部分用于五重交叉驗證。測試集用于測試在整個訓練集上訓練的分類器(即用于交叉驗證的分類器)的效果。

    結果與討論

    評價QED預測效果

    類藥性的預測之所以必須使用多參數模型是因為類藥與非類藥分子無法簡單的通過任何單個描述符區分(圖1)。作者首先測試了目前廣泛使用的多參數模型QED對藥物分子與非藥分子的區分能力,并以QED作為本篇研究的基線模型。如表1所示,QED準確率在42-57%的范圍內,因陰性數據集而異。作者自己嘗試復現當初發表QED模型的論文中的結果,得到的準確率為65%左右。這些相對普通的準確率數值體現了不同數據集中QED分布之間的顯著重疊(圖2)。

    Nature Mach Intell | 類藥性預測準確率有極限嗎?

    圖1?藥物分子與非藥分子間常見理化性質的分布比較

    圖片來源:Nature Machine Intelligence

    ?

    Nature Mach Intell | 類藥性預測準確率有極限嗎?

    表1?不同類藥性預測模型的預測效果對比

    數據來源:Nature Machine Intelligence

    ??

    Nature Mach Intell | 類藥性預測準確率有極限嗎?

    圖2?藥物與非藥分子的QED分布對比

    數據來源:Nature Machine Intelligence

    非藥數據集的重要性

    作者研究了RDKit、Mold2、MCS、ECFP4和Mol2vec共5種分子描述符及ZINC、NOC和PDB共3個非藥數據集的不同組合對具有60個隱藏單元的MLP類藥性預測模型預測效果的影響。從表1中的數據可以明顯看出:(1)對于給定的一組非藥數據集,準確率僅在很小程度上取決于所使用的描述符的選擇;(2)使用不同的非藥數據集明顯影響準確率:如果使用ZINC則準確率約為81-87%,而如果使用NOC或PDB則準確率約為72-79%。那么問題來了,這些非藥數據集中存在的分子在多大程度上不同于真正的藥物?哪一組最不像藥?

    為了回答這個問題,作者采用標準的二元分類法來迭代地優化用于構建分類器的可靠陰性(RN,“最可能的非藥物”)的集合。首先,將非藥數據集的所有分子均視為真正的非藥物來構建分類器,即使用整個非藥數據集與DRUGS來訓練模型;然后使用該分類器對非藥數據集的分子進行分類,被分為非藥的分子組成RN;繼而使用RN與DRUGS進行模型訓練,并對不在RN的非藥分子再次進行分類,被分為非藥的分子則被納入擴充RN;迭代以上這些步驟直到不再有新的分子需要被納入RN。另外,作者也嘗試了另一種類似的方法,即首先將整個非藥數據集視為RN,然后迭代縮小RN直到RN不再縮小。最終,不在RN種的非藥分子數目越少,則認為此非藥數據集“最不像藥”。使用RDKit描述符的MLP模型作為分類模型進行上述實驗后發現“最不像藥”的非藥數據集是ZINC(表2),這也能一定程度地解釋表1中的準確率差異。作者建議將ZINC用作非類藥分子的陰性組,并在本文的后續研究中只使用ZINC。

    Nature Mach Intell | 類藥性預測準確率有極限嗎?

    表2?非藥數據集中的類藥分子數目

    數據來源:Nature Machine Intelligence

    訓練更復雜的類藥性預測模型

    作者還進一步研究了更復雜的深度學習模型在類藥性預測中的效果,共包括(圖3):(1)基于自編碼器(AE)的分類器;(2)分子圖卷積網絡(GCNN);(3)AE和GCNN各自的貝葉斯神經網絡(BNN)版。由于使用了ZINC作為陰性數據集,AE和GCNN僅比MLP略有改善,達到了約88%的準確率(表1)。

    Nature Mach Intell | 類藥性預測準確率有極限嗎?

    圖3?文中涉及的神經網絡架構的圖示

    數據來源:Nature Machine Intelligence

    但是,當使用BNN來比較兩者間預測的不確定性時,這些模型之間存在顯著差異。簡而言之,BNN在預測的同時可以進行誤差估計??傉`差(預測方差)可以分解為兩個部分:隨機性的(不可減少的,數據固有的)和知識性的(從模型本身產生并隨數據量的增加而減少)。圖4表明,同一測試集上的AE和GCNN在預測的類藥性數值和預測方差方面具有差異。從虛線定義的四個象限中,非對角線區域(左上角和右下角)最為有趣,因為在這些位置,兩個分類器的預測不一致。例如,考慮用AE正確分類而用GCNN錯誤分類的藥物(右下角),其中一些藥物的GCNN的預測方差較高,而AE的預測方差較低,這時可以通過選擇不確定性較低的預測結果而實現更準確的分類。

    Nature Mach Intell | 類藥性預測準確率有極限嗎?

    圖4?不同模型的類藥性預測結果與預測方差

    數據來源:Nature Machine Intelligence

    因此,作者通過組合不同的分類器并保留不確定性較小的預測來提高整體準確率。作者研究了圖5所示的三個模型及其組合的效果并在由1,281種世界藥物(FDA未批準)組成的不相交的藥物集和ZINC上進行了評價。單個模型的準確率為約88%,但組合模型則可以達到約93%(GCNN + AE為93.0%,GCNN + Mol2vec為92.6%,AE + Mol2vec為92.9%)。此外,組合模型也可以得到更好的靈敏度-精確度曲線(圖5)與ROC曲線(圖6)。

    Nature Mach Intell | 類藥性預測準確率有極限嗎?

    圖5不同模型的靈敏度-精確度曲線

    數據來源:Nature Machine Intelligence

    ?

    Nature Mach Intell | 類藥性預測準確率有極限嗎?

    圖6?不同模型的ROC曲線

    數據來源:Nature Machine Intelligence

    作者還觀察到,總方差在很大程度上由隨機性誤差決定,而知識性誤差對方差的貢獻僅在約7%-15%之間。如對于RDKit AE + GCNN和GCNN模型,隨機性的(“不可減少的”)方差的占比高達90–93%,這表明進一步增加數據只能略微地提高預測的確定性(減少誤差),而模型存在的誤差絕大多數是來自訓練數據本身固有的特征(類似于圖像處理中照片的模糊部分)。

    局限性

    盡管組合分類器具有令人滿意的靈敏度-精密度特征,但需要強調的是,該方法或任何其他AI方法都幾乎不能擺脫在化學上無意義甚至可笑的預測結果。例如,AE / GCNN分類器錯誤地將常見的烴(例如苯、環己烷或甲苯)識別為類藥分子。此類預測產生的原因是現有數據集所固有的——具體來說,盡管碳氫化合物的存在固然豐富,但它們僅占ZINC等數據庫中獨特分子結構的0.03%。當針對僅約2,000種FDA批準的藥物訓練分類器時,平衡后的陰性組樣本平均僅包含約1個碳氫化合物,因此不太可能學到這種知識。當然,可以通過擴大數據集來改善這種情況,但FDA每年新批準的藥物數量非常有限。另一種解決方法則是通過納入其他模型來避免問題。作者嘗試通過構建預測毒性的分類器來實現此目的,希望這些分子被預測為有毒的,從而排除出類藥范圍。奇怪的是,作者得到了更荒謬的結果:這些分子比通常的藥物分子更類藥。作者認為這與所使用的毒性數據集ClinTox與Tox21中收錄的分子通常與藥物分子結構類似有關,這也暴露了另一種廣泛使用的數據集中可能存在的數據偏差?;谶@些結果,作者認為目前唯一可行的方法似乎是在組合模型中納入啟發式的算法篩除已知的非類藥分子,雖然這種方法非常不優雅。作者嘗試了刪除(1)拓撲極性表面積和形式電荷等于零的化合物(如烴),(2)包含少于三個重原子的化合物和(3)含有化學毒藥中常見結構模式的化合物??偟臏蚀_率雖然不會發生明顯的變化,但是可以消除明顯的令人反感的分子。

    作者同樣嘗試使用其模型去區分臨床失敗的候選藥物與上市藥物,結果不出意外是幾乎無法區分。假設這些失敗的候選藥物已由專業藥物化學家進行了全面評估,因而沒有任何明顯的非類藥特征,那么這些結果則提醒我們,藥物的最終臨床成功與否不僅可以反映其化學結構的特征,還可以反映出經濟和知識產權因素,或者是競爭對手的類似產品療效更優異。

    代碼

    Computer codes underlying this work are made freely available for non-commercial uses under a Creative Commons Attribution Non Commercial-No Derivatives 4.0 International (CC BY-NC-ND 4.0) license and are deposited at https://zenodo.org/record/3776450.

    參考文獻

    Beker, W., Wo?os, A., Szymku?, S. et al. Minimal-uncertainty prediction of general drug-likeness based on Bayesian neural networks. Nat Mach Intell 2, 457–465 (2020). https://doi.org/10.1038/s42256-020-0209-y. Published Date: 12 August 2020

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放