
引言
在過去的二十年以來,Bayer Pharma創建了以為早期藥物發現中的各種藥代動力學和理化性質建立模型為目標的藥物吸收、分布、代謝和排泄(ADMET)計算平臺。該工具在協助選擇和設計新穎的先導化合物以及先導化合物的優化過程中非常有用。本文綜述討論了機器學習(ML)方法的開發,特別是數據、描述符和算法方面。作者認為高質量的數據和量身定制的描述符以及對實驗結果的透徹理解對該模型的實用性至關重要,同時還借用具體的應用案例討論了深度神經網絡的最新進展。
背景
ADMET是發現和優化新藥的關鍵參數。長期以來,制藥公司已投入巨資開發新的檢測方法并提高其檢測能力,從而使他們能夠在高質量的體外ADMET檢測中表征數千種化合物。目前已有的結構-活性/結構-特征關系(SAR/SPR)數據是個巨大的寶庫,并且有可能影響進行這些測定的特定項目的研究。計算研究人員們一直在使用這些數據來理解某些ADMET特征的基本原理,并開發可作為輔助工具來協助研究人員尋求新化合物的計算機模擬模型。這些模型的主要目的不是減少體外或體內ADMET實驗的總數,而是讓科學家們將實驗更好地集中在最有希望的化合物上。
本文作者首先討論了拜耳公司在過去20年間ADMET計算方法的發展。一般來說,ADMET計算可以由兩種概念上不同的方法來實現,第一種是基于蛋白質結構的方法,其通過將化合物與對ADMET特性重要的蛋白質的相互作用建模并用于設計更好的化合物,它需要明顯與單一ADMET相關蛋白(例如細胞色素P450酶,PXR,hERG,PgP或HSA)相關的ADMET效應以及這些蛋白的高分辨率X射線結構。本文作者主要集中于第二種概念方法,即使用許多化合物的體外/體內測量數據來構建使用ML的模型(圖1)。

圖1 機器學習(ML)三元組,包括數據、算法和描述符
圖片源自Drug Discovery Today.
數據
在對數據進行建模之前,必須進行一些數據準備處理。首先對于化學結構,要除去鹽離子,將電荷和互變異構體狀態標準化,同時對結構進行3D立體化。而對于分析數據則通常需要更加細致的處理,對于不確定的數據必須刪除;對于已經明確的數據,可以保留它們作為分類器,但針對回歸模型必須將其刪除或進行調整;在多次測量得到不同數據的情況下,必須對這些數據進行匯總,同時采用中值比平均值更好,因為它們受異常值的影響較小。此外,如果無法以有意義的方式合并數據,則可以選擇將這兩種測定數據用作多任務模型中的不同任務。一般來說,數據集越大,化學性質越多樣化,值的分布范圍越廣且分布越均勻,且實驗誤差越低,模型的性能越好。多年來,隨著文章作者的專有數據集的規模不斷擴大,作者進而能夠將模型從分類器轉變為回歸模型(圖2)。

圖2 拜耳公司的ADMET/理化計算模型。其中模型類型C(分類器),N(數值),C(N)是作為分類器呈現給用戶的數值模型。PLS:偏最小二乘,RF:隨機森林,SVR:支持向量回歸,SVM:支持向量機,ANN:人工神經網絡,MTNN:多任務神經網絡。從紅色(質量不佳),淺綠色(良好模型:高質量分類器和中等質量數字模型)到深綠色(穩健模型:高質量數字模型)的顏色過渡顯示了2005年以后模型質量的歷史發展。
圖片源自Drug Discovery Today.
描述符
分子是包含原子核和電子的動態多構象3D實體。直接將分子化學式轉換為機器可讀的描述符會導致信息丟失。根據分子場或來自3D結構的量子化學所提供的信息,可以通過增加復雜性將描述符分為1D構造描述符(例如分子量),2D或拓撲描述符(例如指紋)和3D描述符。自2001年以來,文章作者提出的work-horse描述符得到了十分廣泛的應用,其通過圓形擴展連通性指紋(circular extended connectivity fingerprints,ECFP)將原子及其鄰近原子屬性編碼為一定半徑、特征類型和折疊的位向量進行計算取得了不錯的效果。受機器翻譯模型的啟發,作者又開發了一種將分子的SMILES編碼為512D連續空間的方法,以及使用遞歸網絡將嵌入的分子編譯回SMILES的規范形式。這種類型的網絡僅取決于化學結構,可以在具有數千萬個結構的超大型數據集上進行訓練。所得的分子描述符對于建立定量構效關系(QSAR)模型(尤其是與支持向量機結合使用)和虛擬篩選時很有用。
或者,一個分子可以看成是一個圖,原子是節點,成鍵是邊。這為生成用于機器學習的描述符提供了另一種方法。圖卷積網絡是一種特定的神經網絡體系結構,可以以端到端的方式學習節點和和成鍵特征。每個節點的特征表示通過使用所謂的“鄰接矩陣”對其鄰近原子的特征求和或求平均值來聚合。然后將聚集的節點反饋至神經網絡,該神經網絡使用具有學習權重的仿射變換和非線性激活函數進行仿射變換,其效果是學習了原子特征,并且圖中的相鄰原子可以相互影響。需要注意的是,由于訓練過程是端到端的(即提取的特征是針對當前問題量身定制的),因此需要大量的訓練集來避免過度擬合。
特別地,尤其是對于超出類藥五規則的化合物以及近來頗受關注的大環化合物,從2D表示中得出的描述符是遠遠不夠的。因此需要添加新的描述符,例如極性表面積或(分子內)氫鍵。從分子動力學中衍生出來的MDFP正是一類能夠滿足該需求的描述符,可以將其用于構建無溶劑化的能量和分布系數??傊?,好的分子3D特征的描述將是一種改進ADMET計算和其他ML模型的有效方法。
算法
描述符和特征(endpoints)之間的依賴關系往往是非線性的,因此也需要非線性算法。作者多年來的實踐發現支持向量機和隨機森林通常是最有用的算法,而偏最小二乘法有時會產生在更長時期內更穩定的模型。此外,回歸模型始終優于分類器,因此,需要不斷對新算法進行評估。
過去5年當中,深度神經網絡在計算化學中的使用急劇增加,其非常適合多任務學習,并且通常十分有效果,因為它們可以提取不受特定指紋選擇影響的化學特征。指紋和隨機森林的經典方法在分類性能上與深度學習相同,而用于exposure的回歸模型只能通過深度學習方法來實現。深度學習還使多任務學習(即在一個模型中同時學習多個相關任務)變得非常自然。尤其是對于理化性質預測,將圖卷積網絡與多任務訓練相結合可以使所建模型的性能顯著提高。受益于這種新型多任務深度學習網絡的endpoints之一是分子的溶解性預測。在這里,我們能夠用回歸模型取代之前的分類模型來進行分子溶解性的預測(圖2)。
模型質量評估
通過嵌套交叉驗證(CV)和獨立測試集對模型進行正確評估,對于確保在用于訓練的除化學空間之外的可靠建模至關重要。對于分類或回歸問題,必須應用不同的度量指標。分類模型的通用指標源自所謂的“混淆矩陣”(confusion matrix),該矩陣提供了真陽性、真陰性、假陽性和假陰性的數量,并提供了整體準確性、敏感性、特異性、陰性/陽性精度值以及Matthews相關系數(MCC)。另一種流行的指標是ROC曲線下的面積(AUC),它為每個可能的類別閾值提供了模型的分類性能。對于回歸模型,常用指標為R2(確定系數R的平方)、均方根誤差(殘差的標準偏差)和Spearman’s rho參數(非參數秩相關系數)。
除了選擇正確的度量標準之外,精心選擇的統計驗證手段對于在過擬合和欠擬合模型的兩個極端之間找到合適的平衡也至關重要。通常,我們會保留20%的數據作為外部測試集以確保最終模型的質量。其他80%用作CV設置中的訓練數據。隨機拆分的CV不足以用于類似藥物的化學同類系列。按時間順序的“time-dependent” CV或“leave-cluster-out”的CCV是更實用的estimators,它表明模型可以外推到無法預料的新化學空間。K-Means聚類是我們首選的“leave-cluster-out”驗證方法,因為它便于計算并能夠產生不錯的結果。作者認為對于分類模型,MCC應該大于0.4,而對于回歸模型,Pearson R2應該大于0.3,Spearman R2應該大于 0.6。
源自測試集的預測誤差能夠提供有關此集合的平均性能的信息,但不能提供有關單個新分子的預測可靠性的信息。因此,近年來引入了許多不同的所謂“適用范圍”(applicability domain,AD)方法,這些方法可以分為兩類,即將距離量度用于將新對象嵌入訓練集中的程度的方法稱為“新穎性檢測”(novelty detection),而量化到分類器決策邊界距離的方法稱為“置信度估計”(confidence estimation)。前者可以應用于使用例如cosine、Tanimoto或Mahalanobis distance到完整訓練集的任何算法,而后者則完全取決于算法。大多數Bayer模型都提供算法固有的可靠性估計以及實際值。對于隨機森林,這是決策樹的百分占比,而對于SVM,這是距超平面的距離。低于某預定義閾值(例如,隨機森林為0.6)的預測模型沒有被報道,而多任務模型尚未提供可靠性指標。
應用實例
作者所在的拜耳公司的內部數據信息平臺已成為協助先導化合物選擇、化合物和合成路線選擇的有用工具,它使拜耳公司的所有科學家都能快速訪問最新模型。典型的決策電子表格如圖3所示。

圖3 拜耳公司的內部數據信息平臺展示的電子表格信息。
圖片源自Drug Discovery Today.
ADEMT計算平臺是Next Generation Library Initiative (NGLI)的組成部分,其旨在利用50萬個新設計的化合物增強篩選效果,并應用Pareto設計獲得良好的物理化學和ADMET預測性能。圖4a顯示了與拜耳高通量篩選(HTS)庫相比,NGLI化合物的口服PhysChem評分的分布情況,口服PhysChem評分是五個預測的物理化學性質(溶解度、拓撲極性表面積、分子量、親脂性和分子柔性)的綜合評估。分數越低(在0-10之間),則說明性質越好。此外,作者還開發了兩種用于代謝轉化的區域選擇性建模的方法,即CypScore和MetScore,這些方法已經在許多旨在降低肝臟清除率的項目中得到應用。其中一個例子是鹽皮質激素受體拮抗劑系列(圖4b),其提出了此前未知的代謝清除途徑。作者所在團隊也一直在研究幾種與ADMET相關的蛋白質的基于蛋白質結構的ADMET設計,但是成功的例子很少。那些易脫靶蛋白往往具有較大且高度靈活的配體結合位點,可以識別各種配體。通常,在這種情況下,當X射線晶體學顯示每個新共結晶的配體具有新穎的蛋白質構象時,常用的對接方法就無法得到較好的效果。為了解決這個問題,作者采用了一種新的配體與孕烷X受體(PXR)共結晶,結合對接和利用蛋白質結構信息減少蛋白質與配體的接觸并克服持續的Cyp3A4誘導問題。圖4c顯示了具有強PXR結合能力的高親和力凝血酶抑制劑結合情況。在PXR配體結合位點(Trp299和Phe288之間,橙色表面,紅色箭頭)的高度親脂性區域引入酚羥基會導致結合相互作用的顯著降低。

圖4 拜耳公司ADMET計算工具的應用實例。
圖片源自Drug Discovery Today.
結論與展望
在過去的二十年中,在開發、應用和實驗ADMET計算工具模型時,作者總結這些工具的成功應用主要取決于:(i)模型質量;(ii)與研究過程的模型相關性;(iii)易于獲取和解釋結果。數據、算法和描述符都有助于模型質量。大量同質數據和量身定制的描述符對于實現穩健適用的模型至關重要。自動生成大量模型(數據拆分、描述符和ML算法的組合)以及選擇最準確的模型是有十分有用的。計算機模型與易于獲得的體外/體內試驗的比對,對于來自不同領域的許多科學家來說,對于藥物開發項目中計算機方法的接受和使用非常重要。盡管理化特征的建模工作已經相當不錯了,但是口服生物利用度的主要優化參數(例如細胞滲透和代謝清除率)以及體內方法仍需要進行重大改進。單一制藥公司的有限數據集和已發布的數據集可能不足以實現該目標。因此,保護隱私數據共享的新穎方法可能是克服數據不足并進一步推動該領域發展的一種解決方案??紤]到分子內氫鍵和互變異構體,更好的基于3D的分子描述符可以帶來進一步的改進。當前和未來的挑戰是如何將ADMET計算模型正確地嵌入到整體人工智能方法(以及結合親和力和化合物合成能力的預測)以及適用性范圍評估的高級解決方案。
?
參考文獻
Andreas H. G?ller, Lara Kuhnke, Floriane Montanari, Anne Bonin, Sebastian Schneckener, Antonius ter Laak, J?rg Wichard, Mario Lobell, Alexander Hillisch, Bayer’s in silico ADMET platform: a journey of machine learning over the past two decades, Drug Discovery Today,2020, https://doi.org/10.1016/j.drudis.2020.07.001.