
引言
外排轉運蛋白P-糖蛋白(P-gp)負責從細胞中轉運包括藥物分子在內的多種分子。因此,P-gp介導的外排轉運限制了藥物的生物利用度。為了在藥物發現過程的早期識別潛在的P-gp底物,已經基于結構和物理化學描述符開發了計算機模型。本文中,作者研究了分子動力學指紋(MDFP)作為正交描述符用于訓練機器學習(ML)模型來將小分子分類為P-gp的底物和非底物。MDFP對來自不同環境(水,膜或蛋白質口袋)中分子的短時間MD模擬的信息進行編碼。在內部數據集(3930種化合物)和來自ChEMBL的公開數據集(1114種化合物)上對MDFP的性能作了評估,并且與常用的2D分子描述符(包括基于結構和基于屬性的描述符)進行了比較。作者發現,所有測試的分類器均能很好地插值,從而在化學多樣化的子集上實現了較高精度。但是,通過使用外部驗證和前瞻性分析對模型進行挑戰,作者發現只有在MDFP或基于屬性的描述符上訓練的基于樹的ML模型才能較好地將化學空間推廣到訓練集未涵蓋的區域。
背景介紹
P-糖蛋白(P-gp)通過抵消通過細胞膜的被動擴散,在大腦可利用性和耐藥性中起著關鍵作用。其在血液組織屏障尤其是血腦屏障中高水平表達,阻止異種生物以及潛在的CNS藥物進入中樞神經系統(CNS)。此外,已經發現P-gp在抗性腫瘤細胞中的過表達與化學治療藥物濃度降低相關。由于P-gp影響藥物的藥代動力學,因此新型候選藥物的外排轉運研究已成為藥物發現項目早期的重要步驟。目前已經開發了廣泛的計算模型,包括基于結構特征或理化性質的簡單規則,基于結構的對接方法以及定量的結構-活性關系模型。已經知道藥物成為P-gp底物的可能性與其物理化學性質以及其他參數(如氟原子數)相關。許多基于多參數的計分方法,尤其是針對中樞神經系統藥物的計分方法,以幫助合理設計大腦可利用性和細胞可滲透性藥物。盡管進行了所有這些努力,但由于準確的前瞻性預測仍具有挑戰性,因此非常需要用于P-gp底物的新穎預測方法。
機器學習(ML)方法到目前為止顯示出區分P-gp的底物和非底物的最高預測能力。但是,大多數已發布的ML模型都是在公共數據集上進行訓練的,盡管對研究人員來說非常有價值,但通常會受限于它們的大?。ㄍǔI儆?000種化合物)和數據的異質性。大型且一致的數據集的可用性對于測試ML方法的真正潛力至關重要。
分子動力學指紋(MDFP)最近已被開發為小型有機化合物的替代分子描述符。MDFP在短時間分子動力學(MD)模擬中描述了這些信息,因此可以通過ML方法加以利用(圖1)。在開源MDFPtools軟件包(https://github.com/rinikerlab/mdfptools/)中實現了從SMILES開始生成MDFP的自動化工作流程。結果表明,在MDFP上訓練的ML模型與最新的計算方法(即自由能擾動或COSMO-RS)具有相似的性能,可以預測水合自由能和分配系數。此外,該方法是提交給SAMPL6挑戰以預測辛醇-水分配系數的前十名之一。?

圖1 使用MDFPs預測P-gp底物和非底物的計算流程示意圖。
圖片源自JCIM.
方法介紹
1. 數據集準備:1)內部數據集。對AbbVie數據集(包括9924種8777種化合物的流出比測量值)進行整理和分類(外排比ER≥5的化合物被分類為底物,而外排比ER≤1的化合物被分類為非底物)以及去除某些容易富集(如含硫化合物)而帶來潛在的偏向的化合物之后,最終的數據集由3930種化合物組成,其中包含1031種底物和2899種非底物。2)公開數據集。從ChEMBL數據庫收集了1114種具有720種底物和394種非底物的P-gp化合物的數據集。3)化學空間分析。使用t-SNE方法在兩個維度上映射了兩個數據集所覆蓋的化學空間。使用ECFP4 Tanimoto系數評估每對化合物之間的距離。
2. MD模擬。對于每種化合物,使用RDKit中的ETKDG構形生成器生成三維(3D)坐標,并使用RDKit中的MMFF力場將其能量最小化。使用ChemAxon插件確定質子化狀態和互變異構形式。使用GAFF和AM1-BCC部分電荷對化合物進行參數化。
3. MDFPs的構建。根據化合物在水、脂質雙層和P-gp結合口袋中的MD模擬,可以構建不同的MDFPs。從GROMACS軌跡構建MDFPs的功能已包含在MDFPtools軟件包(https://github.com/rinikerlab/mdfptools/)中。此外,可以在GitHub(https://github.com/rinikerlab/mdfptools/tree/gmx/tutorials_mdfp)上獲得用戶教程,以指導用戶完成MD模擬的設置、MDFPs的構建以及ML模型的訓練。對于膜-溶質MDFP體系,構建了三個MDFP變體,它們包含從POPC雙層中的化合物的MD模擬得出的特征(圖2):MDFP_POPC,MDFP_POPC *和MDFP_WAT_POPC *。MDFP_POPC描述符由分子內和總能量項、SASA和Rgyr等特征組成;MDFP_POPC *描述符將MDFP_POPC與其他基于MD的特性相結合,這些特性描述了化合物在脂質環境中的特征行為;MDFP_WAT_POPC *是MDFP_POPC *和MDFP的組合(來自水中的MD模擬)。而對于MDFP_PL,除了上述特征外,還計算了溶質與起始構象的RMSD??梢栽冢╤ttps://github.com/rinikerlab/mdfptools/tree/gmx/tutorials_mdfp)上獲得蛋白質-配體MDFP的構建教程。
4. 2D分子描述符。使用RDKit基于化合物的2D結構生成所有指紋。包括Baseline2D,PropertyFP,ECFP4和PathFP。
5. ML模型。結合所描述的指紋測試了四個不同的分類器:隨機森林(RF),梯度樹增強(GTB),支持向量機(SVM)和meta-learner 分類器。

圖2 膜-溶質MDFP(MDFP_POPC *)和蛋白-配體MDFP(MDFP_PL)的構建示意圖。
圖片源自JCIM.
結果1.內部和公開數據集的表征
為了可視化對應于這兩個數據集的化學空間,使用ECFP4指紋進行了t-SNE分析。圖3A顯示兩個數據集覆蓋了化學空間的不同區域。一些密集區域僅由底物或非底物構成,而其他區域則包含這兩類化合物(圖3B)。公開數據集主要填充t-SNE圖的中心區域,并且沒有呈現大分子簇(圖3A)。因此,可能很難基于ECFP4指紋將公共數據集的化合物分為底物和非底物。相反,由于內部數據集的化合物在這兩個類別之間顯示出較少的重疊,因此使用ECFP4描述符可以期望ML模型獲得良好的性能。?

圖3 內部和公共數據集覆蓋的化學空間比較。
圖片源自JCIM.
為了評估底物和非底物分布之間的差異是否具有統計學顯著性,我們進行了Welch t檢驗,我們發現在類別之間顯示出更大差異的特征是描述化合物的極性/疏水性、氫鍵能力和柔性的特征。其中包括2D計數,例如可旋轉鍵的數目以及氫鍵供體和受體的數目,還包括從水中的MD模擬得出的屬性,例如3D-PSA、SASA、分子間LJ勢能以及各能量項的標準偏差。不管是內部數據集還是公共數據集,底物似乎比非底物分子量更大、極性更大且更具柔性。
結果2.?評估分類器的預測性能
我們評估了四種不同的ML方法(RF,GTB,SVM和meta-learner)與六種不同的指紋(包括基于屬性的指紋、基于MD的指紋和基于結構的指紋)的性能,用于對P-gp的底物和非底物進行分類。內部數據集和公共數據集的不同訓練-測試拆分用于評估分類器的準確性、可概括性和預期性能。圖4顯示了內部數據集的不同模型之間的遺傳算法比較。所有分類器均具有較高的預測能力,GA率介于0.78±0.02和0.86±0.02之間(表1)。盡管RF和GTB與PropertyFP或MDFP結合使用可獲得更高的精度,但SVM在二進制結構指紋ECFP4和PathFP方面表現最佳。實際上,表現出最好分類結果的模型是SVM/ECFP4_MDFP,其準確度= 0.85±0.01,MCC = 0.66±0.02和AUC = 0.92±0.01。?

圖4 在不同的ML模型和描述符之間針對內部數據集的分層化學多樣性拆分而獲得的GA的比較。
圖片源自JCIM.

表1. 內部數據集分層化學多樣性拆分上不同分類器之間的性能比較。
圖片源自JCIM.
結果3.?膜-溶質MDFPs和蛋白-配體MDFPs的性能評估
MDFPs方法的主要優點之一是多功能性,即可以根據要預測的屬性或生物學過程對其進行修改和擴展。由于分子模擬的計算成本較高,因此僅針對公開數據集(1140種化合物)以及內部數據集中的1000種化合物的平衡子集生成了膜-溶質和蛋白質-溶質MDFPs。通過使用RDKit中的MaxMin算法來選擇化合物,可以最大限度地提高內部子集的化學多樣性。膜-溶質和蛋白質-配體MDFPs的預測能力在分層化學多樣性拆分上進行了測試。對于公共數據集,采用的決策閾值為0.6。表2列出了RF獲得的結果。對于這兩個數據集,由MDFP_POPC*和MDFP_PL描述符實現的性能都不錯,但并不比上面討論的水MDFPs更好。實際上,與僅包含15個2D計數和屬性的Baseline2D相比,MDFP_POPC *和MDFP_PL的性能明顯優于空模型,但給出的結果相似(甚至稍差)。此外,MDFP_POPC和MDFP_POPC *之間的比較表明,增加表征膜中溶質行為的特性不會導致性能的提高,且混合MDFP_WAT_POPC*和MDFP_WAT_PL描述符的性能分別優于單個MDFP_POPC*和MDFP_PL組分。?

表2. 在內部數據庫和公共數據庫中用于RF分類器的膜-溶質和蛋白-配體MDFPs的性能概述。
圖片源自JCIM.
總結
在本工作中,我們研究了MDFP/ML方法區分P-gp的底物和非底物的能力。MDFPs是根據化合物在水中的MD模擬情況來建立的,并用作四種不同的ML分類方法(即RF,GTB,SVM和meta-learner)的輸入。我們證明了ML方法和指紋圖譜的所有組合在最大化學多樣性的化合物子集上都具有很高的相似性能。甚至僅由15個2D計數和屬性組成的Baseline2D指紋也實現了高精度。對特征重要性和部分依賴性圖的分析證實了先前研究的觀察結果,即化合物的極性、疏水性、氫鍵形成能力、分子量大小和柔性與化合物成為P-gp底物的可能性相關。因此,不同的描述符表現出相似的性能,因為它們都以不同的方式對這些屬性進行編碼。此外,組合的ECFP4_MDFP4指紋比其單個組分表現出更高的性能,這表明基于結構的描述符和基于MD的描述符是正交的,并攜帶與P-gp底物分類有關的互補信息。盡管所有分類器均能很好地插值,但外部驗證表明,只有在MDFPs上訓練的基于樹的分類器才能外推到訓練集未涵蓋的化學空間區域。同樣,與使用其他指紋訓練的模型相比,基于MDFP和PropertyFP的模型對未見化學系列化合物的泛化效果更好。
由于細胞膜和P-gp在外排轉運中都起著基本作用,因此我們探索了通過將這些環境中的特征添加到化合物的MDFPs中是否可以進一步提高分類器的準確性。膜-溶質和蛋白質-配體MDFPs是通過分別在POPC脂雙層和與P-gp結合的化合物的MD模擬中建立的。在這些描述符上訓練的ML方法產生了良好的分類模型(準確率高于0.7)。我們發現膜-溶質和蛋白質-配體MDFPs中最相關的特征是溶質和LJ能量項的SASA,而不是代表化合物在膜中的特定行為或與蛋白質相互作用的元素。這至少部分地解釋了為什么使用這些描述符并沒有導致性能提高的原因。
綜上所述,這些發現表明,除了描述化合物的極性、分子量大小和柔性的特征外,還需要更好地了解外排機制以及P-gp的多特異性,以指導更好的描述符的發展,從而更加準確的用于鑒定P-gp底物的計算模型。
參考文獻
Combining Machine Learning and Molecular Dynamics to Predict P?Glycoprotein Substrates, Carmen Esposito, Shuzhe Wang, Udo E. W. Lange, Frank Oellien, and Sereina Riniker. J. Chem. Inf. Model.2020, DOI: 10.1021/acs.jcim.0c00525