
引言
深度學習的質量和效率,在很大程度上,取決于被學習對象的表示。特別是,增強的藥物學習,依賴于適當的分子表征(MolRs)。通過直接從分子的底層圖形中,學習它們自己的優化表示,基于圖形的MolRs從頭學習,顯著提高了對藥物和物理化學性質的深度學習,優于那些基于傳統的分子描述符(MolDs)和指紋特征(FFs)。因此,對MolRs的更廣泛的探索,彌補了基于圖的方法和其他方法的不足,從而增強了對藥物性質的深度學習。許多MolDs和FFs,都來源于人類專家知識,用于全面描述分子的結構、物理化學、拓撲、結構和子結構特征,這些是有價值的特征生成和藥物特性深度學習的先驗知識。但關于如何將這些先驗特征,轉化為更合適的表征,仍然存在疑問。一般來說,良好的表征是任務非特定先知,它捕獲了多個潛在解釋元素的后驗分布,能夠對這些元素進行解糾纏和聚類,支持任務函數的平滑和靈活的局部泛化。例如,破壞-構造學習方法,能夠識別高難度的細粒度圖像。在破壞構造學習中,輸入圖像被分割成局部區域,然后對局部區域,進行洗刷以暴露有區別的局部特征,然后重構以揭示語義跨區域的相關關系,從而在三個基準數據集上,實現了最先進的(SOTA)性能。因此,適當的特征生成,可以通過廣泛分析不同的MolDs和FFs,相對于已知化學空間中的大量分子的內在相關性來建立。此外,利用卷積神經網絡(CNNs)的共享權值架構,將一維無序向量轉換為二維(2D)聚類特征映射(Fmaps),可以實現高效的學習(參數保存)。這種特征生成方法的發展,可以通過對MolRs、開源工具、相關度量、化學多樣性和特征的量化,以及維數縮減法的廣泛研究來促進。這篇文章中,研究者開發了一種新的分子特征生成方法MolMap,用于將MolDs和FFs映射為魯棒的2D Fmap,捕捉分子特征的內在相關性(本文中所使用的的數據集總結如表1)。
深度學習背景
目前,基于四個MolR類,可進行藥物性能的深度學習。
1. 第一個是基于圖的特征表示,其中的圖卷積網絡(GCNs)或圖注意力網絡(GATs),已被探索用于直接從分子的底層圖進行從頭學習,獲得SOTA在制藥相關任務中的性能。
2. 第二種是基于字符串的表示,其中CNN和遞歸神經網絡已被用于從化學結構的字符串表示的嵌入中學習(例如,典型簡化的分子輸入行輸入系統(SMILES))。
3. 第三種是圖像表示,CNN已被用于,從基于規則的二維化學數字網格或Kekulé圖像渲染中學習。
4. 第四種是基于知識的表示,深度學習模型已經開發出來,用于從先驗的人類知識衍生的模型或FFs中學習。

表1.?本研究基準數據集總結
表格來源于Nat. Mach. Intell.
雖然在不依賴人類直覺的情況下,探索較低級的表示方式是更好的,但廣泛的MolDs和FFs知識基礎,對于從人類知識的角度學習MolRs和藥物特性,是非常有用的。特別是,MolDs和FFs的子集顯示出高度的相關性,這為合適的MolRs提供了獨特的線索。一些MolDs或FFs是通過設計相關的(例如,MolWeight和MolExactWeight),而一些不相關的MolDs顯示出高度的內在相關性?;瘜W篩選收集的調查顯示,極性表面積與氫鍵受體和供體的數量有關。這些相關的MolDs或FFs的聚類以及它們在2D fmap中的投影,使特征模式聚類,能夠通過共享權CNN架構進行高效學習。為了協調學習MolDs和FFs,最好使用MolDs和FFs的通用相關度量。余弦相關與在某些基于FF的分子研究中廣泛使用的谷本系數,和在一些基于MolDs的分類任務中廣泛使用的歐氏距離一樣,一直表現得相當好。因此,余弦相關可以用于基于MolD/FF的特征生成。要從CNNs的MolDs和FFs中學習,需要將高維MolDs和FFs投影到2D Fmap中,這需要一個流形學習算法,且信息損失最小。最近開發的統一流形近似和投影(UMAP)工具,基于黎曼幾何和代數拓撲算法,已經證明了這一任務的競爭力。
MolMap Fmap
利用MolMap包(圖1),研究者生成了阿司匹林及其類似物N -乙酰鄰氨基苯甲酸的MolD和FF Fmap(圖2)。盡管這些分子在結構上高度相似,但它們的MolD Fmap包含小范圍的明顯不同的圖案,它們的FF Fmap包含明顯不同圖案的區域。這些模式(例如,圖2中的紫色和淺藍色虛線框)可以被典型的CNN過濾器捕捉到。在MolD Fmap中,不同的MolD類別主要集中在不同的區域。在FF Fmap中,PharmacoErGFP FFs與其他FFs基本分離,而MACCSFP和PubChemFP FFs互補分布在同一區域。此外,相關的MolDs或FFs形成集群。例如,例如,三種藥物相似(QED) MolDs的定量估計(MolQedWeightsMax、MolQedWeightsMean和MolQedWeightsNone)聚在一起(圖2),其他各種相關的MolDs也聚在一起。這些結果表明,MolMap fmap在分子和結構特征上,具有獨特的表征和內在的相關性。

圖1.?MolMap特征展現流程表
圖片來源于Nat. Mach. Intell.
?

圖2. MolMap多通道描述符和指紋Fmaps
圖片來源于Nat. Mach. Intell.
?

圖3. MolMapNet深度學習架構
圖片來源于Nat. Mach. Intell.
?

表2.?MolMapNet在15個基準數據集上的性能與基于圖的模型進行的比較
表格來源于Nat. Mach. Intell.
相對于基于SOTA圖的GCN/GAT模型的
MolMapNet的深度學習性能
GCNs/GATs在許多基準數據集上,都達到了SOTA性能。在這些GCN-/GAT測試的數據集中,有13個藥物(3個分子結合,6個生物活性,3個毒性,1個藥代動力學)和3個物理化學數據集,具有可用的數據分裂代碼。因此,研究者在這16個數據集上開發了MolMapNet OOTB模型(圖3),并使用相同的數據分割、評價度量和(針對多任務數據集)多任務訓練方法,將其與發布的GCN/GAT模型(表2)的性能進行比較。在12個藥品數據集中的9個上,MolMapNet優于分子網模型和定向消息傳遞神經網絡(D-MPNN)模型,但在所有3個物理化學數據集上,MolMapNet的表現低于GCN模型(表2)。在8個藥物數據集中的7個上,MolMapNet的表現也優于AttentiveFP模型,但在所有3個理化數據集上,MolMapNet的表現低于GAT模型。這些結果表明,MolMap Fmaps是非常合適的MolRs, MolMapNet在學習SOTA的藥物特性方面,是非常有用的。MolMapNet在物理化學數據集上表現不如GCN/GAT模型,部分原因如下:MolMapNet從MolDs中學習,其中一些MolDs是計算出的物理化學性質(例如,計算出的logP、clogP)。物理化學性質的MolMapNet學習,受到物理化學性質值的計算MolDs的內在誤差的影響(例如,藥物的clogP值與實驗值之間的相關系數為0.955)。GCN/GAT從頭學習算法避免了這些內在錯誤,因此對學習物理化學性質更有優勢。在12個基準數據集上,MolMapNet OOTB模型與D-MPNN模型和AttentiveFP模型相比,在10個不同的數據分割隨機種子上,進一步評估了MolMapNet OOTB模型的性能。除物理化學性質預測任務外,MolMapNet對不同種子的預測均表現出更好的表現,其差異與D-MPNN和AttentiveFP模型相當或更小。在三種物理化學性質預測任務中,MolMapNet的表現大多優于D-MPNN和AttentiveFP模型,但仍表現出與D-MPNN和AttentiveFP模型或兩者相似的變化模式。
相對于基于化學圖的CNN模型的
MolMapNet深度學習性能
基于化學圖的CNN模型,在沒有化學知識的情況下,對藥物和理化性質的深度學習表現良好。其中一些CNN模型端到端的學習深度高達19層,而MolMapNet是一個層次更少的CNN。MolMapNet對這些CNN模型的差異性能,部分反映了MolMap Fmaps在學習藥物特性方面的差異能力。值得注意的是,基于圖像的19層CNN KekuleScope模型在8個癌細胞基準數據集上,記錄了出色的性能,這些模型的性能可以與MolMapNet模型進行比較,因為這些模型的數據集和數據分割代碼都是可用的。因此,在這8個基準數據集上開發MolMapNet OOTB模型,并使用相同的數據分割和評價指標,與KekuleScope模型(表3)發布的性能進行比較。MolMapNet在所有8個數據集上都優于KekuleScope模型(預測值和觀測值之間的Pearson平方相關系數R2 = 0.583-0.734 versus R2 = 0.427-0.622)。

表3.?MolMapNet在單任務和多任務基準數據集上的性能
表格來源于Nat. Mach. Intell.
相對于基于分子描述符的
多任務全連通深度神經網絡模型的
MolMapNet深度學習性能
研究表明,多任務全連接深度神經網絡(FC-DNNs),在預測藥物性能方面比單任務FC-DNNs表現更好。特別是,基于自動編碼器(AE)的模型和賽諾菲-安萬特FC-DNN模型,在兩個多任務基準數據集(CYP同工酶抑制劑數據集和肝微粒體清除數據集)上獲得了出色的性能。在多任務學習中,MolMapNet可能在多任務學習中更合適的MolRs競爭。因此,研究者在這兩個多任務數據集上,開發了多任務MolMapNet OOTB模型,并分別采用相同的數據分割、評價度量和多任務訓練方法,與基于AE和Sanofi-Aventis模型的公布性能,進行了比較(表3)。在CYP450數據集上,MolMapNet在五項任務中的三項上表現低于基于AE的FC-DNN模型,但三項表現不出色的任務的受試者工作特征曲線下面積(ROC-AUC)值與基于AE的FC-DNN模型具有可比性。在肝臟微粒體清除任務上,MolMapNet在所有三個任務上都優于Sanofi-Aventis模型??偟膩碚f,MolMap Fmaps和多任務MolMapNet體系結構,在多任務學習藥物性能方面是有競爭力的。
MolMapNet深度學習模型的
單路徑和雙路徑相比較
圖4顯示了MolMapNet OOTB模型,在MoleculeNet數據分割和AttentiveFP數據分割的11個基準數據集上的性能比較。對于回歸任務,在5個回歸數據集中的3個上,僅MolD-單路徑(MolMapNet-D)模型的表現,與聯合MolD和FF雙路徑(MolMapNet-B)模型相當或更好。對于分類任務,僅FF單路徑(MolMapNet-F)模型,在6個分類數據集中的4個上的表現與MolMapNet-B模型相當。有趣的是,與MolMapNet-D模型相比,MolMapNet-F模型在回歸任務中表現稍差,但在分類任務中表現稍好。有趣的是,MolMapNet-D模型的輸入Fmap是定量MolDs(例如分子量),而MolMapNet-F模型的輸入Fmap是分類FFs(0或1)(圖2)。因此,MolMapNet-D模型往往更適合于回歸任務等連續預測器,而MolMapNet-F模型更適合于分類任務等分類預測器??偟膩碚f,MolMapNet-B模型利用了這兩種輸入類型(MolD和FF fmap),因此在回歸和分類任務中具有高度的競爭性。

圖4. 單路徑MolMapNet-D、MolMapNet-F和MolMapNet-B模型在基準數據集上的性能
圖片來源于Nat. Mach. Intell.
相對于k-近鄰模型的MolMapNet深度學習性能
MolMapNet OOTB模型的表現,部分歸因于預訓練的MolMap Fmap。為了探討這種預訓練對分類性能的影響,研究者對有和沒有預訓練的FF Fmap模型進行了評估。具體而言,MolMapNet-F OOTB模型與k-近鄰 (kNN)模型的性能進行了比較,kNN模型與MolMapNet-F模型,在5個分類基準數據集(BACE、BBBP、HIV、ClinTox和SIDER)上,建立的相同的三個FF集以及分子網數據分割。MolMapNet-F OOTB模型的ROC-AUC值分別為0.843/0.851、0.744/0.677、0.774/0.728、0.869/0.806,BACE、BBBP、HIV、ClinTox和SIDER數據集的ROC-AUC值分別為0.684/0.630。相比之下,對于BBBP、ClinTox、HIV和SIDER數據集,分子網和Chemprop模型中最好的ROC-AUC值分別為0.806、0.738、0.776、0.864和0.676(表2)。因此,MolMap預訓練有利于增強藥物特性的學習。值得注意的是,所有kNN模型都表現良好,其中BACE模型優于GCN和MolMapNet OOTB模型。這些表現部分歸因于,通過三個MolMap選擇的FF集所選擇合適的MolRs。之所以選擇這些FF集,是因為它們的MolMap Fmap與其他FF集相比,呈現出不同的、更密集的聚集模式,從而促進了增強學習。
優化的與OOTB MolMapNet深度學習模型
通過粗粒度網格搜索優化MolMapNet-B模型的4個超參數:用于增強特征表示的UMAP特征生成參數,批量大小用于改進收斂性和性能,第一個卷積層的核大小為更有效的接受域,以及密集層的寬度用于改進了多任務分類。首先,分別對每個超參數進行優化。對ESOL、BACE和Tox21數據集的UMAP優化表明,減少鄰居數量,通常通過提高局部特征分布的精度,來提高性能。對ESOL和FreeSolv數據集的批量大小優化表明,減少批量大小可以加速收斂并提高性能。在BACE數據集上的核大小優化表明,增加核大小可以通過更有效的接受野增強學習。密集層寬度優化表明,節點數量的增加提高了多任務性能,擴展了信息處理能力,超出了主要為單個任務定制的OOTB設置。其次,在8個數據集(ESOL、FreeSolv、Malaria、BACE、HIV、MUV、PCBA、ChEMBL)上使用MoleculeNet和AttentiveFP數據拆分,對4個超參數進行了綜合優化。在優化前,12個MolMapNet-B模型中只有5個優于SOTA GCN/GAT模型。優化后的9個模型在相同的數據分割下,優于SOTA GCN/GAT模型。其中,FreeSolv模型的RMSE從1.075降低到0.916,降低了14.7%;MUV模型的精確回憶曲線 (PRC-AUC)值下面積從0.109增加到0.158,增加了44.9%。對于三個表現不佳的MolMapNet-B模型,它們的MolMapNet-D對應模型實質上更好,其中兩個模型在相同的數據劃分中優于SOTA AttentiveFP GAT模型(在ESOL數據集上RMSE為0.477對0.486,在FreeSolv數據集上RMSE為0.728對0.773)。
MolMapNet對新化合物的泛化能力
MolMapNet對從ChEMBL數據庫中,提取的216和179種新的BACE高效和低效抑制劑(nace數據集)進行評估。NBACE和BACE數據集之間的分子相似性模式通過TMAP可視化,NBACE和BACE數據集的化合物谷本系數為0.23和0.61。谷本系數<0.7,通常表示遙遠的相似性。采用NACE數據集對經BACE訓練的MolMapNet-F模型進行性能測試,并與D-MPNN和AttentiveFP模型進行比較。MolMapNet-F模型的靈敏度和特異性分別為70%和84%,而GCN D-MPNN模型的靈敏度和特異性分別為48%和81%,AttentiveFP4模型的靈敏度和特異性分別為63%和63%。
MolMapNet學習了
深層潛在特征和重要的輸入特征
為了探究MolMapNet學習的深層潛在特征和重要輸入特征,研究者首先分析了在ESOL數據集上訓練的MolMapNet-D溶解度模型和AttentiveFP數據分割。主成分分析(PCA)對全局最大池化層(全連接層之前)的潛在特征進行分析,這些潛在特征是根據溶解度值進行聚類的。因此,面向任務的聚類是一種深層潛特征。根據排列算法和均方誤差(MSE)度量計算的重要度得分,得到重要的輸入特征。來自訓練集和測試集的重要輸入特征是相關的(Pearson r = 0.92)。將最重要的輸入特征E-state、QED、電荷和拓撲指數聚在一起。E-state指數編碼了與溶解度預測相關的拓撲環境和電子相互作用。QED描述符量化藥物相似性,并顯示口服藥物的溶解度和滲透性。電荷描述符。反映了影響溶解度的離子相互作用。接下來,研究者分析了在BACE數據集上訓練的MolMapNet-F BACE抑制劑模型的重要輸入特征。排在前幾位的重要FFs包括5個PubChemFP FFs和7個MACCSFP和PubChemFP FFs,這些FFs在BACE強效抑制劑中常見,但在低效抑制劑中較少。重要性得分前50名的FFs被映射到每個分子的單個原子和鍵上,可以用不同的顏色方案直觀地顯示出來,以揭示深度學習模型認為重要的子結構。在分析典型的2-氨基喹啉抑制劑及其結構上的近鄰2-氨基苯并咪唑抑制劑時,結果表明,高效阻垢劑BACE_276的疏水碳鏈是BACE活性的重要亞結構,這與構效關系研究的結論一致。前50個重要特征??捎糜谔崾綛ACE抑制支架。通過這種方法,收集到的26種臨床試驗BACE抑制劑藥物中,有25種被鑒定為高效抑制劑,而剩余的藥物PF-04976081由于是一種新型的分子支架,缺少一個可識別的高度重要的亞結構。因此,研究者的分析表明,MolMapNet可以很好地捕獲對藥物相關特性重要的摩爾體,從而增強對這些特性的預測。
展望與結論
藥物特性的準確學習和預測是一項具有挑戰性的任務,特別是對于低數據案例和新穎的預測任務。適當的MolRs,對于增強學習和預測能力是至關重要的?;趫D形的MolRs從頭學習,已經取得了顯著的進展。在這些顯著的進步之上,對MolRs的更廣泛的探索,有助于為增強學習和預測能力提供更多的視角。特別是,通過對廣泛的人類先驗知識基礎進行更廣泛的學習,適當的MolRs可能來自于MolDs中豐富的結構、結構和物理化學性質以及FFs中多種多樣的子結構,從而促進了對藥物特性的深度學習。MolMap等新工具促進了MolDs和FFs的特征生成,并將其轉化為2D Fmap,捕捉深度學習應用的分子特征的內在相關性。
在這些Fmap的基礎上,共享權CNN架構可以用于增強學習和預測藥物特性。為了減少技術障礙并支持更廣泛的應用,研究者希望將深度學習模型開發為OOTB工具。因此,研究者開發了基于CNN的深度學習MolMapNet模型,用于藥物屬性的OOTB深度學習,在26個基準數據集的大部分上,與已建立的模型具有很強的競爭力。深度學習模型探索了,更廣泛的表示和特征生成策略(例如,基于圖的DNN指紋),并不斷取得進展。對這些和已建立的策略的集體探索,使更強的深度學習和預測藥物和其他分子特性成為可能。
工具下載地址
https://github.com/shenwanxiang/bidd-molmap
https://codeocean.com/capsule/2307823/tree
參考文獻
Shen, W. X., Zeng, X., Zhu, F. et al. Out-of-the-box deep learning prediction of pharmaceutical properties by broadly learned knowledge-based molecular representations. Nat. Mach. Intell. 2021, ASAP. DOI: 10.1038/s42256-021-00301-6.