<em id="lbmtt"></em>

<th id="lbmtt"><track id="lbmtt"></track></th>

<li id="lbmtt"></li>

<progress id="lbmtt"><big id="lbmtt"></big></progress>

當前位置：首頁 » 原創文章 » JCIM | 基于圖神經網絡的深度學習預測溶劑化自由能

JCIM | 基于圖神經網絡的深度學習預測溶劑化自由能

JCIM | 基于圖神經網絡的深度學習預測溶劑化自由能

引言

溶劑化自由能是影響各種化學和生物學過程的基本屬性，例如反應速率、蛋白質折疊、藥物結合和藥物的生物利用度等等。本工作中，作者提出了一種基于圖網絡的深度學習方法，可以準確地預測有機小分子的溶劑化自由能。所提出的深度學習模型包括三個階段，即信息傳遞、相互作用和預測，能夠預測任何通用有機溶劑中的溶劑化自由能，平均絕對誤差為0.16 kcal/mol。在準確性方面，當前模型目前優于所有此前提出的基于機器學習的其他模型。此外，作者對基于機器學習的模型的魯棒性進行了全面測試，并通過幾個示例驗證了其解釋預測的能力。

背景介紹

溶劑化是一個主要由溶質和溶劑分子之間相互作用的性質驅動的過程，在許多物理、化學和生物過程中具有極其重要的意義。大多數化學和生物過程都在溶液中發生，因此，溶劑化自由能起著核心作用。溶劑化自由能與分子設計中至關重要的許多目標特性以及其他重要應用有關，并且可以使用溶劑化自由能來評估藥代動力學性質，即分布和吸收。當前溶劑化自由能的計算通常使用分子動力學（MD）模擬進行，并且主要使用煉金術自由能方法進行。兩種最常用的煉金術方法是自由能微擾（FEP）和熱力學積分（TI）。這些方法已顯示出與實驗結果相媲美的自由能值，但同時這些方法在計算上也是昂貴的，這使得定量快速和準確地估計溶劑化自由能難以實現。

在過去的幾年中，已經提出了幾種使用FreeSolv數據集的機器學習方法來預測類藥物分子的水溶性。這些方法固有地限于對單一溶劑（水）的溶劑化自由能的預測，并且不能推廣到所有有機溶劑。最近，Lim和Jung提出了一種模型“Delfos”，該模型使用遞歸神經網絡來預測分子在任何通用溶劑中的溶解度。在Delfos模型中，使用Mol2Vec特征化手段從SMILES序列獲得分子embedding。盡管SMILES表示已被廣泛用作類藥物分子的特征表示，但近年來已廣泛轉向基于化學圖的表示。這主要是因為SMILES表示方法的局限性：首先，SMILES表示沒有明確說明分子相似性，使得使用基于深度學習的模型學習SMILES語法存在一些挑戰；另一方面，基于化學圖的表示形式可以恰當地捕獲分子結構，并且可以更輕松地對與化學性質相關的藥效團進行建模。

本文研究中，作者提出了一種化學可解釋圖相互作用網絡（CIGIN），用于預測有機小分子在任何常用有機溶劑中的溶劑化自由能。該方法在分子圖上工作，使用信息傳遞神經網絡（MPNN）和相互作用層精確地模擬溶劑化自由能，并且作為預測任務的一部分計算出的相互作用圖能夠解釋溶劑化自由能的大小。作者進行了廣泛的分析以評估模型的預測能力和魯棒性，并且使用了幾個示例來證明相互作用圖的化學可解釋性。此外，作者以前藥開發為例說明了該模型的潛在用例。

方法

數據集：結合使用Solv@TUM數據庫和FreeSolv數據集。Solv@TUM數據庫具有5952個溶劑化自由能的實驗值。使用由元素C，H，N，O，F，P，Cl，S，Br和I組成的分子，其余的元素被濾出，總共形成5597個唯一的溶質-溶劑對。由于此數據集僅包含非水溶劑中的溶劑化自由能，因此將包含642種有機分子的水合自由能的FreeSolv數據集與該數據集結合，這樣就得到了總共6239種獨特的溶質-溶劑對組合，其中包括935種獨特的溶質和146種獨特的溶劑。使用RDKit處理最終數據集以構建分子圖。

分子圖：使用RDKit提取分子給定的節點（原子）和邊（鍵）特征，并使用Deep Graph Library（DGL）制備分子圖。

建模：如圖1所示，所提出的模型包括三個不同的階段：信息傳遞階段、相互作用階段和預測階段。

訓練：所有的訓練、驗證和分析都是使用PyTorch框架進行，將數據集分為10個子集，其中1個用作測試集，其余9個成為訓練集。此外，為了確保測試集的最小差異，進行了五次獨立的10倍交叉驗證。

JCIM | 基于圖神經網絡的深度學習預測溶劑化自由能

圖1.?基于圖神經網絡的體系結構

圖片源自JCIM

?

結果1.?CIGIN預測的化學準確性和模型的魯棒性

作者統計了相對于不同溶劑-溶質對的實驗溶劑化自由能和預測溶劑化自由能之間的相關性。兩者之間達到了近乎完美的線性關系，R2值為0.98，即超過98％的預測值都在實驗溶劑化自由能值的1 kcal/mol的差值之內。同時還比較了CIGIN模型的不同變體相對應的MAEs，CIGIN模型在五個獨立的10倍交叉驗證中獲得的預測溶劑化自由能的準確性很高，平均絕對誤差為0.16±0.01。此外，作者通過去除模型不同的階段來檢驗每個階段的重要性，如通過信息傳遞層學習分子embedding可以幫助模型更好地捕獲影響溶解度的特征。表1比較了MoleculeNet中提供的CIGIN、Delfos和MPNN基準測試的性能，顯示CIGIN優于其他兩個，并且在測試集上獲得0.76±0.11的高精度。這也證明了原子間相互作用的共同學習有助于模型獲得更好的性能。

JCIM | 基于圖神經網絡的深度學習預測溶劑化自由能

表1.?使用平均絕對誤差（kcal/mol）在FreeSolv數據集上比較CIGIN（本工作），Delfos和MPNN模型的性能

表格源自JCIM

?

結果2. 模型學到的化學信息

機器學習應用（尤其是自然科學）的主要質疑之一是缺乏可解釋性。為了使CIGIN模型有用，它不應僅僅是黑匣子模型，而應提供有意義的化學信息和解釋。如分子間相互作用的估計：CIGIN模型中的相互作用階段旨在量化所有溶質-溶劑原子對之間的原子間相互作用。圖2中給出了對叔丁醇和乙醇溶質-溶劑對的相互作用圖。5×3矩陣對應于溶質的所有非氫原子與溶劑分子之間的相互作用。所計算的相互作用圖的最小-最大歸一化值被描繪為熱圖。在兩個氧原子之間觀察到最有利的相互作用，從化學意義上講這意味著氫鍵相互作用。在乙醇的氧和叔丁醇的中心碳之間觀察到最小的相互作用，這是由于中心碳原子不可及及其疏水性，這種相互作用是不利的；而在末端碳之間觀察到中間值，這可以認為是疏水性貢獻。?

JCIM | 基于圖神經網絡的深度學習預測溶劑化自由能

圖2.?叔丁醇（溶質）和乙醇（溶劑）原子之間的相互作用圖以及預測的溶劑化自由能

圖片源自JCIM

?

結果3.在分子設計中的應用

CIGIN模型中引入的相互作用圖的概念有助于理解原子級別的細節，尤其是當分子設計涉及兩個實體的時候（例如，通過最大化與某種蛋白質的相互作用來設計分子）。以前藥設計為例，設計前藥涉及對高價值候選藥物進行化學修飾，以改善其藥代動力學特性并降低其毒性。例如，對藥物進行化學修飾可有效地用于改變其溶解度，從而可提高其生物利用度；或者如果分子太親水，則可以使用某些取代基團來增加親脂性，從而改善跨細胞膜的滲透性。圖3中提供了兩個這樣的例子。其中Penciclovir是一種核苷類似物，它是有效的抗病毒藥物。但是，該藥物的口服生物利用度僅為4％，經過化學修飾后可提高到75％以上，其前藥famciclovir通過酯酶和氧化作用轉化為原始藥物。Penciclovir與其前藥之間的ΔΔGhyd（目的是使前者更具親脂性）為8.60 kcal/mol。CIGIN模型所做的這些預測很好地證實了實驗觀察，并且從藥物到前藥分子的相互作用圖譜的變化解釋了原子效應。因此，當需要對分子進行化學修飾以優化其溶解度分布圖時，本文提出的預測模型以及相互作用圖不僅可以用于準確的預測，而且可以通過相互作用圖指導的定向修飾來幫助進行有效的優化。

JCIM | 基于圖神經網絡的深度學習預測溶劑化自由能

圖3. (a) Penciclovir及其前藥famciclovir。(b)雙氯芬酸及其前藥雙氯芬酸和甘油復合物

圖片源自JCIM

總結

本文作者提出了一種基于圖神經網絡來預測有機分子在任何通用有機溶劑中的溶解度的新穎方法。所提出的模型框架包括三個階段，即信息傳遞、相互作用和預測階段。溶質原子與溶劑原子之間的原子間相互作用是通過相互作用圖在端到端過程中共同學習的。通過幾個示例說明在相互作用圖中可以捕獲不同的化學相互作用。同時通過實際使用案例，作者展示了其在前藥開發中的潛在應用。最后值得一提的是，本文提出的模型可以用于研究任何兩個分子系統之間的相互作用，例如藥物-靶標相互作用，引入的相互作用圖可以用于在優化分子的分子特征時提供一定優化的方向和參考。

代碼下載地址

https://github.com/devalab/CIGIN/tree/master/CIGIN_V2

參考文獻

Yashaswi Pathak, Sarvesh Mehta and U. Deva Priyakumar, Learning Atomic Interactions through Solvation Free Energy Prediction Using Graph Neural Networks, J. Chem. Inf. Model. 2021, 61, 2, 689-698. DOI: 10.1021/acs.jcim.0c01413.

歡迎使用分子數字化智能計算平臺WeMol

X

亚洲网络在线,五月亚洲色图,亚洲色图小说,亚洲一级a毛片免费视频在线播放