

引言
傳統的計算方法已在化學反應領域得到廣泛應用,例如,QM模擬化學鍵的生成和斷裂,QM/MM和FMO處理涉及生物分子的反應體系等。由于可以計算廣泛的數據集,機器學習(ML)已成為對傳統計算方法的有力補充。本文側重于用ML技術解決詳盡采樣、實驗觀測值和計算值之間的相關性及如何利用這一點來提高對分子間相互作用的理解和處理整個反應網絡的問題。首先介紹了生成模型的結果和實驗觀察的結果,接著是有機反應中的ML技術,最后概述了ML在整個反應網絡中的應用以及前景。
反應可觀察值的機器學習
機器學習可用于開發與實驗直接相關的可觀察指標的綜合模型,包括預測反應熱、量化反應的速率、態-態截面、起始態到終態的映射,甚至化學反應的產率。
學習反應速率
從微觀角度看,在分子尺度上描述反應物和生成物之間轉化過程的方法(例如準經典軌線或量子模擬)需要對整個勢能面敏感且需要全局反應性的PES。即使對簡單的A + BC → AB + C 原子交換反應,通過計算來確定準確的反應速率也是一項艱巨的任務,因為其PES表示非常具有挑戰性。目前對氣相反應的處理基于a.量化理論下計算數千種能量,b.將這些能量表示為參數化的函數或使用ML技術(如神經網絡)再生核希爾伯特空間,c.遵循核動力學使用經典力學QCT或求解三維薛定諤方程。這種方法精度取決于基礎PES的準確性。
為了更好地解決這個問題,最近的一項工作使用高斯過程回歸來訓練校正χ(T)以預測熱速率k(T)的可能性:

文章基于共線碰撞做簡化處理確定了大約50個不同反應的k(T) ,對13次反應進行了訓練,并對模型進行了40次反應測試。用了3~5個描述符來描述χ(T)。與TST或ECK處理相比,機器學習在具有對稱和非對稱壁壘的系統上表現最佳,學習模型的誤差在10%~120%之間,而ECK和TST則分別為80%~180%和180%~760%。
該模型最近被應用于O(3P) + HCl → OH + Cl反應,由于反應勢壘大和低能反應共振的存在,這是一個特別具有挑戰性的例子,證明了在數據集來源足夠廣泛質量足夠高的前提下,這種方法未來被大量應用是可能的。
態-態模型和速率
從全局看,為N(4S) + NO(2Π) → O(3P) + N2(X1Σg+)反應開發了一個基于NN模型的態-態方法來映射起始態到終態??偟膩碚f,N + NO 和 O + N2通道分別有 6329 和 8733個振動態。對于給定的平移能量Et,通常需要運行104到 105?個QCT 模擬才能收斂一個特定的態-態截面σv , j?→ v ′ j ′(Et),為所有進入~104終態的~104始態執行此操作需要1012到1013個QCT模擬,這顯然是不現實的。為了訓練這樣的網絡,選擇了例如內能、振動和旋轉量子數或反應物的相對速度這樣的特征,為了獨立測試最終的NN效果,針對訓練中未使用的初始條件,在固定Et下執行了額外的QCT計算。通過實際QCT橫截面與預測橫截面的比較表明該方法是可行的。為了進一步驗證模型,從QCT模擬中明確了初始態選擇率并與NN結果進行比較。大多數情況下,相對誤差小于5%。一般來說,NN給出的特定狀態和溫度下的總反應速率與QCT模擬定量上一致。

圖1.QCT計算的和NN預測的初始狀態選擇率之間的相關性。圖片來源:Chemical Reviews
反應速率和途徑
PES的全局性在高能過程中尤其重要,而與大氣或天體物理學相關的過程中的產物數量會極大增加,這使得生成這樣的全局PES極具挑戰性。為了說明遵循大氣相關分子的化學反應問題,作者研究了乙醛AA和烯醇VA的異構化。為此構建了基于NN的反應性PES模型,模擬中激發能量為93.6kcal/mol時,MAE和RMSE分別為0.0071和0.0145kcal/mol。為了驗證NN-PES確實允許異構化,使用高達127.6kcal/mol的激發能,此時全局PES的MAE和RMSE分別為0.0132和0.0307kcal/mol。
最近報道了另一種基于ML構建反應式PES并將其用于動力學模擬的方法,它基于置換不變多項式PIP。傳統PIP中的展開系數由NN訓練。PIP-NN已應用于與大氣和燃燒有關的反應,例如HO + CO → H + CO2,主要用于QCT和量子動力學模擬以確定總反應概率、熱速率、產物狀態振動和旋轉分布等。PIP-NN還被用于涉及金屬表面的反應性散射,研究體系包括H2/Ag(111)、H2/Co(0001)、H2O/Ni(111)和CO2/Ni(100)。模擬分析表明,PES的壘高度和形狀都會影響反應速率,平行和垂直于表面的平移也會對反應速率有影響。最近基于MS-ARMD和NN的全維能量表面的模擬,涉及反應物、中間體和OH消除產物,表明這項技術也可以循序逐步反應。經驗FF的擬合精度可以達到約1kcal/mol,而使用PhysNet訓練相同的數據的精度可以達到0.02kcal/mol。
基于ML的方法提供的一種特別有吸引力的可能性是在電子結構理論上的層次上構想模型,并用來自更高層次理論的相當少的數據重新訓練它們。這基于一個事實:如果進行了足夠準確的計算,給定系統的PES的全局形狀在很大程度上保持不變。這些方法通常被稱為遷移學習,可以避免高計算成本而且其學習曲線比直接在高級數據上訓練獨立模型收斂得更快。
ML在反應性生物體系中的應用
反應性生物體系中,蛋白質太大,鍵斷裂和生成的時間尺度太長無法進行完整的ab?initio?MD模擬。最近,基于ML的能量函數如再生核(RKHS)已被用于跟蹤生物體系中的鍵斷裂和生成,一個例子是NO和肌紅蛋白的結合。將三維RKHS PES擬合到密度泛函理論計算,用于NO配體相對于血紅素單元的徑向和角自由度以及鐵相對于血紅素平面的平面外運動。溶劑化蛋白質-配體系統的所有剩余自由度都用經驗能量函數處理。具有這種混合 ML/經驗能量函數的廣泛反應 MD 模擬提供了 Mb-NO 中亞穩態的第一個結構解釋。
實驗背景下的機器學習
“逆合成”始于1967年左右。最初基于規則的專家系統預測效果不夠好,后來嘗試了對標記反應進行訓練的機器學習方法,ReactionPredictor使用物化拓撲特征來訓練網絡,準確率約為96%?;谥讣y的神經網絡則為80%。使用深度學習優化器可以在40步內找到最佳條件,優化微滴反應所需的總時間為30分鐘。最近聯合蒙特卡羅樹搜索(MCTS)和三個NN(一個用于提出有限數量的自動提取變換,第二個用于預測反應可行性,第三個用于估計每個變換的位置值)的3N-MCTS取得了不菲的成績。來自2個世界頂級化學機構的45位有機化學家參與了雙盲測試,被要求從文獻中的實際合成路線和3N-MTCS生成的路線間根據自己的偏好和合成合理性進行選擇。在9輪測試中,有6輪化學家們選擇了算法建議的路線。盡管取得了這些成就,但使用ML來預測各種有機反應的結果仍然存在局限性,包括天然產物的合成路線、立體化學結果的預測、互變異構的平衡或反應條件的預測。最近,由Chemputer、Chempiler和腳本語言(ChASM)組成的模塊化有機合成機器人系統可以驅動四個模塊,包括反應瓶、過濾站、液液分離模塊和溶劑蒸發模塊。該系統用于自動合成化合物,如鹽酸苯海拉明、盧非酰胺或西地拉非。除了使標準化學程序自動化并有發現新合成路線的誘人前景外,此類程序還提高了合成程序的可重復性,可將科學家從日常任務中解放出來,從而更專注于產生新想法和有創造性的步驟。
使用質譜數據確定化學結構是專家系統(AI)在涉及分解反應問題的早期應用之一。最近,開發了基于神經網絡的技術來解決電子電離競爭性碎裂建模(CFM-EI)的問題。對于給定的化學結構,該模型可以預測電子電離(EI)質譜(MS)。訓練NN所需的化學特征包括斷鍵類型、相鄰鍵類型、官能團特征等屬性。用于訓練、測試和驗證的數據集包含約2000個分子。當查詢測量的參考光譜時,該模型的性能為 77%,查詢 NIST 數據庫時為 43%?;衔锝Y構鑒定(CSI)在預測指紋和鑒定代謝物(FingerID)中使用分子片段樹和基于多核學習的分子指紋預測。對約 6200 種化合物進行訓練的結果顯示正確識別率約為 30%。在基于 PubChem 的比較分析中,CSI:FingerID 的識別率約為32%,而 CFM-ID 的識別率約為12%。
整個反應網絡的機器學習
反應網絡與化學的各個分支相關,包括但不限于大氣反應、燃燒以及天體物理和生物體系。通常通過求解大量耦合常微分方程,在隨機網絡級別對此類網絡進行采樣。最近,提出了一種基于 NN 的模型來跟蹤空間和時間上的燃燒反應。這些模擬使用 DeepMD NN 架構來計算 3000 K 下甲烷燃燒(起始 100 個CH4和 200 個O2分子)的能量和力,并發現了 798 種不同的化學反應,其中一些目前未知。涵蓋的總模擬時間以納秒為單位,這些模擬的準確性僅受神經網絡訓練的電子結構數據的限制。在最近的另一項研究中,使用 ML 訓練的原子化能量模型模擬甲烷燃燒,用核嶺回歸(KRR)和原子位置平滑重疊(SOAP)來表示,在該模擬中形成了幾個值得注意的物質,包括甲醇、甲酸和 Criegee 中間體。
未來發展
對小體系(包含很少的原子)的一個挑戰是,當采用ML技術時,是否可以顯著減少用于構建全局反應性PES的參考點數量,以便準確表示分子間PES。所需的點數可能取決于(置換)對稱性的存在和所涉及的化學物質。未來貝葉斯優化技術的一個有趣應用是將其與Δ-ML、遷移學習或基于實驗確定的光譜或反應散射數據的變形相結合。除了點數之外,還需要考慮系統的哪些配置用于參比計算的問題,這些點應該放在信息量最大的區域。另一個角度是學習高質量的PES,這又涉及對從實驗觀察到的高質量PES的探索和改進。該領域還有一個挑戰是缺乏統一準確和有效的方法來求解電子薛定諤方程。
未來發展的另一個領域涉及電子激發態的反應性,對較大的體系,激發態的動力學是一個極有挑戰性的問題,應用于此的ML技術剛剛才開始出現,需要特別關注的是非絕熱動力學和相鄰電子狀態之間轉換中涉及的耦合矩陣元素。
預計將目前可用的 ML 技術用于使用質譜法進行片段化與從頭計算和來自現有數據庫的數據相結合將進一步促進 MS 實驗中化學結構測定的定量方面。
基于機器學習特別是深度學習的方法無法得到更廣泛應用的主要障礙之一,是機器學習的問題處理結果與化學推理之間的薄弱環節,即“因果關系”問題。藥物設計中的另一個挑戰是藥物活性化合物的數據庫質量和結構多樣性。與從序列預測蛋白質結構的問題相反,藥物活性物質的設計和開發需要了解“為什么”配體上的特定修飾對其生理作用有益。同樣,對于實際“蛋白質折疊途徑”和速率的問題,預計需要對實際過程有更深入的了解,這與 alphafold 解決的“終點問題”不同。
總之,應用于化學反應的基于機器學習的方法是一個快速擴展的領域。未來的挑戰涉及準確、定量和詳盡地確定反應結果、速率和(內部)狀態分布。結合機器人平臺,可以使用 ML 和貝葉斯技術優化反應產率和反應條件。在酶設計領域,結合實驗與基于 ML 的方法對于蛋白質-配體相互作用和識別,將對蛋白質結構預測的最新進展提供重要的見解。
參考文獻:
Meuwly M. Machine Learning for Chemical Reactions. Chem Rev 2021,doi: https://doi.org/10.1021/acs.chemrev.1c00033