<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    Acc. Chem. Res | 使用監督學習模型預測產率

    Acc. Chem. Res | 使用監督學習模型預測產率
    Acc. Chem. Res | 使用監督學習模型預測產率

    背景介紹

    在有機合成領域,化學家不僅要知道合成分子的步驟和順序,還要知道反應條件,并希望每步反應的產率足夠高。對于化學家來說,理解高維反應數據的相互作用并抽象出新的規律是一個難題。本文介紹了如何采集數據,以及如何使用無監督模型減少生成新反應數據集時的偏差,尤其關注模型選擇、比較、訓練以及化學可解釋性。

    首先,作者在單個Ni 催化的鈴木交叉偶聯反應的小型數據集中評估了 16 個膦配體,使用線性回歸模型預測產率。發現模型的復雜度受到數據量的約束,于是嘗試篩選了反應直接相關的特征。然后用更大的數據集,探索更復雜的模型。作者用這些數據集研究了各種 ML模型,并測試了這些模型的泛化能力。

    主要內容

    1.?實驗數據

    實驗的數據既可以從公開的反應數據庫中挖掘也可以從頭生成。前者作者通過與MIT、輝瑞和默克等大型機構合作獲得海量信息,后者依賴化學家的經驗來為給定反應選擇底物和條件。如果化學家提供的條件在化學空間中與其他條件差異太大,模型參數就會受到較大的影響,使用無監督機器學習的數據集設計系統方法,例如基于特征的聚類,是一個潛在的解決方案。

    2.?特征工程

    分子特征可以大致分為非學習和學習兩種表示方法。前者從構建的描述符和預測目標入手建立模型。但是這種表示方法僅適用于大數據集。我們使用密度泛函理論 (DFT) 獲取底物、催化劑和試劑的特征。這種方法能降低計算成本,但是會犧牲中小型數據集的可解釋性和適用性。非學習特征依賴化學知識或先驗機制。例如,我們在鎳催化的鈴木偶聯反應中最初篩選了13種膦配體,最初的托爾曼錐角 (θ) 特征難以解釋反應性的變化。通過特征工程,我們添加第二空間特征、百分比埋藏體積 (%Vbur) 以及電子特征、最小靜電勢,提升了模型效果(如圖1所示)。

    Acc. Chem. Res | 使用監督學習模型預測產率

    圖 1. Ni催化的鈴木偶聯反應的配體研究。(A)交叉偶聯反應;(b)多元線性回歸反應模型;(c)?托爾曼錐角和埋藏體積的定義。圖片來源于Acc.Chem.Res

    3.?高維數據集建模

    我們試圖用機器學習對多種試劑反應數據集建模。數據集包括Buchwald-Hartwig (BH) 胺化數據集,其中含有四個組分的共3955個反應;以及脫氧氟化數據集,含有三個組分的共740個反應(如圖2所示)。對于 BH 胺化,模型目標是評估異惡唑對不同芳基和雜芳基鹵化物偶聯的影響。我們嘗試建立預測模型,并希望從特征和機理上解釋化學反應。BH 胺化反應用120個DFT的特征描述,而脫氧氟化反應具有23個特征。此外,還對數據集進行了類似的建模研究以預測對映選擇性、區域選擇性和反應性。?

    Acc. Chem. Res | 使用監督學習模型預測產率

    圖 2. (A)Buchwald-Hartwig胺化數據集;(b)?醇的脫氧氟化數據集。每個數據集的代表示例。圖片來源于Acc.Chem.Res

    4.?模型選擇

    隨機拆分數據對模型的泛化能力估計偏樂觀,如果目標是預測未知催化劑的產率或為新底物選擇產率最高的一組反應條件,則使用啟發性的泛化測試更有價值。因此,我們通過留一法交叉驗證來估計泛化誤差,如下所示:

    我們將 BH 胺化反應的試劑以及脫氧氟化反應的醇指定為反應組分,并留出單個分子。數據集包含 22 種BH 胺化反應的異惡唑試劑和 37 種醇,分別產生了 22和 37 個驗證集。

    我們嘗試了線性回歸、廣義線性模型、支持向量回歸、kNN、隨機森林、XGBoost 和前饋神經網絡,還構建了兩個參照模型:使用除標記分子外不攜帶任何物理信息的隨機特征訓練一個隨機森林;另一個是非隨機森林模型,對具有相同底物和條件的所有訓練集反應的產率取平均預測產率。我們分析了留一法交叉驗證結果(如圖3所示)。

    Acc. Chem. Res | 使用監督學習模型預測產率

    圖 3. (A)Buchwald-Hartwig胺化數據集的留一法交叉驗證結果;(b)?醇的脫氧氟化數據集的留一法交叉驗證結果。每個數據集的代表示例。圖片來源于Acc.Chem.Res

    模型在 BH 胺化數據上的表現顯著不同,但是在脫氧氟化數據上的表現相似。這表明在脫氧氟化反應中,泛化誤差與模型無關。對于 BH 胺化反應,隨機森林的表現明顯優于兩個參照模型。對于隨機森林模型,BH 胺化數據集試劑的均方根誤差 (RMSE) 介于 5% 和 25% 之間,而來自脫氧氟化數據集的醇的均方根誤差 (RMSE) 則在 9% 和 41% 之間。

    原因可能是可能存在模型運行良好的化學空間區域。在圖 4 中,每個分子的預測RMSE用PCA降維后使用最主要的兩個成分來可視化。對于 BH 胺化試劑,我們發現特征空間的中心區域的預測平均誤差低于8% ,而對于脫氧氟化數據,無法確定這樣的區域。說明要么基于DFT 的特征化無法捕獲脫氧氟化中結構與活性相關的信息,要么該算法無法利用數據集做到這一點。

    Acc. Chem. Res | 使用監督學習模型預測產率

    圖 4. (A)BH胺化數據集特征PCA降維后最重要的兩個主成分與RMSE的可視化。(B)醇的脫氧氟化數據集特征PCA降維后最重要的兩個主成分與RMSE的可視化。圖片來源于Acc.Chem.Res

    5.?模型訓練

    如圖 5 所示,留一法的交叉驗證模型存在過擬合的情況。模型在訓練集和驗證集之間的差距阻礙了模型對機理的解釋。隨機森林的有放回采樣幾乎把所有的樣本暴露在了各個樹模型中。對于脫氧氟化數據集,每個醇都在有放回抽樣中多次抽樣,共享相同樣本的反應產率;因此,樹預測的結果也是相關的,這增強了過擬合。

    圖 5.留一法訓練集與驗證集上的預測誤差對比。彩色點代表訓練集誤差,黑點代表驗證集誤差。(A)BH胺化數據集的結果(B)醇的脫氧氟化數據集的結果。圖片來源于Acc.Chem.Res

    6.模型解釋

    對于 BH 胺化數據集,使用基于 DFT 的特征和 RF 模型對樣本外反應的預測比具有隨機特征的模型可信度提高 2%-6%。為了研究分子特征的重要性,我們將特征替換為隨機數字,以確保它們無效并在部分噪聲化的特征集上訓練模型。我們對單個反應成分的所有特征加入噪聲,同時保持所有其他試劑的特征不變,由此產生了一些RMSE 增加,但多種試劑的 DFT 特征組合沒有增強模型的效果。我們進一步對每個特征進行噪聲處理并驗證效果,結果發現單個特征的貢獻很小,而且大多無關緊要,對單個特征進行干擾并不會降低其整體重要性。最重要的是那些描述 C3 原子的特征,我們在所有數據上訓練,逐漸加入C3 NMR位移特征以可視化模型的相關性。在圖6中,觀察到 C3 NMR位移>150 ppm的試劑產率呈階梯狀增加。從化學結構來看, C3 NMR 位移<150 ppm 的試劑主要具有 C3-H 鍵;具有 C3 NMR 的試劑位移 >150 ppm,具有完全取代的 C3。帶有 C3-H 的異惡唑可以在 N-O 氧化加成后經歷 Pd 催化的 Kemp 型重排以形成α-氰基酮和醛(圖 6b)。之前的研究表明在沒有鈀的情況下,即使在加熱時也沒有觀察到異惡唑重排。通過質譜和 NMR 分析,我們發現了鈀和苯并 [d]-異惡唑之間的氧化加合物,這表明該加合物可能是圖6中異構化的過渡態。雖然不清楚是氧化加合物還是重排產物導致 BH胺化反應中毒,但我們發現由 Pd 催化的試劑重排產生的 3-酮丁酸甲酯衍生物對反應性有較強抑制(圖 6c,1-4)。

    圖 6.(A)反應產率與試劑的C3 NMR位移的關系。(B)Kemp-type的重排反應。(C)t-Bu-BrettPhos做配體時的催化劑中毒現象,降低了反應產率。圖片來源于Acc.Chem.Res

    結論總結

    本文介紹的模型可以使用物理不可知特征實現與定量物理特征非常相似的泛化精度。在 BH 數據集中,加入DFT 特征能顯著改進模型泛化能力,表明模型具有可遷移的化學能力,并使我們能夠了解潛在的機制。

    參考文獻

    Andrzej M. Z?uranski, Jesus I. Martinez Alvarado, Benjamin J. Shields, and Abigail G. Doyle,Predicting Reaction Yields via Supervised Learning,Accounts of Chemical Research, 2021, 54, 8, 1856-1865.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放