<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    Nature | 貝葉斯反應優化在化學合成中的應用

    Nature | 貝葉斯反應優化在化學合成中的應用

    引言

    貝葉斯優化算法是一種基于響應面的迭代全局優化算法,在機器學習模型的調整中表現出了卓越的性能。貝葉斯優化最近也在化學領域得到了應用,然而,它在合成化學反應優化中的應用和評價尚未得到研究。在這里,研究者報道了貝葉斯反應優化框架的開發和一個開源軟件工具,它允許化學家輕松地將最先進的優化算法,集成到他們的日常實驗室實踐中。

    先睹為快

    來自美國普林斯頓大學的Ryan P. Adams & Abigail G. Doyle等研究者,為鈀催化的直接芳基化反應收集了一個大型基準數據集,與人類在反應優化中的決策進行了系統的貝葉斯優化研究,并將貝葉斯優化應用于兩個現實世界的優化工作?(Mitsunobu和脫氧氟化反應)?;鶞蕼y試是通過一款在線游戲完成的,該游戲將化學家和工程師所做的決定與實驗室中的真實實驗聯系起來。研究結果表明,貝葉斯優化在平均優化效率(實驗次數)和一致性(結果相對于初始可用數據的方差)兩方面都優于人類決策。

    化學反應的優化,是一項復雜、多維的挑戰,需要專家評估各種反應參數,如底物、催化劑、試劑、添加劑、溶劑、濃度、溫度和反應器類型等(圖1a)。然而,在一個典型的實驗室里,由于時間和材料的限制,實驗室化學家,在一個標準的優化過程中只能評估這些條件的一小部分。在高通量實驗(HTE)的現代進步擴展了實驗能力,在有限的條件下可收集幾千個數據點。因此,化學家的藝術是在數百萬種看似合理的構型之間進行區分,而實驗室的設備只能運行其中很小一部分的可能性。為此,化學家通常通過查閱化學文獻以尋找類似的反應,并根據經驗、機理理解、經驗數據和簡單的啟發式方法直覺出反應成功的最具影響力的維度(即反應參數)來進行實驗(圖1b)。

    Nature | 貝葉斯反應優化在化學合成中的應用

    圖1.?貝葉斯優化的反應

    圖片來源于Nature

    化學家通常也使用系統的、模型驅動的方法來優化反應。例如,實驗設計(DOE)試圖對實驗條件進行取樣,以便于反應參數建模和相互作用的反褶積(圖1b)。結合響應面模型,DOE能夠利用從以前的評估中獲得的知識來指導未來實驗的選擇。然而,對反應空間的探索通常掌握在預先定義的優化設計、靈敏度分析、文獻優先級和操作者的直覺之中。此外,盡管一個典型的反應需要大量的離散參數的微調,篩選要求隨著使用最優設計的分類成分的數量呈指數增長。因此,在實踐中,一些變量可能保持不變,以便在固定的實驗預算上進行優化。

    與反應優化相關的基本挑戰并不是化學所獨有的。機器學習是對從數據中學習的計算機算法的開發和研究,實踐者的任務通常是找到模型超參數,從而優化性能。這個元挑戰推動了算法優化的自動化方法的發展。貝葉斯優化是一種不確定性引導的響應面方法,用于優化計算成本較高的目標函數,該方法表現出了優異的性能,在許多情況下優于專業從業者和其他最先進的全局優化算法(圖1c)。貝葉斯優化旨在平衡不確定性領域的探索和可用信息的利用,從而在較少的評估中實現高質量的配置。重要的是,貝葉斯優化算法可以應用于包括任意參數化反應域在內的多種搜索空間,并允許并行選擇多個實驗。因此,這種方法非常適合于化學過程的優化。然而,貝葉斯優化直到最近才引起化學學界的興趣。選擇的應用包括自動化學設計,高通量虛擬篩選和程序流化學。雖然研究人員已經開始探索機器學習方法在反應優化中的應用,但這些努力的目標是合成化學的一個有限子集,其中只包括連續過程參數。也就是說,據目前所知(1)沒有應用于典型的批處理化學;(2)沒有通用的軟件平臺,可以方便地為非專業人士使用;(3)沒有系統地與專業化學家的性能進行比較。

    在此,報告了一個用于貝葉斯反應優化的模塊化框架的開發,以及與自動化系統(例如,計算機實驗)和人在閉環實驗中(例如,小規模篩選)兼容的開源軟件。該方法旨在整合現有的合成化學實踐,適用于任意搜索空間,包括連續和分類編碼的反應,并允許包括物理和領域專家。

    優化器的發展

    對于給定的搜索空間,貝葉斯反應優化首先通過實驗設計(如DOE或at random)或從已有的結果中收集初始反應結果數據(圖1c)。這些數據被用來訓練一個概率代理模型,該模型是通過將之前的觀測結果與一個先驗函數相結合來構建的,該先驗函數捕捉了我們對反應響應面的假設(如平滑度和實驗噪聲),這使得推斷全局最優位置成為可能。在訓練代理模型之后,通過優化獲取函數,在反應空間中依次選擇新的實驗,以最大化候選實驗的預期效用,用于下一次評估(圖1c)。最后,對所提出的實驗進行了驗證,并將實驗結果添加到記錄中,并更新代理模型后驗。這一過程不斷重復,直到反應收率最大化,資源耗盡或空間探索到不太可能找到改進的條件。研究者首先開發了一個用于貝葉斯反應優化的靈活python包,名為“通過貝葉斯優化實驗設計”(EDBO)。在EDBO的開發中,研究者強調了一個簡單但模塊化的界面、任意用戶定義的反應空間的使用以及對人在回路或自動優化的適用性。研究者選擇用不同的隨機初始啟動數據進行反應優化,選擇平均損失小、結果方差小、最壞情況損失小的優化器配置。同時發現,利用密度泛函理論編碼的反應空間、高斯過程代理模型和并行的預期改進作為獲取函數(見下文),利用可用的反應數據可以獲得良好的優化性能。研究者從文獻中收集了反應數據,用于優化器的開發和評估,圖2選取了Suzuki Miyaura(1)和Buchwald Hartwig反應(2a-2e)的鈀催化交叉偶聯數據,其目標是在數百或數千種可能的反應條件組合的情況下優化所需產品的收率。?

    Nature | 貝葉斯反應優化在化學合成中的應用

    圖2.?使用訓練數據用于選擇貝葉斯優化器參數

    圖片來源于Nature

    研究者探索了基于化學描述子指紋的反應編碼的使用,該編碼基于通過DFT計算的反應組分的量子化學性質,使用開源庫生成的化學信息學描述子和二進制單熱編碼(OHE)表示。在分別對每種數據類型的優化器進行優化后,研究者發現使用每種編碼進行并行反應優化的平均損失,在很大程度上無法區分。然而,DFT編碼描述符在最壞情況損失方面給出了最一致的結果(所有反應的產率≤5%,相對于Mordred和OHE分別≤15%和≤8%)。因此,研究者選擇使用DFT描述符來進行剩下的實驗。

    接下來,研究者分析了各種代理模型的性能。一個有效的代理模型最基本的要求是做出預測和估計方差的能力。為了獲得良好的性能,必須對代理模型進行優化。在這里,研究者根據反應1和2a-e的回歸性能,選擇了代理模型參數。研究過程中,研究者發現在平均損失、結果方差和最壞情況損失方面,帶有Matérn內核的高斯過程模型提供了優于隨機森林模型的優化性能。

    訓練代理模型后,通過優化獲取函數,依次選擇反應空間中的新實驗(圖1c)。貝葉斯優化(以及一般的主動學習方法)的中心原則是利用信息和不確定性來驅動優化。作為插值方法,常數平均高斯過程傾向于預測當前最佳觀測值附近的最高產量。相比之下,通過選擇預測不確定性最大的點進行評估,開拓性采集函數(純搜索)將傾向于更徹底地研究整個響應面。為了演示二分法,研究者在同一點初始化后,在反應1的二維表示中追蹤了開拓者和探索者的決定(圖3a)。實際上,在前10次評估中,開發人員留在單個集群中,而探索人員則遍歷整個空間,訪問通過k-均值聚類確定了所有5個更大的集群。接下來,研究者通過測量其對整個空間的適合度,來跟蹤與每個獲取函數相關的代理模型的理解(圖3b)。在50個實驗過程中,探索者和開拓者的分數出現了分歧,因為探索者更適合反應表面。最后,研究者考慮了兩種算法研究的每個反應的產率(圖3b),發現探險者和開拓者選擇的大多數點分別給出了低產率和高產率。

    Nature | 貝葉斯反應優化在化學合成中的應用

    圖3.?反應優化中的探索與開發的平衡

    圖片來源于Nature

    在實踐中,從平衡探索和開發的實用程序中,得到的采集函數通常在非凹優化中提供更好的性能。重要的是,該實用程序可以寫成模型后驗分布的函數,這使得評估成本低廉,并使信息收集明確地納入候選選擇中。另外,由于高斯過程代表了函數的分布,人們可以繪制并最大化候選模型,使其適合信息可用的數據,并根據函數形狀和未知區域的估計方差變化而變化——這個過程稱為湯普森抽樣。實際上,與純粹的開發和探索相比,優化反應1的預期改進路徑訪問五個集群中的三個,對應的代理模型對反應響應面具有中等擬合(圖3a-b)。

    貝葉斯優化通常,可表述為一個次序問題。然而,對于許多反應優化問題,并行運行實驗是至關重要的,因為時間是一個巨大的成本(許多反應需要數小時或數天才能完成)。而湯普森抽樣自然適合通過抽樣N個候選響應面,從高斯過程代理模型的后驗預測分布。然而,為了實現分析性收集函數的并行決策,研究者迭代地預測能夠最大化收集函數的實驗,在每一步上采用前一次迭代的替代模型,并將其對最可能結果的預測納入下一個選定的實驗。研究者發現這些基本算法,在并行環境下提供了良好的性能。值得注意的是,對于反應1和2a-e,可以觀察到并行優化(批數,5)與次序優化(批數,1)在50個實驗預算下的平均表現一樣好(p > 0.05)。

    在建立了有效的獲取和批處理策略后,研究者評估了平衡探索和開發的各種收集函數的并行優化性能(圖3)??傮w而言,研究者發現平行預期改善和湯普森取樣都提供了出色的表現,并且他們的平均結果在統計學上無法區分(所有6個反應的p > 0.05)。然而,模擬運行結果的方差和最壞情況損失在湯普森抽樣中更大。重要的是,預期改善的表現非常一致;經過30多個隨機初始化,它在最優解的狹窄范圍內收斂(最壞情況下損失≤5%收益率)。

    基準測試

    接下來,研究者從統計上評估了DOE方法與貝葉斯優化方法的性能。盡管DOE最常用于連續參數的優化,但研究者發現了兩種有效地用于具有分類變量的化工過程優化的設計:廣義子集設計(GSD)和D -優化設計。對于開發集合中的每個反應,這些基于DOE的優化在平均結果(p < 0.05)、標準偏差(貝葉斯優化,≤1.9;GSD≤6.9;D-優化≤3.3)和最壞情況損失(貝葉斯優化,≤5;GSD≤16;D-優化≤15)偏離貝葉斯優化。因此,在其他條件相同的情況下,貝葉斯優化在使用分類變量的反應優化中不僅應用更簡單,而且性能更優越。

    在對貝葉斯優化框架為反應優化進行了調整后,研究者在一個新的反應空間中進行了統計學性能測試。鈀催化的C-H功能化,由于其不需要預功能化起始材料,就能產生分子復雜性而在制藥開發中引起了越來越多的興趣。雜環的直接功能化反應,是一種非常有吸引力的反應,因為它們普遍存在于生物活性化合物中。然而,對于一個給定的雜芳烴底物的功能化,往往需要改進反應條件,以達到最佳的反應活性和選擇性。在這里,研究者測試了咪唑的直接芳基化,以反應3為例(圖4),這與商業化合成JAK2抑制劑BMS-911543的關鍵步有關(圖1a)。

    Nature | 貝葉斯反應優化在化學合成中的應用

    圖4.?貝葉斯反應優化的統計驗證

    圖片來源于Nature

    反應優化真正開始于定義搜索空間。為了促進統計驗證實驗條件的詳盡評估,研究者首先考慮了一組更大的似是合理的實驗,然后通過無監督學習量化潛在反應條件之間的相似性,并選擇那些研究者期望在更大的搜索空間中,得到滿意分布的條件。

    研究者認為,在Bristol–Myers–Squibb(BMS)直接芳基化研究中,選擇合適的配體、堿、溶劑、溫度和濃度對實現最佳反應收率至關重要。在這項研究中,研究者從70個潛在磷類化物中選擇了12個配體(圖4)??傮w而言,研究者選擇了一個包含1728種反應的子空間,包括12種配體、4種堿、4種溶劑、3種溫度和3種濃度(圖4),作為一組易于處理的實驗來作為真實情況。

    接下來,研究者通過HTE收集了整個搜索空間的實驗結果(圖4)。然后,為了將貝葉斯優化的表現與人類專家的表現進行對比,研究者開發了一個游戲,跟蹤不同背景和經驗水平的化學家在優化反應3時所做的決策。雖然游戲的目的是在固定的實驗預算下模擬反應優化,但數據是真實的。每次實驗“運行”返回實驗室中相應實驗的實際結果。在游戲中,參與者有“一個月”的時間,來尋找反應的最佳條件,并有能力“每個工作日”進行一批五項實驗。參與者通過一個返回結果,并跟蹤他們決定的網絡應用程序來“運行”他們的實驗。

    總共有50名來自學術界和工業界的專家化學家和工程師參與了反應優化游戲(圖4c)。因此,貝葉斯反應優化器也玩了50次游戲(圖4b),每次都以不同的隨機初始化開始。人類參與者和機器學習優化器之間的第一個比較點是他們在優化過程中每一步的原始最大觀測產量。人類的初始選擇明顯優于隨機選擇(p < 0.05),在第一批實驗中發現的條件平均高出15%。然而,即使是隨機初始化,在5個實驗的3個批次中,優化器的平均性能超過了人類。值得注意的是,與人類參與者相比,貝葉斯優化>99%的時間,產出100%的實驗預算。在前50個實驗中,貝葉斯優化傾向于,發現全局最優條件?(CgMe-PPh, CsOPiv或CsOAc, DMAc, 0.153 M, 105°C)(圖4b)。重要的是,據目前所知,CgMe-PPh還沒有被用作咪唑直接芳基化的配體。因此,有經驗的化學家起初傾向于不研究這種配體。

    為了找到最佳的實驗條件(約占實驗空間的6%),每個參與者最多有20批反應,共100個實驗。然而,在實踐中,大多數參與者進行的實驗少于20輪,例如,因為他們認為自己已經獲得了全局最優解(圖4c)。因此,除了比較原始的優化路徑之外,研究者還試圖為數據集中的平均人類性能計算最佳和最差情況的邊界。假設提前停止的玩家,如果繼續玩下去,就不會獲得更高收益的條件,我研究者得到了圖4d所示的下限。這個邊界接近原始平均值,達到第11批。相反地,假設玩家繼續下去,他們在下一批實驗中會達到100%的產量,可得到圖4d所示的上限。這個不切實際的上界,非常接近優化器的平均路徑。

    有了原始數據和硬邊界在手,研究者試圖從統計學測試平均而言,是人類還是機器做出了最佳決策。為此,在優化的每一步,研究者進行韋爾奇t-檢驗,原假設是平均人類和貝葉斯優化性能是相同的。在圖4e中,研究者繪制了每種情況的p值。p < 0.05表示可以拒絕原假設。也就是說,人類和貝葉斯優化的性能在統計上是不同的。對于原始數據和下界,研究者推斷出經過平均第五批實驗后,該優化器的性能優于人工優化。相比之下,對于上界,我們發現兩種集中趨勢之間沒有統計學上的顯著差異。因此,在反應3的優化中,在追溯了游戲記錄數據的不現實輸入上限,得出結論:貝葉斯反應優化的平均表現優于人類專家。

    應用

    在統計上驗證了方法之后,研究者下一步進行了真實世界的貝葉斯優化測試案例,以優化與藥物開發相關的反應。重要的是,研究者選擇了,在不可能通過HTE詳盡收集實驗數據的更大反應空間上,應用貝葉斯優化。

    脂肪醇的普遍存在,使它們成為合成復雜分子的理想材料。因此,直接利用醇的雜原子取代反應,在藥物化學中起著至關重要的作用。Mitsunobu反應尤其常用,因為有各種親核試劑可以與脂肪醇發生立體定向偶聯。然而,標準條件通常只能提供中等的收益率。因此,定義明確但可擴展的潛在試劑陣列,使Mitsunobu反應,成為貝葉斯優化的理想測試案例。

    研究者選擇了3-溴-1H-吲哚-6-羧酸甲酯與苯甲醇偶聯反應,反應空間由6個雜氮二羧酸、12個膦類化合物和5種溶劑組合而成(反應4;圖5)。此外,研究者確定了基質濃度網格,雜氮二羧酸當量,磷類化合物當量和溫度作為連續的工藝參數,給出了一個由18萬個可能構型組成的反應空間。

    有了搜索空間,研究者下一步使用BMS最常用的反應條件進行控制:1.1當量DIAD, 1.1當量PPh3, 0.1 M THF和25°C。這些標準反應參數,給出了平均60%的產量,超過了兩個重復實驗(59%和60%)。隨后,研究者使用DFT編碼、高斯過程代理模型和預期改進,作為收集函數進行貝葉斯反應優化,每個批次并行進行10個實驗,初始實驗隨機選擇。值得注意的是,研究者發現優化器很快就超過了基準結果,識別出三組不同的反應條件,僅在10次實驗的4輪中就產生了99%的預期產品(圖5)。高產實驗采用了非常規條件,包括P(Ph)2Me、高濃度和高溫。因此,優化器識別了反應空間區域的定量條件,通常不會被搜索。

    有機化合物的氟化,由于其碳氟鍵的獨特性質,在藥物發現中起著重要作用。在此背景下,醇的脫氧氟化反應,是合成脂族氟化物最廣泛使用的方法之一。在之前的一項研究中,Doyle小組報道了試劑結構的調整,可以使用磺酰氟對許多復雜的醇類,進行有效的氟化。因此,該反應為貝葉斯優化,提供了一個理想的測試用例。研究者選擇了1-(6-硝基苯[d][1,3]二氧酚-5-基)乙基-1-醇的氟化反應,其反應空間由10個磺酰氟化合物、10個有機堿、5種溶劑和一個連續參數(底物濃度、磺酰氟當量、堿當量和溫度)網格定義,給出了一個包含312,500種可能構型的反應空間。?

    Nature | 貝葉斯反應優化在化學合成中的應用

    圖5.?貝葉斯反應優化的應用

    圖片來源于Nature

    接下來,研究者對通常用于商用試劑的PyFluor的反應條件進行了控制(1.1當量PyFluor, 1.1當量DBU, 0.5 M THF和20℃)。在這些標準條件下,在兩個重復實驗(35%和36%)的平均產量為36%。接下來,研究者使用DFT編碼、高斯過程代理模型和預期改進,作為收集函數進行了貝葉斯反應優化,每個批次并行進行5個實驗,初始實驗隨機選擇。研究發現,在五次實驗的三輪中,優化器超過了基準結果,最終確定了在十輪實驗中產生69%的預期產物的反應條件(圖5)。重要的是,在兩個測試反應中,貝葉斯優化識別了一系列實驗條件,其參數設置與標準條件有很大不同。此外,優化器提供了多種配置,這些配置在大多數維度上都有所不同,但提供了相同的良好結果。

    展望與結論

    至此,研究者提出的方法具有任意并行性(即每批迭代實驗可以選擇任意數量的實驗),既可以快速篩選,又可以直接轉化為大規模的工藝條件。綜上研究表明,貝葉斯優化在平均優化效率(實驗次數)和一致性(結果對初始可用數據的方差)兩方面都優于人類決策。因此,在日常實驗室實踐中采用貝葉斯優化方法,可以通過更好的信息、數據驅動的決定,來促進更有效的合成功能性化學品。

    工具下載地址

    auto-qchem: https://github.com/b-shields/auto-QChem

    EDBO:?https://github.com/b-shields/edbo

    https://doi.org/10.24433/CO.3864629.v1

    EvML:?https://github.com/b-shields/EvML

    ?

    參考文獻

    Shields, B.J., Stevens, J., Li, J. et al. Bayesian reaction optimization as a tool for chemical synthesis. Nature, 2021, 590, 89–96. DOI: 10.1038/s41586-021-03213-y

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放