
引言
人工智能和機器學習早已經證明了它們在小分子預測化學和合成規劃方面的潛在作用。麻省理工學院和13家化學及制藥公司成員組成的藥物發現和合成機器學習聯盟(MLPDS),正在開發和評估一個數據驅動的合成規劃項目。他們共同撰寫了這篇文章,分享了他們認為的預測模型是如何整合到藥物化學合成工作流程中的,MLPDS成員公司目前如何使用它們,以及該領域的前景。

藥物發現和合成機器學習聯盟(MLPDS)
圖片來源:https://mlpds.mit.edu/
計算機輔助合成計劃
在哪里可以幫助藥物化學發現?
目前,將一種藥物推向市場的成本估計超過了23億美元。高額的成本可能歸因于兩個因素:1.經過臨床試驗的候選分子實驗過程上的高損耗率(損耗率超過85%);2.前期發現階段的復雜性,需要在時間和資源上進行相當大的投資。計算機硬件和經電腦模擬方法的進步,加快和改善了藥物化學中典型的設計-制造-測試-分析(DMTA)藥物發現周期的各個方面(圖1)。其中一個越來越受關注的領域是,在制造階段使用數據驅動的合成預測工具,它可以加速合成過程和減少合成新分子實體的失敗。

圖1 在設計-制造-測試-分析藥物發現周期中,信息學和AI技術的一些機會
機器學習和基于規則的方法在規劃合成路線方面都已證明是成功可行的,這些路線也已在實驗室中執行,或被化學家評估是值得嘗試的。例如,辛西亞已被用于尋找與藥物有關化合物的路線,與專家開發的路線相比,它甚至提高了總產量。雖然該領域仍處于使用計算機輔助合成規劃(Computer aided synthesis planning,CASP)進行完全自動化合成規劃的早期階段,但這些初步成功證明了這些工具在DMTA周期中的效用。
從2018年5月開始,麻省理工學院的一組研究人員與13家制藥和化學公司在藥物發現和合成的機器學習(MLPDS)聯盟中,進行了密切合作。該聯盟眾多的目標之一是開發基于機器學習的算法和工具,以加速DMTA周期的制造階段(圖1)。
本文將從以下幾個地方對人工智能在藥物化學合成中的許多作用進行描述:
(1)可以集成到藥物化學工作流程中;
(2)已經整合到某些制藥公司中去了;
(3)需要進一步發展才能完成更艱巨的任務。研究者著重于計算機輔助合成規劃中的三個主要任務(CASP)(如圖2):逆合成計劃,條件建議以及正向反應預測。

圖2?計算機輔助合成規劃的三個主要任務
利用基于ML的CASP進行逆向合成規劃。?逆向合成軟件通過生成假想的合成路線來緩解人工合成評估的瓶頸,這種假想的合成路線可以通過簡化合成來快速對化合物進行優先排序,從而為化學家提供了一組更集中的化合物作為專家路線規劃的起點。
按照合成能力對化合物的評分方法有兩種:簡化的基于結構的啟發式方法和全逆合成樹擴展。啟發式的目標是從分子結構中捕捉SA的廣泛趨勢,傳統上一直使用專家定義的分子屬性函數。非線性回歸(例如,使用機器學習技術)可以代替概括由專家化學家分配的主觀分數,或用于半監督設置,以學習化學反應的例子。然而,在現實中,合成靶標的能力高度依賴于可購買的特定構建塊的可用性,而不是分子結構的平滑功能。由于構建塊的可用性取決于環境(例如,組織、預算、發現和過程開發),一個更通用的評估合成能力的方法是使用可購買化合物的定制數據庫的逆向合成擴展,該數據庫是為應用程序定制的。明確的逆合成合成擴展的好處是認識到獲取感興趣的目標的轉化確實存在,而且合適的起始材料是可用的;然而,它需要更高的計算成本。然而,有了逆向合成的規劃工具以及足夠的時間和訓練,神經網絡模型可以開始近似這個高度非線性的函數。
逆向合成規劃軟件主要有兩大類:即使用專家編碼的規則或啟發式來生成推薦的軟件和那些學習(或推斷)如何生成推薦的軟件。從反應數據集中提取模板的一般步驟是:(1)識別反應中心或變化原子;(2)識別靠近反應中心的原子;(3)添加參與反應的廣義官能團。這種方法捕獲了局部的反應環境,但是,在大多數算法的實現中,并沒有捕獲有助于反應的分子的全局特征。專家編碼的方法可以更好地描述功能性基團的需求,但不能針對單個組織的能力進行剪裁。
反應條件的推薦和評價。規劃一條逆合成路線只是整個CASP系統的一個方面,要想成為實驗室的可行建議,必須提出一套能夠實現所期望的轉化的反應條件。原則上,條件推薦的機器學習模型如果對歷史條件數據進行適當的訓練,可以更客觀地推斷出合適的條件。
在實踐中,由于缺乏高質量的數據,這類模型很難開發。阻礙發展的主要數據問題是對(1)數量、體積或濃度;(2)反應時間或動力學;(3)試劑和催化劑的添加順序等的揭示不足。條件推薦模型可能會被開發以適應特定化學領域的需要,例如藥物化學或過程化學。在許多情況下,反應的目的是不同的,例如產量和副產物形成的重要性。在設計新的條件組合或新的催化劑或試劑時,可能需要更具體的預測來為單個反應找到最佳條件。
盡管很難避免反應條件的經驗優化,特別是對于復雜的底物或串聯催化,但人工智能技術有望在加速這一過程中嶄露頭角。反應優化是一個成熟的領域,存在許多統計技術來選擇實驗條件來迭代地提高性能(例如,在收率、周轉率或吞吐量方面)。從機器學習的角度來看,以上是主動學習的框架。最流行的方法是基于模型的技術,即建立反應性能的替代模型作為反應條件的函數。各種搜索策略(如貝葉斯優化)可以在這些模型之上分層,以幫助選擇下一組條件來嘗試和完善模型。
正向反應的預測。CASP的第三個關鍵任務是確保通過算法合成設計得到的建議是穩健的,并且可以通過預測反應產物(至少在質量上)來實施。反應預測的機器學習方法包括嘗試從預定義的規則或模板列表中推斷反應規則,圖形卷積神經網絡用于預測從原料到產品的原子和鍵的變化以及預測產品SMILES的序列-序列模型。鑒于原則上只有一個正確答案,與反合成模型的評價相比,正向合成模型更容易進行定量評價。然而,在實踐中,缺乏精確的濃度、時間和溫度數據使反應預測成為不確定的問題。
這些正向反應預測器也可用于副產物的預測。對最有可能產物的了解,有助于識別可能產生潛在有害或難以分離的中間產物的反應。許多反應可以產生多個區域或立體異構化合物。一旦這些模型能夠做出定量的預測,它們對于凈化策略的考慮和設計是必不可少的。
CASP目前在制藥和化學工業中
是如何使用的?
多步路線規劃。眾多可用的商業和學術合成路線規劃軟件,都提供了一個獨立的圖形用戶界面(GUI)或基于web的界面,用戶可以在其中與建議的路線和預測進行交互。該軟件的目標用戶范圍,包括從沒有太多化學反應知識的非化學家,到想要簡化合成工作流程且訓練有素的化學專家。在Janssen,許多化學家同時使用合成規劃工具和傳統的數據庫查找已知反應,以更快地啟發創意。大多數公司通過小規模的試驗來選擇化學專家,這些化學家在評估機器學習CASP工具的能力和確定關鍵限制方面處于最強有力的位置。公司的beta測試者和逆向合成算法開發者之間的密切聯系是必要的,因為真正的性能評估必須由能夠驗證模型建議且訓練有素的專家進行。一般來說,如果目標分子與Reaxys或USPTO中發現的產品分子在化學空間上相似,則使用ASKCOS工具套件往往表現良好。這些目標分子可以使用成熟的化學和模型可以在其適用范圍內充分發揮作用。

圖3?用ASKCOS對branebrutinib進行逆合成分析
基于機器學習的路徑規劃工具的成功體現在許多不同的方面。這些項目能否找到途徑的一個最簡單的因素是被認為是商業可用的化合物數據庫的覆蓋率。為了更好地理解可購買化學品數據庫是如何影響樹搜索的結果,葛蘭素史克比較了ASKCOS可購買的化學品庫存數據庫(138k)和更大的數據庫(800M)。在一個包含69個目標分子的內部集合中,使用最自由的路徑規劃設置,ASKCOS分別通過庫存數據庫和內部數據庫為54%的化合物和67%的化合物找到了一條路徑。這些結果突出了路徑規劃算法對用于停止搜索準則數據庫的依賴性。然而,對可購買數據庫的依賴使CASP工具的比較變得復雜,因為每個軟件包使用不同的(通常是未公開的)可購買數據庫。通過在每個CASP工具中加載和使用定制構建塊集的簡單實用程序的實現,這個問題可能會得到緩解。

圖4?化合物A的甲基化類似物的逆合成分析
預測化學的機器學習方法的一個預期特征是,對專有數據的再培訓模型應該能讓公司對內部使用的化學物質實現更好的預測能力。來自阿斯利康和伯爾尼大學的研究人員應用了一個工作流來提取逆向合成模板,并對幾個公共和專有數據集進行培訓/應用,并比較了不同模型的性能。他們發現Reaxys擁有最獨特的反應模板,其中2%的數據在研究中使用的所有數據集之間共享,只有0.6%的數據在Reaxys和他們專有的ELN數據子集之間共享。禮來公司從已批準的、實驗性和研究性藥物中確定了6k的目標化合物子集,代表了公司感興趣的化學空間。利用禮來構建塊數據庫和內部合成規劃平臺ChemoPrint,可使用以下模板集進行逆向合成擴展:1)僅使用禮來eLN數據(13297個模板)和2)禮來eLN數據加上專利數據(13297 + 50275個模板)。第一個模板集能找到40.1%的6k化合物的路線。在模板集中添加額外的專利模板,僅增加了5.8%的成功配置路徑的能力,對應的成功率為46.9%。對于全路徑規劃,這些結果表明需要進一步測試內部和專有數據集,以及公司數據可能對多步路徑規劃的影響。

圖5?ASKCOS交互式路徑規劃的屏幕截圖
正向反應的預測。基于機器學習的正向預測的目的是驗證由全路徑規劃提供的路徑。在實現中,正向預測不是通過GUI在樹搜索過程中自動進行的,而是可以對擴展后的反應進行正向預測。在實踐中,正向反應預測工具目前主要用于識別潛在的副產物和雜質,而不是確定路線。與逆向合成計劃類似,公司數據的使用應通過調整用于培訓和預期預測的化學品/反應類型來提高內部使用預測的質量。輝瑞公司和劍橋大學最近的一項研究表明,根據恰當數據再訓練一個序列-序列的正向預測模型確實能提高公司特定化學的準確性。
條件推薦。在成員公司部署的所有MLPDS模塊中,條件推薦的使用頻率最低,收到的反饋也最少。條件推薦的一般模型,如在ASKCOS中包含的模型,可以為反應執行提供一個良好的起點,將是藥物化學工作流程的首選。然而,由于訓練集領域的適用性,這些廣義模型存在一定的局限性?;瘜W家目前可以使用ASKCOS為計劃反應提供一個良好的起點,但許多原因可能導致條件推薦的采納率較低。一是模型推薦不夠具體(濃度、時間、添加的順序等等都沒有),無法給出可執行的條件。該模型提供的條件可以通過文獻檢索類似的轉變,這仍然是實驗化學家的首選機制。從長遠來看,有可能一旦做出定量推薦,就有可能影響自動化實驗,但目前,條件推薦的效用有限。通過對諾華的 LSZ102(化合物12)及其衍生物在SAR發現階段的反應進行回顧性分析發現,ASKCOS路徑規劃確定了LSZ102通過兩類鈀催化的C-C耦合的路徑,如圖6所示。而這兩種耦合策略在面向LSZ102的SAR發現階段被廣泛使用。

圖6?LSZ102的單步逆合成預測
進一步的回顧性分析表明,在提出的前3種條件下,最頂級的斷開(Pd-催化C-H活化)都需要高溫和極性非質子溶劑(DMF/DMA)。優化條件適用于多樣且產率位于39 -97%的基質原料。由ASKCOS提出的初始溫度和溶劑條件與實際使用的溫度和溶劑條件相差不遠,可為偵查或篩選工作提供一個良好的起點。
可合并到公司平臺中的編程接口。雖然圖形用戶界面是化學家使用的主要方法,但計算工具可以直接與其他計算管道集成。與內部分子設計工具的緊密集成代表了CASP的附加值,并可能得到更多的采用。禮來公司設計了一個名為Kernel的內部工作流程,在這個流程中,來自化學家的目標化合物或篩選目標被提交,并以自動化的方式進行優先排序。一旦Kernel確定了優先化合物,就利用ChemoPrint的API和禮來構建塊集合對所有分子執行完全的逆向合成路徑規劃,然后將其添加到化合物清單中,并通過電子郵件通知團隊成員結果。BASF開發了一個集成平臺,將文獻參考資料和內部電子實驗室筆記與合成反應模板建議連接起來,并將內部復合庫存數據庫集成到遞歸路徑規劃中,以優化內部資源的使用。用于合成途徑的分子與一套內部工具相連接,用于預測物理和毒理學性質,使在進行實驗室工作之前能夠對反應的可行性和安全性經由電腦模擬評估。
自動化的合成平臺。合成規劃是全自動反應平臺的重要組成部分。目前,對于自動化合成平臺的研究已經局限在一個相對較小的實驗組,并且在學術界和工業界很大程度上仍停留在概念驗證階段。ASKCOS合成規劃軟件與機器人流合成平臺的相結合,是其潛在的機遇。這證明了機器學習CASP工具在推薦自動化執行的路線和條件時是有用的;然而,路線和條件推薦仍然需要細化(例如,指定濃度和反應時間),并進行離線優化(例如,適合流動化學),然后在機器人平臺上執行。自動化系統的其他選擇包括使用循環流體的閉環DMTA循環、自動化實驗室和超高吞吐量實驗。一些制藥公司目前正在將逆向合成計劃軟件集成到閉環自動化中。在禮來公司,ChemoPrint已經成功集成到一個自動化的化學合成平臺。但這些實例僅局限于單步合成方案,對項目的推動作用不大。作為概念驗證,本實驗證明了CASP與自動化耦合驅動DMTA循環的可行性。
用于采納。2017年,一小群化學家在三家制藥公司接受調查時,要求對一個合成規劃平臺的最重要特征進行定義,以推廣采用。受訪者認為最重要的6個特征分別是:
(1)一個便于使用和直觀的界面交互的路線;
(2)?一種方法來探索文獻的先例與路線建議;
(3)?用戶可自定義他們希望被打破的鍵來指導搜索;
(4)?路線終止于可購買的起始材料;
(5)?官能團不相容和不穩定化合物的識別,并提出保護集團策略,以繞過這些并發癥;
(6)對排序路線實施評分系統。
建立成功的度量標準。評估單步逆向合成模型性能的最常見的指標是top-k的準確性。對小型的k(1-3)使用top-k精度的模型評估表明,發表的方法是少數正確答案之一,而實際上,逆向合成是一個模糊的預測。雖然數據庫中沒有記錄多個答案,但可能存在許多正確的基本事實,因此像top-10精度(或更大的k)這樣的指標更合適,但也會提高精度,這可能不能正確反映模型性能。
另一個重要但經常不被報道的指標是預測的多樣性。從大多數化學家的觀點來看,top-k的準確度可能并不總是選擇逆向合成工具的最重要因素。在路線規劃中,一個尚未考慮到的關鍵斷開與建議的可行性同樣重要。一個高度可行卻不實用,但很明顯的建議是簡單的官能團相互轉換,其中的復雜性并沒有建立(但經常在歷史反應數據中看到)。相反地,一個不可行的但非常有用的卻不明顯的建議是,在沒有已知的化學物質能夠實際進行反應的情況下斷鍵。使用top-k精確性來為單步預測打分,使研究者能夠獲得可行的建議,同時使用啟發式來引導模型走向有用的斷開。這種權衡只能由專業的化學家來評估,他們可以從許多建議中挑選出來;然而,這些化學家的評分是主觀的,往往偏向于他們熟悉的化學物質。為全社區采用定義理想的度量標準的困難在于平衡精確模型的開發和提供不同建議的模型。
數據決定了常用的基準以及評價方法。眾所周知,機器學習模型可以從更多更豐富的數據中獲益。文獻報告中記錄了關于路徑演化的討論,但在轉換為數據庫條目時并不總是會捕獲到。這一信息對于化學家在規劃路線時確定策略非常有用,但在建立模型時卻沒有得到。此外,記錄文獻報告的數據庫通常只包含了收益率較高的正向數據。大多數反應預測者都接受過成功反應的訓練(USPTO和Reaxys數據集),因此,他們無法預測一個反應是否會有低的轉化率。而在反應混合物中的側產物或副產物的完整表征通常是不公開的,因為識別所有化學物質需要很高的時間和成本,因此,限制了研究者構建反應性預測模型的能力。最后,有一些數據被捕獲卻沒有報告。然而,數據獲取正日益成為許多公司感興趣的話題,他們的報告有望進入公共數據集。與使用統計學習的方法相比,使用專家編碼規則的CASP方法對數據可用性不那么敏感。盡管如此,這些方法仍將受益于更豐富的數據,因為制定規則的專家將更好地了解反應。
展望與結論
目前基于機器學習的CASP工具,減輕了化學家合成規劃的認知負擔。隨著用于合成規劃的機器學習模型的不斷發展,化學家們越來越接受使用CASP來減輕他們的工作量,將使得這些工具得以改進,以適應不同化學領域的需要,并處理日益復雜的合成挑戰。
參考文獻
Thomas J. Struble, Juan C. Alvarez, Scott P. Brown, Milan Chytil, Justin Cisar, Renee L. DesJarlais, Ola Engkvist, Scott A. Frank, Daniel R. Greve, Daniel J. Griffin, Xinjun Hou, Jeffrey W. Johannes, Constantine Kreatsoulas, Brian Lahue, Miriam Mathea, Georg Mogk, Christos A. Nicolaou, Andrew D. Palmer, Daniel J. Price, Richard I. Robinson, Sebastian Salentin, Li Xing, Tommi Jaakkola, William. H. Green, Regina Barzilay, Connor W. Coley, and Klavs F. Jensen. Journal of Medicinal Chemistry 2020 63 (16), 8667-8682. DOI: 10.1021/acs.jmedchem.9b02120