

背景介紹
Molecular Transformer是當前最先進的反應預測技術,模型的輸入是反應物和化學結構的文本表示,模型執行機器翻譯預測最可能的分子和概率分數。目前Molecular Transformer在USPTO有機反應數據集上達到了90%的Top-1準確率。然而,Molecular Transformer的一個難點是其輸出結果缺乏可解釋性。Molecular Transformer輸出某個結構以及找到某個最相似樣本的依據我們都尚不清楚。對于模型用戶來說,化學反應是前后密切相關的,反應條件、反應規模和項目研究方向是經驗豐富的化學家用來解釋和了解反應的依據。而對于模型開發人員來說,有機化學原理可以解釋化學反應性和選擇性。因此,可以通過測試Molecular Transformer輸出的基本原理是否與有機化學一致,是否憑借正確的依據得到正確的預測兩種方法來改進模型。在本文中,研究者使用輸入化學結構和訓練數據來定量解釋Molecular Transformer的預測結果。研究者展示了模型學習的內容,并揭示了預測錯誤的原因。同時,研究者還發現了訓練數據中阻礙泛化性能和掩蓋模型缺陷的隱藏偏差,并通過引入新的無偏差訓練/測試分割解決了這個問題。相關的研究成果以“Quantitative Interpretation Explains Machine Learning Models for Chemical Reaction Prediction and Uncovers Bias”為題發表在國際著名雜志Nature Communications上。
主要內容
模型預測的三個關鍵因素是架構、數據和輸入。這三個因素相互作用產生復雜的作用方式,因此存在難以解釋的問題。要解釋模型預測,首先需要定義可解釋性。研究者認為可解釋性是發現輸入和輸出關聯的能力,以及在數據中尋找支持結果的證據的能力。研究者采用積分梯度(IG)的方法,使用各部分的輸入來解釋選擇性化學反應中兩種產物的預測概率差異,在輸入的各部分展示出每個子結構對模型的預測選擇性的貢獻。如果概率差異在輸入中均勻分布,那么獲得比平均值更高的積分梯度的結構部分是重要的。研究神經網絡的預測與最相似的訓練數據點的關系的文獻較少。為了實現這一目標,研究者開發了一種基于隱空間相似性的方法,即使用Molecular Transformer編碼器對token取平均,將反應表示成固定長度向量,然后使用這些潛在空間向量的歐式距離尋找模型認為最相似的訓練反應。研究者采用兩種方式來驗證他們這種方法。第一種方法是偽造樣本,如果積分梯度在化學上不合理,即依據錯誤的原因預測出正確的結果,那么就設計對抗性樣本,迫使模型做出錯誤的預測;第二種是尋找訓練數據中預測的依據,如果預測錯誤,那么就詢問訓練數據中是否存在類似的錯誤條目。整體測試的流程如圖1所示。接下來就以三個示例對研究者開發的方法進行說明:
示例1:環氧化反應的常用試劑是mCPBA,具有區域選擇性。在第一個環氧化反應中,采用了mCPBA試劑,模型成功地預測出正確的結果(如圖2a所示,藍圈部分的積分為正,表示對正確預測選擇性有貢獻)。在另兩個環氧化反應中采用的試劑是二甲基過氧化酮,它在訓練數據中僅出現 14 次,且反應物的兩個雙鍵帶有吸電子的取代基,盡管如此該模型也能正確預測(如圖2b所示)。
示例2:Diels-Alder反應能將親二烯體轉化為具有雙鍵的六元環。雖然親二烯體一般優先與吸電子基團共軛,但Molecular Transformer卻無法預測該反應的區域選擇性(圖3a)。圖 3b 顯示了基于模型編碼器輸出的訓練集中最相似的3個反應,但第一個最相似的反應是錯誤的,第二個和第三個是 Grubbs復分解而不是環加成反應。這說明模型在潛在空間中沒有很好地學習到 Diels-Alder反應。為此,研究者設計了一個對應于 [4 + 2] 環加成的反應模板,發現在數據庫中只有七個反應與之匹配。由此可見,數據解釋有助于識別錯誤樣本和稀少樣本引起的預測錯誤。
示例3:Friedel-Crafts反應的示例如圖4所示。專利數據顯示,90%的產物是對位的形式(與氟取代相比,?;饕〈鷮ξ坏臍?。Molecular Transformer正確預測了該反應。積分梯度計算表明該模型將正確預測歸功于試劑因素,卻忽略了氟在反應中的重要性。研究者通過使用間位取代基替換氟設計出對抗樣本,模型就預測出了錯誤的結果。由此可見,模型在取代苯的 Friedel-Crafts ?;磻袥]有有效學習到選擇性。在研究者給出的第三個Friedel-Crafts中,間位取代的貢獻是負的,這意味著根據模型,酰胺基團有利于間位產物的形成,雖然這與化學原理一致,但該模型仍然預測對位是主要產物,這可能是因為訓練數據集中的對位取代反應地數量遠遠多于間位取代反應的數量。
研究者也研究了訓練數據的不平衡對模型的影響,如圖5所示,盡管測試集中包含了相同數量的對位和間位取代產物,但當訓練集中的間位和對位產物比例不同時,模型預測的結果也有所差異。當訓練集間位和對位產物比例為1:1時,模型能迅速收斂并預測等量的間位和對位取代反應;當比例達到1:9時,模型產生偏差,但隨著訓練時間的延長,偏差會有所緩解;當比例達到1:99時,模型就無法預測出間位產物。由此可見,Molecular Transformer似乎只知道化學反應性,因此學習到了數據集中的隱藏偏差。
骨架偏差表現為訓練集中骨架類似的分子通常參與非常相似的反應。研究者也研究了骨架偏差對模型的影響,如圖6所示,研究者按照1:1將數據集拆分為訓練集和測試集,分子的相似性采用分子指紋度量,許多訓練集和測試集的反應非常相似。結果表明,測試集的57%-93%的反應產物與訓練集中的產物結構相似,而且相似產物的反應通常也具有相似的原料和反應類型。因此,使用隨機訓練/測試拆分無法合理評估模型的預測和泛化能力。為了解釋骨架的偏差,研究者建議訓練集和測試集應依據產物的相似性劃分,并確保測試集中沒有任何反應的產物與訓練集中的產物過度相似,同時訓練集和測試集中不同反應類型的分布仍然遵循相似原則。數據劃分完畢后,測試集中不存在不包含在訓練集中的反應模板。劃分后,測試集的模板去重數量從3k 增加到4.9k,這種拆分方法生成的數據集更具說服力。研究者按照上述方法處理了兩個數據集,分別訓練Molecular Transformer模型和一個基于圖的反應預測模型。結果發現圖模型和Molecular Transformer的表現均顯著變差,但Molecular Transformer的表現依舊優于圖模型(表1)。這些結果表明骨架偏差能顯著影響基于圖和基于序列的模型(這是數據集固有的性質,與模型架構無關)。
圖表匯總

圖 1. (a) 整體流程圖;(b) 結構度輸出的貢獻;(c) 反應物和產物的空間編碼。圖片來源于Nature Communications
?

圖 2. (a) 模型正確預測了環氧化反應;(b) 兩個未知反應檢驗模型。圖片來源于Nature Communications
?

圖 3. (a) 模型對Diels-Alder反應預測的典型錯誤;(b) 模型未識別出Diels-Alder反應,或者訓練集中這類反應很少。圖片來源于Nature Communications
?

圖 4. (a) 模型正確Friedel-Crafts?;磻鳟a物是對位產物;(b) 當沒有氟取代時,模型預測開始出現錯誤。圖片來源于Nature Communications
?

圖 5. (a) 數據集中的Friedel-Crafts反應分布情況;(b) 數據集中的偏差對模型產生了干擾。圖片來源于Nature Communications
圖6. 隨機劃分數據集時,訓練集的樣本和測試集的樣本具有高度的相似性。圖片來源于Nature Communications
表1. 不同數據集劃分方法中模型的表現。表格來源于Nature Communications
結論總結
研究者提出一個定量解釋Molecular Transformer預測結果的框架,發現模型會通過學習偏差預測出正確的結果。研究表明,正確的預測可能是錯誤的訓練樣本引起的。研究者還發現了反應數據集中的骨架偏差現象,這種現象導致文獻中模型的泛化性能被高估。研究者在新數據集上重新訓練模型,發現模型準確率顯著下降。通過嚴格應用可解釋性技術,研究者揭示了發現模型弱點的方法,并希望該方法對數據科學家有所幫助。
參考文獻
Dávid Péter Kovács, William McCorkindale, and Alpha A. Lee, Quantitative Interpretation Explains Machine Learning Models for Chemical Reaction Prediction and Uncovers Bias, Nature Communications, 2021, 12, 1695. DOI: 10.1038/s41467-021-21895-w.