在藥物化學研究中,闡清分子結構與化學活性之間的關系一直以來十分重要。早期的研究一般通過構建定量構效關系模型來對該問題進行分析。近幾年來,基于人工智能的新方法,尤其是深度學習模型在諸多領域中取得了良好的成績,也越來越受到化學及藥學領域的關注。近日,我司參與研發一種基于深度學習模型及自注意力機制的定量構效關系分析模型1-2。通過分析分子序列的語法,該模型不僅可以準確地預測分子的物理化學性質(如穩定性,溶解性等)與活性(包括毒性),還能給出分子子結構與性質之間的對應關系,輔助化學家設計合成更具潛力的化合物分子。

圖1:基于深度學習與注意力機制的定量構效關系模型
作者采用了一種基于自注意力機制及長短期記憶系統的神經網絡。該模型由一個嵌入層,長短期門控層(LSTM),自注意力機制層,全連接層,以及softmax激活函數組成。其中訓練環節是將每個分子以序列格式(SMILES)表示,并切分成字符,隨后組合成詞典。利用字典映射后將分子的詞向量按時間步輸入網絡。隨后,將LSTM每個時間步的輸出合并,輸入到自注意力機制層。自主力機制層的輸出結果與原結果進行加權相乘,輸入到全連接層。最終通過softmax或者sigmoid函數輸出結果。

圖2: 定量構效關系模型簡圖
作者從物化性質,活性,毒性等三種不同類型的數據(共27個數據集)進行了實驗分析,對結果進行了詳細的闡述。

圖3: 穩定片段(紅)與不穩定片段(紅)
作者通過對穩定性數據建模,以81.2%的準確率取得了目前該數據集表現的最佳結果。同時,作者進一步分析網絡的注意力權重,將其以熱圖的形式展現出來。如圖3所示,模型能較好的識別出一個分子的活性與不活性片段,作者認為模型對子結構的抓取也是模型對后繼分子性質判斷的依據。

圖4: 毒性片段(紅)
隨后作者在TOX21毒性數據集上進行建模,也取得了目前文獻報道中最佳的結果,平均AUC達到84.2%。作者使用了同樣的方法對數據集中的部分毒性分子進行了性質相關的子結構識別,發現熱點部分(紅色)與數據庫中報道的毒性片段高度重疊。作者也對DUD-E活性數據集進行了建模,由于數據集的特殊性,該模型在多個蛋白活性數據上取得了0.99的準確率。在后繼分析注意力權重時,作者發現熱點和分子與蛋白的結合部分也有所重疊。

圖5: 注意力權重的熱點部分與真實結合位置重疊(紅)
總之,該模型作為一種完全基于分子序列的端到端定量構效關系模型。該模型不僅能很好的判斷分子性質,還能識別出性質相關的子結構片段,為化合物優化提供線索。
參考文獻
1.Zheng, S.; Yan, X.; Gu, Q.; Yang, Y.; Du, Y.; Lu, Y.; Xu, J., QBMG: quasi-biogenic molecule generator with deep recurrent neural network. J Cheminform 2019, 11 (1), 5.
2.Zheng, S.; Yan, X.; Yang, Y.; Xu, J., Identifying Structure-Property Relationships through SMILES Syntax Analysis with Self-Attention Mechanism. J Chem Inf Model 2019, 59 (2), 914-923.