背景
新藥研發通常需要耗費大量的資源,時間跨度10-20年,費用大約5億美元到26億美元。有望通過人工智來促進先導化合物發現來加速藥物研發并降低成本。Discoidin domain receptor 1 (DDR1)是一種由膠原激活的促炎酪氨酸激酶受體,在上皮細胞中表達并參與纖維化。為了尋找到潛在的DDR1抑制劑,研究人員們開發了一種機器學習算法,用于設計新藥分子。藥物研發人工智能公司Insilico Medicine與藥明康德聯合在Nature Biotechnology報道了基于人工智能設計DDR1抑制劑的成功案例,并開源了相關代碼。
基于深度學習的DDR1抑制劑發現流程
從靶點選擇到活性分子篩選和驗證,總時長耗費46天,信息收集以及數據整理7天,建立深度學習模型12天,優化2天,合成以及動物實驗25天。

圖1. ?基于深度學習的DDR1抑制劑發現的工作流
圖片來源Nature
首先,使用六個數據集來構建模型:(1)來自ZINC數據集的抑制劑,(2)已知的DDR1激酶抑制劑,(3)常用激酶抑制劑(陽性組),(4)非激酶抑制劑作用分子(陰性組),(5)制藥公司的生物活性分子的專利數據(6)DDR1抑制劑的三維(3D)結構。在過濾的ZINC數據庫上預訓練GENTRL(預訓練),然后在DDR1和常見的激酶抑制劑數據集上進行訓練。隨后進入強化學習階段。初期獲得了30,000個輸出結構后過濾除去帶有結構警報或反應基團的分子,并通過聚類和多樣性分析減少分子的化學空間維度。然后使用自組織映射和藥效團模型,對生成結構進行評估。依據分子描述符以及RMSD,作者使用Sammon方法來評估剩余分子結構的分布。隨后,為了進一步縮減范圍,方便分析,隨機選擇了其中40個分子,來代表整體的化學空間和RMSD差異。在40個結構中,39個不屬于任何已公布的專利或文章。其中6個被用于實驗驗證,IC50值處于10-10000nM范圍以內。隨后,Compound1被用于動物實驗,展現出了良好的藥代效果,使用了分子對接來模擬Compound1在化合物口袋中的相互作用模式并對其進行分析。

圖2. ?化合物藥代性質及其模擬研究。a) 化合物1的藥物代謝性質。b)化合物1,3,5與藥效團模型的匹配。c)化合物1與DDR1分子對接的結合模式
圖片來源Nature
計算小結
靶點
DDR1激酶受體
計算方法
深度學習,藥效團,分子對接
計算軟件
深度學習:PyTorch,代碼:http://github.com/insilicomedicine/gentrl
分子對接:Glide
計算流程
采用ZINC數據庫上預訓練,然后在DDR1和常見的激酶抑制劑數據集上進行訓練。隨后進入強化學習獲得了30,000個化學結構,過濾除去帶有結構警報或反應基團的分子,并通過聚類和多樣性分析減少分子的化學空間維度,然后使用自組織映射和藥效團模型對生成結構進行評估。依據分子描述符以及RMSD,作者使用Sammon方法來評估剩余分子結構的分布。最后隨機選擇了其中40個分子來代表整體的化學空間和RMSD差異。
參考文獻
Zhavoronkov, A., Ivanenkov, Y. A., Aliper, A., et al. (2019) Deep learning enables rapid identification of potent DDR1 kinase inhibitors, Nat. Biotechnol., 37. https://doi.org/10.1038/s41587-019-0224-x