
引言
在傳統藥物設計中,在確定了一個靶點后,研究人員常使用高通量篩選、虛擬篩選等技術尋找苗頭化合物。以循環神經網絡為代表的一系列分子生成模型,具有一定的藥物設計能力,可以生成滿足Lipinski規則等許多性質的候選化合物。研究人員繼續使用分子對接和藥效團模型評估生成的分子與靶點的親和力。
之前報道了一種叫做“water pharmacophore(WP)”的藥效團模型。這個模型通過分子動力學發現結合空腔中的水合位點,提取藥效團特征。這種模型的優勢在于不依賴于陽性化合物的信息,避免使用已知化合物建模引入偏差,促進模型發現具有全新骨架的化合物。
作者本次將上述兩種方法相結合,從大規模的化合物庫中篩選出匹配藥效團特征的分子,以這些分子作為輸入,訓練分子生成模型。最后用藥效團篩選生成的分子,得到一批候選化合物。作者使用DUD的6個靶點做測試,結果表明該方法產生的分子在5個測試案例中優于對照化合物庫。

圖1.?六個測試案例中建立的藥效團模型
圖片來源:JCIM
?

圖2.?藥效團與最佳抑制劑的結合模式
圖片來源:JCIM
?
結果
1. 藥效團模型的建立與化合物篩選
作者選取了乙酰膽堿酯酶(AChE, PDB:4EY7)、雄激素受體(AR, PDB: 1XQ2)、糖皮質激素受體(GR, PDB:1M2Z)、過氧化物酶體增殖物激活受體-γ(PPARγ, PDB: 1ZEO)、多聚ADP 核糖聚合酶(PARP,PDB:1EFY)、孕激素受體(PR, PDB: 1SR7)六個靶點做方法測試。作者首先使用薛定諤軟件預處理蛋白,接著在AMBER運行10 ns的分子動力學模擬,找到空腔中含有水分子最多的1埃球體的坐標。在刪除球內的水分子后,使用能量、氫鍵等熱動力學的參數,評價這些坐標作為藥效團特征的可行性,并選出關鍵的4-8個藥效團特征(如圖1所示)。其中的能量包含了系統能量、轉化熵、取向熵等多種指標。最后使用富集率度量藥效團模型,并與已知的陽性藥對比,證明了藥效團模型的合理性(如圖2所示)。從ZINC15數據庫得到了12934474個化合物,這些化合物的分子量在200-500,logP在-1和5之間。每個化合物使用薛定諤的ConfGen模塊生成50個3D構象,并存入Phase數據庫中??紤]到模型訓練需要足夠多的樣本和時間的成本,作者使用藥效團模型篩選化合物庫時,調整篩選條件使得選出的分子數在2萬到10萬之間。如果篩選出的化合物數量超過了10萬個,則隨機選出10萬個化合物。
2. 使用模型生成化合物
LSTM是傳統RNN模型的一種改進形式,能有效解決傳統RNN中梯度爆炸和消失的問題。在RNN模型中,分子通常被表示成SMILES的形式,并經過獨熱編碼成一個矩陣,最后輸入模型中訓練。這種表示方法在之前的文獻已有報道并取得良好的效果。作者本次使用的神經網絡由兩個LSTM層和一個全連接層組成。篩選出的分子被隨機分成了訓練集和測試集,訓練集中含有75%的分子,測試集中含有了25%的分子。所有層的激活函數都是ReLu,采用交叉熵作為損失函數,梯度下降則采用了Adam算法,學習率初始設置為0.005,最多訓練1000輪(如圖3所示)。當損失下降過快時,學習率減半,避免過早收斂,陷入局部極小值。在訓練過程中,監測模型在訓練集和驗證集上的損失。隨著訓練進行,損失會逐漸縮小,收斂到一個值(如圖4所示)。當訓練完成后,使用模型生成新的SMILES。每次生成的SMILES會與之前的SMILES相比較,如果相同或者無效,就會被丟棄。這保證最后能生成10萬個不同的分子(如圖5所示)。

圖3. 分子生成模型和訓練后學習后的模型
圖片來源:JCIM
3. 生成的分子具有靶點特異性
藥效團模型從化合物庫中預先篩選出的一批分子,作為分子生成模型的訓練集,使得生成的分子具有靶點特異性(如圖6所示)。對不同的靶點,都要單獨訓練一次模型。另一個方案是先訓練一個通用的分子生成模型,進而生成一批差異化的分子,最后經不同的靶點的藥效團過濾得到新化合物。這個方案效率更低。使用預先篩選過的分子訓練模型,能縮小模型的采樣空間,對一個小空間的充分采樣更有可能發現新的化合物。還有一種方案是使用樣本對預訓練好的分子生成模型做遷移學習。這個方法適用于樣本量少的情形。此次藥效團篩選后依舊有充足的分子,因此不使用遷移學習。

圖4. 六個測試案例中模型在訓練過程中在訓練集和驗證集上的損失變化曲線
圖片來源:JCIM
?

圖5.?從模型生成分子的流程
圖片來源:JCIM
4. 藥效團篩選生成的分子
在已有的化合物庫中,匹配藥效團的分子比例不超過5%,但是在生成的化合物中,匹配藥效團的分子比例增長了近四倍。之前篩選化合物時采用了較為寬松的標準。本次為了得到候選化合物,提高了篩選標準。在PR和PARP測試案例中,雖然藥效團距離誤差依舊在1.5埃,但是要求匹配所有藥效團特征。最后分別得到了1個和37個候選化合物。值得注意的是,在PR測試案例中,采用同樣標準篩選ZINC15庫,沒有找到符合條件的分子;但是在10萬個生成的分子中找到了1個匹配藥效團模型的分子。在PARP測試案例中,從1200萬個分子的ZINC15僅篩選出63個分子,從生成的10萬個分子中就能找到37個。這表明該方法能有效生成結合特定靶點的全新化合物。在AChE和PPARγ靶點的測試中,稍微降低篩選標準,至少匹配6個藥效團中的5個,分別篩選出18個和173個分子。

圖6.?生成具有靶點專一性的分子的整體流程
圖片來源:JCIM
5. 評價生成的分子質量
為了快速預測分子的結合自由能和結合構象,作者采用Glide對接了生成的分子。作者還選取了文獻報道的陽性化合物,從DUD中為各個靶點選取了陰性對照分子。除了PPARγ外,其他測試案例中生成分子的平均結合能低于陰性對照,表明生成分子更加匹配結合位點。在AR、GR、PR和PARP的測試中,新生成的分子的平均結合能更是低于陽性化合物,甚至有些分子的結合能比最佳陽性化合物更低,可見生成分子與靶點的結合能力與陽性化合物相當。在AChE和PPARγ的案例中,生成的分子結合能依舊高于陽性化合物。作者推測是兩個靶點的結合位點較大,生成的藥效團不連貫導致的。因此,這套方法更適用于基于片段的分子生成。此外,作者發現增加生成分子的數量,比如達到10萬以上,有望找到比陽性藥結合能更低的化合物。
作者在評價分子的結合能后,繼續評價分子的新穎性。作者計算了生成分子的Morgan指紋并計算了Tanimoto分子相似度。從分子比例上看,生成的大部分分子(AR, 97%; GR, 99%; PR, 99%; PARP 100%)的相似度低于0.7,滿足新穎的要求。從總體的相似度上看,生成的分子與陽性化合物差異性較大,AR、GR、PR的平均相似度低于0.3(如圖7所示)。雖然生成的分子與已知分子或是陰性對照分子不同,但是它們與陽性化合物在結合位點處有著相似的結合模式(如圖8所示)。比如生成的分子在PARP(PDB: 1EFY)的構象與共晶復合物的配體有著相似的相互作用,與Gly863形成氫鍵作用,與Tyr907形成π-π堆積作用。共晶中的配體結合能是-7.364 kcal/mol,生成的分子的結合能是-8.070 kcal/mol。?

圖7. 結合能超出均值的化合物的相似度分布圖
圖片來源:JCIM
?

圖8. 生成的分子與PARP抑制劑的結合模式對比
圖片來源:JCIM
討論
本次研究證明藥效團與RNN架構的分子生成相結合,能生成全新的靶點特異性化合物,這些分子在分子對接中展現出對靶點的親和力。這種藥物設計方法有望快速找到具有潛力的苗頭化合物。在六個靶點的測試案例中,生成的分子在五個案例中比陰性對照展現出更低的結合能。這個方法可以從生成的分子中找到具有靶點親和力的化合物。如果能夠從模型中無限生成化合物,那么這將大大提高早期新藥發現效率。這個方法不僅是與基于受體的藥效團模型結合,也可以推廣到與基于配體的藥效團模型組合生成新的分子。此外,這個方法與基于片段的藥物設計策略相結合,有助于在大結合位點上的藥物設計。
參考文獻
Minsup Kim, Kichul Park, Wonsang Kim, Sangwon Jung, and Art E. Cho, Journal of Chemical Information and Modeling, 2021, 61 (1), 36-45. DOI: 10.1021/acs.jcim.0c00757