

iANP-EC是一種集成計算框架,結合機器學習和進化計算可識別天然抗癌化合物。
背景介紹
在癌癥治療中,盡管化療和放療有嚴重的副作用,但它們仍是最普遍應用的方法。發現具有更高療效、更好適應性和更持久療效的新型抗癌藥物至關重要。計算模型與實驗平臺相結合可以有效提高探索新型潛在抗癌化合物的成功率,確定更多的潛在候選藥進入試驗階段。除了合成化合物外,人們還對天然產物進行了嚴格的研究,以提高抗癌治療的有效性和質量。
天然產物是由各種生物來源產生的生物合成代謝物,包括植物、細菌和真菌等??茖W證據表明,它們是開發治療各種疾病(包括癌癥)的新藥的關鍵化合物來源。天然分子支架的多樣性和獨特性,有望啟發科學家設計新的藥物分子。此外,人們還發現,天然的抗癌物質可以觸發癌細胞的凋亡誘導活性。此外,人們已發現許多天然產物具有廣泛的抑制活性,通過多靶點機制殺死癌細胞。
除了實驗方法外,最近人們還發展了多種計算方法來確定抗癌藥物。然而,當前計算方法主要集中在抗癌肽上。盡管這些方法取得了階段性成果,但確定具有抗癌活性的天然產物的模型仍有很大的改進空間。
數據下載鏈接
https://github.com/mldlproject/2021-iANP-EC
主要內容
越南胡志明國立大學的Ly Le 和新西蘭惠靈頓維多利亞大學的Binh P. Nguyen團隊提出了一個更有效的計算框架:iANP-EC,該框架使用集成學習結合進化計算來識別抗癌天然產物。為了構建集成模型的基分類器,研究者使用k-最近鄰(k-NN)、支持向量機(SVM)、隨機森林(RF)和極端梯度增強(XGB)算法,并結合RDkit分子描述符集(RDkit MD)和Mol2Vec編碼兩種擴展連接指紋(ECFPs),獲得了16個分類器。接著利用粒子群優化算法(PSO),對四個頂級分類器的組合權重進行優化。結果表明,iANP-EC是一個穩定、穩健、有效的框架,其AUC-ROC值為0.9193,AUC-PR值為0.8366。通過對天然抗癌藥和非抗癌藥分子亞結構的比較分析,揭示了驅動抗癌活性的幾個關鍵亞結構。相關的研究成果以“iANP-EC:Identifying Anticancer Natural Products Using Ensemble Learning Incorporated with Evolutionary Computation”為題發布在國際著名期刊Journal of Chemical Information and Modeling上。
iANP-EC概述
圖1概括了iANP-EC研究中的主要步驟。首先,研究者將經過優化的數據集隨機分成訓練集、驗證集和獨立測試集,然后使用不同的分子表示方案將其轉換為相應的數字形式。對特征訓練數據的5倍交叉驗證結果被用來為每個分類器找到最佳的超參數。每個分類器由一種分類算法和一種分子表示組合而成。研究者使用了四種分類算法,包括k-NN、SVM、RF和XGB,并結合了四種分子表示方案,因此,得到了16個分類器。選取前4個分類器作為基分類器,構建集成模型。
利用整個訓練集上的最佳超參數,對前四個分類器進行再訓練。研究者提出的模型是使用加權集成學習方法建立的,其中每個樣本的預測概率,由單個基分類器返回,分配權重。樣本對集合模型的預測概率為Pensemble?= w1P1?+ w2P2?+ w3P3?+ w4P4。利用粒子群優化算法(PSO)對驗證集的權重w1、w2、w3和w4進行優化。最后,利用特征化后的測試數據對模型性能進行評價。

圖1. 開發iANP-EC主要步驟的圖表描述。圖片來源:JCIM
數據管理
數據管理過程遵循Fourches等人的流程,并進行了少量修改,包括四個主要階段:(1)驗證,(2)清理,(3)規范化,(4)最終檢查。驗證階段除去了混合物、無機和有機金屬。清洗階段除去了鹽和帶電化合物。正規化階段包括去自動化和立體異構化。在非自動化子階段,化合物被非自動化變為正則非自動化SMILESs的形式。檢查階段識別出有沖突標簽的樣品,或簡稱為沖突樣品。最后,研究者完成了數據整理階段,得到了997個獨特樣本的細化數據集,其中包括367個抗癌和630個非抗癌。策劃的數據被分成三個分層集:一個訓練集,一個驗證集和一個獨立的測試集。訓練集用于5倍交叉驗證和模型訓練。權值調優使用驗證集,獨立測試集評估模型性能(表1)。

表1. 用于預測模型開發和評估的數據。表格來源:JCIM
?

圖2. 數據管理中的處理步驟。圖片來源:JCIM
模型構造
圖3顯示了加權集成模型是如何構建的。研究者將所提出的方法與其他兩種集成方法(平均法和多數投票法)而不是最好的單個模型進行比較,以顯示iANP-EC的優勢,因為集成模型通常比單個模型表現出更好的性能。?

圖3. 用粒子群優化方法構建集成模型。圖片來源:JCIM
化學多樣性分析
本研究中,研究者采用了主成分分析對RDKit MD特征化的數據進行分析和可視化。圖4顯示了數據集的化學多樣性和適用性領域。由于訓練集、驗證集和測試集是使用基于結構的分層抽樣方法創建的,它們的覆蓋空間是相似的(圖4a)。此外,還應用PCA觀察了抗癌和非抗癌物質所覆蓋的化學空間(圖4b)。結果發現大多數抗癌物質相互靠近,在主簇旁邊形成許多小簇。
此外,為了闡明本研究的適用范圍,研究者還對本研究使用的所有數據和更大的一組天然產物進行了PCA。研究者選擇NPASS數據庫作為天然產物的代表性來源,有超過35?000個代謝物條目;同時,研究者收集并整理了超過28000種天然產物(不包括在當前數據集中)。PCA圖顯示,研究者的數據集覆蓋了天然產物空間的一個大區域。

圖4. 主成分分析的化學多樣性及其應用領域。圖片來源:JCIM
子結構的重要性分析
為了進一步了解有助于模型鑒別能力的關鍵分子亞結構的重要性,研究者使用SHAP (SHapley Additive explained)方法,對兩組抗癌藥和非抗癌藥的子結構進行了比較分析。圖5顯示了哪些子結構向預測模型添加了更多的值。該圖列出了有助于從基礎值提升模型性能的關鍵特性(子結構)。促進預測任務的子結構用一個紅色右尖蜜蜂圖來表示,而降低預測任務的子結構則表示為一個藍色左尖蜜蜂圖。分析結果表明,bit-36子結構對提高模型性能的貢獻最大,且變化較??;bit-484、bit-420、bit-960、bit-35、bit-202、bit-503子結構對提高模型性能的貢獻最大,且變化較大;而其他子結構可以在一定程度上降低或提高模型性能。

圖5. 在抗癌藥和非抗癌藥分類中具有重要意義的關鍵亞結構。圖片來源:JCIM
同時,研究者還對兩組天然產物的子結構分布進行了比較分析。條形圖顯示了抗癌藥和非抗癌藥分子亞結構分布的差異(圖6)。對其分子亞結構的分析表明,其亞結構有一些相似和不同之處,這可以部分解釋其抗癌活性的性質。x軸是子結構標識符(位),而y軸是整個復合集的截止水平?;衔锏淖咏Y構標識符為Morgan指紋位(使用1024位集)。根據SHAP分析結果選擇子結構(圖5)。bit-36亞結構存在于60%以上的抗癌藥物中,而這種亞結構僅存在于40%的非抗癌藥物中。兩組子結構中bit-484、-420、-714、-35、-745、-503的分布較為明顯。具有bit-484、-420、-35、-745和-503亞結構的抗癌藥部分均超過總集合的10%,而對于非抗癌藥,這些部分幾乎可以忽略不計。相反,大約10%的非抗癌藥具有bit-714亞結構,而具有bit-714亞結構的抗癌藥所占比例非常小。此外,bit-960和-202子結構在兩組中分布相當均勻。

圖6. 抗癌和非抗癌基團中亞結構的分布。圖片來源:JCIM
總結
本文介紹的iANP-EC方法是一種有效的抗癌天然產物預測計算框架。與單獨使用機器學習相比,將機器學習方法和進化計算相結合可以獲得更高的模型性能。該集成模型從16個初始分類器中選出4個性能最佳的分類器,有效地提取了基本分子特征,提高了分類模型的預測能力。
參考文獻
Loc Nguyen, Thanh-Hoang Nguyen Vo, Quang H. Trinh, Bach Hoai Nguyen, Phuong-Uyen Nguyen-Hoang, Ly Le, and Binh P. Nguyen, iANP-EC:Identifying Anticancer Natural Products Using Ensemble Learning Incorporated with Evolutionary Computation, Journal of Chemical Information and Modeling Article ASAP DOI: 10.1021/acs.jcim.1c00920