本文要點
1. 研究者討論了分子深度學習領域的積極研究將如何解決當前描述符和指紋的局限性,同時在化學信息學和虛擬篩選領域創造新的機遇。
2. 研究者簡要概述了表征在化學信息學中的作用,以及深度學習中的關鍵概念,并認為學習表征提供了一種改進小分子生物活性和性質預測建模的新方法。
背景介紹
為什么表征重要?
從一系列復雜的觀察中學習關鍵模式的能力是人工智能的一個核心方面?;瘜W家利用這種能力尋找小分子先導物,并在治療性發現中優化類藥物的特性,在這一領域中復雜的化學和生物過程控制著小分子之間的相互作用。在結構模式識別中,一個經常被忽視但又不可分割的方面在于分子是如何被表征的。例如,圖1顯示了他汀類立普妥以多種人類可解釋的方式繪制。從圖像上看,大多數有機化學教科書都教學規范化的鍵線符號(圖1,左),其中一個分子被描繪成一個化學圖形,每個未標記的頂點對應一個碳原子。這種視覺符號可以很容易地說明分子的拓撲結構,但不同的方向和觀點可能掩蓋或揭示顯著的模式。此外,鍵-線式符號忽略了三維形狀(圖1,中間)和柔性分子相關構象動力學(圖1,右)的重要方面。

圖1?分子的常規視覺、人類可解釋的表征
圖片來源 JMC
有效的分子表征對于統計和機器學習至關重要。幾十年來在定量構效關系(QSAR)研究和分子相似性分析方面的藥物發現研究表明,準確的預測依賴于分子特征(也稱為分子描述符)的選擇。在機器學習中,這種手動發現和創建相關特征的過程被稱為特征工程。
特征的選擇對于任何機器學習管道都是至關重要的,并直接影響可以使用的學習算法的類型。大多數真實世界的過程產生的數據是不能線性分離的,如圖2A中,無法找到區分紅色和藍色類的線性決策邊界。領域專業知識和對產生觀察數據的物理過程的理解可以激發特征轉換,從而簡化學習。在這個例子中,從笛卡爾坐標到極坐標的轉換允許一個線性決策邊界來分離兩個類(圖2B)。另外,添加新的相關特性可以幫助區分新維度中的類(圖2C)。盡管這種方法在機器學習方面持續取得成功,但特征工程可能仍是困難和耗時的。
與特征工程相反,深度學習算法執行一種特征學習,也稱為表征學習。深度學習模式不依賴于專家編碼的特性,而是直接從觀察到的數據中學習簡潔而富有表現力的表征。圖2D強調了一個簡單的神經網絡是如何自動學習一個新的且線性可分的內部表示,而不借助額外的工程。?

圖2?表征的選擇在學習中起著關鍵作用
圖片來源 JMC
?我們需要新的分子表征嗎?
分子表征簡史
從親脂性到三維幾何,現有成千上萬的實驗和理論描述符被開發用于化學信息在藥物發現中的應用,既然如此,這個領域是否需要新的分子表征呢?現有的描述符每個都編碼不同的信息,但沒有一種表示法能在所有任務中普遍有效地執行。
因此,大多數分子表示法編碼針對特定用途而優化的信息。廣泛使用的簡化輸入行輸入系統(SMILES)和隨后的國際化學標識符(InChI)只是用于此目的的詞匯表示的兩個例子,因為它們以標準化格式緊湊地存儲分子圖信息,以便于信息搜索。類似地,高效查詢不斷增長的化學數據庫以快速進行子結構搜索的需求推動了基于密鑰的位串指紋的發展,每個位表示分子特征或子結構的缺失或存在。
新表征法的發展也反映了研究的變化趨勢和不斷發展的技術景觀。例如,在20世紀80年代和90年代,隨著對結構活性建模和分子相似性分析的努力不斷增加,產生了新的位串表示,并對舊的位串表示進行了再優化。同樣地,對生物活性建模的不斷推動推動了分子訪問系統(MACCS)密鑰指紋的重新優化,該密鑰指紋最初是為基于專家編碼特征的子結構搜索而設計的。隨著QSAR研究的進展,X射線晶體結構的影響日益增加,加上額外的計算能力,推動了表征和方法的設計,以捕獲三維結構和形狀方面?;?strong style="box-sizing: border-box;">幾何距離的指紋和化學結構快速疊加(ROCS)等方法為利用空間信息進行3D-QSAR和形狀-相似度分析提供了新的機遇。但到目前為止,有效地合并構象集合的表征還沒有被開發出來。
最近的研究表明,現有的分子描述符不足以表達許多應用。幸運的是,深度學習中的主動學習為小分子的靈活表征學習開辟了一條有前途的道路。
什么是好的分子表征?
好的分子表征應具有什么樣的品質?在機器學習中,好的表征法應是會使學習任務更容易,這一概念可通過圖2中示例看出。同樣的道理也適用于分子,因為識別關鍵的結構特征對于揭示生物活性和性質關系至關重要:一個好的分子表征可以使后續的學習任務更容易。優秀的分子表征應滿足下列條件:
1)表現力:化學空間是巨大的,但單原子對分子結構的擾動可以導致物理化學性質和生物活性的巨大差異。表征既要忠實地捕捉化學空間的豐富性和多樣性,又要區分分子之間的細微差別。
2)簡約性:大規模實驗的成本限制了化學數據集的規模和多樣性。為了確保模型能夠在噪聲中學習重要的模式,對于機器學習任務來說,在輸入特征空間中保持簡約是至關重要的。
3)穩定性:因為相同的分子輸入應該一致地生成相同的輸出,所以分子表示必須對原子編號等方面保持不變。
4)可解釋性:對于機器學習的科學應用來說,關鍵是要確保模型的性能源于對相關模式的學習,而不是利用混雜變量、實驗噪聲或其他可能的人為因素。

圖3?機器學習模型性能作為數據集大小的函數的概念說明
圖片來源 JMC
為什么是深度學習?為什么是此時?
鑒于過去神經網絡在藥物發現方面的成功有限,一個重要的問題是,深度學習是否適合小分子藥物發現。
人工神經網絡和深度學習
人工神經網絡(ANNs)是一類計算系統的靈感來自于人類大腦的生物網絡。在最簡單的情況下,一個淺的、全連通的或前饋網絡是一個有向計算圖,它由三層組成:輸入層、單個隱層和輸出層(圖4A)。每一層都有數量可變的計算單元,稱為神經元,它們對輸入數據執行非線性轉換。深度神經網絡(Deep neural networks),又稱深度學習(Deep learning),是指具有多個隱含層的神經網絡。簡而言之,一個訓練過的模型指的是一個神經網絡結構,以及連接所有神經元的學習過的權值。
幾十年的研究探索了各種各樣的架構,每一種都適用于不同的目的。除了標準的前饋網絡,由全鏈層(等同于被稱為密集或仿射層),復發,卷積,卷積圖架構開發了不同的領域和數據類型(圖4)。例如,復發性神經網絡(RNNs)、復發長-短-期內存單元(LSTM)、卷積神經網絡(CNNs)以及圖形神經網絡(GNNs)。模塊化單元允許深度網絡操作廣泛的數據和組合數據類型,以提供靈活的學習。
數據可用性的增加、算法的創新和計算硬件的進步推動了最近深度學習的爆炸式發展,大大縮短了訓練和評估深度網絡的時間,并提高了可伸縮性。

圖4 柔性神經網絡結構示意圖。
圖片來源 JMC
神經網絡在QSAR和藥物發現中的應用
神經網絡在QSAR和藥物發現方面有著曲折的歷史。ANNs在藥物化學中的首次應用可以追溯到近50年前,即使用感知器算法對含有二惡唑烷的小分子進行分類。隨著機器學習研究的不斷進展,ANNs被其他算法取代,比如不太容易過擬合的隨機森林和支持向量機。這些算法仍然被廣泛使用,并取得了強大的性能,特別是在小數據中(圖3)。
2012年,由Kaggle主辦的默克分子活性挑戰賽再次點燃了人們對藥物發現的深度學習的興趣,參賽者被要求使用預先計算的近5萬個分子的分子描述符預測15個相關任務的生物活性。由Dahl等人領導的團隊利用多任務深度神經網絡贏得了比賽,并以比最新的隨機森林模型高出近15%的成績贏得了比賽。盡管默克公司的后續研究表明,與隨機森林模型相比,神經網絡的性能略有提高,但這場競賽使神經網絡在藥物發現方面再次得到普及。?

圖5?特征工程與特征學習以獲取重要的相似關系
圖片來源 JMC
從特征工程到特征學習
深入學習計算機視覺和自然語言處理模式轉變:?以前的方法嚴重依賴專家的特征工程,而深度神經網絡是一種可直接從數據中自動執行的特征學習(圖5)。相比之下,卷積神經網絡通過學習好的特征提取器,以及基于梯度的優化,自動生成層次結構組合。相反,一種有監督的深度學習方法不需要已有的知識,通過使用原始圖像數據和標簽(例如,狗、貓、潛水艇),通過例子學習狗的鑒別特征。
為什么深度學習對圖像識別如此有效?這些模型學到了什么?深層架構的一個關鍵方面是表征的層次學習的概念。神經網絡學習的最低層相對簡單的特性非線性組合成高階的概念,因為他們通過網絡傳播(圖5)。這個層次組織,與多個中間層次的代表,是深層網絡的預測能力的關鍵,并提供改進的計算復雜度,分享統計力量,增加表現力。
向特征學習的相同轉變導致了自然語言處理的顯著改善(圖5)。雖然計算機視覺和自然語言處理似乎不同于化學信息學,但可以在這些研究領域中找到相似之處(圖5)。幾十年的化學信息學研究已經產生了專家定義的分子表征,這些表征可以稱為特征工程。分子表征可通過深度學習從局部原子環境和子結構分層構建。實際上,常用的循環分子指紋,即擴展連通性指紋(ECFP),有效地對分子的片段袋表示進行編碼,與文本的單詞袋表示直接并行,并使用相同的技術(如特征散列)創建稀疏的分子指紋??傊?,這些相似之處表明表征學習將改善小分子的預測建模狀態。
關鍵的是,小分子藥物的發現打破了機器學習的許多技術應用中的標準假設。大多數機器學習算法都假設訓練和測試數據是獨立的、相同分布的。小分子的優化和設計,必須從特定新的化學空間區域探索結構的變化。該模型必須推廣到分布外的實例,才能對臨床藥物化學家有用。
分子表征學習的機遇
從靈活的輸入表征中學習
傳統的機器學習需要固定長度的輸入,不能處理可變長度和非結構化數據。目前,深度學習的發展主要依靠非結構化和可變的數據類型,這為探索新的有意義的分子表示創造了機會?,F有的基于字符串和圖形的格式,被設計用來編碼分子的完整組成和結合,是深度學習任務很有前途的起點。
學習基于字符串的表示(如SMILEs)已經引起了人們的興趣,因為它們能將分子結構壓縮編碼,并已廣泛用于化學數據庫的存儲。SMILEs遵循由正式語法系統組成的人類可解釋的語法,允許研究人員直接調整從自然語言處理和神經機器翻譯到化學信息學問題的方法和架構。例如,吡啶的SMILES表示是“c1ccncc1”(圖6A)。
賽格勒等人在早期報告中,應用一個基于-RNN模型生成集中化學庫與抗瘧和采用兩階段法抗菌活性(圖6),作者最終證明,經過訓練的模型可以產生新的和有效的抗菌藥物發現分子的重點庫。
盡管應用很方便,但SMILES表示在學習上有幾個關鍵的缺陷:1)兩個相似的分子可以產生兩種截然不同的SMILES表示,因為多個有效但不同的SMILES可以描述同一個分子;2) SMILES很脆弱:單個字符的改變會產生無效的分子;3)大多數分子本質上是非線性的,但它們會把復雜的結構坍縮成單一的線性序列。這些缺陷使得SMILES語法很難使用標準的卷積和循環架構來學習。
此外,一個令人興奮的新興方向是使用圖形神經網絡直接學習分子結構。正如CNNs在規則網格中聚合本地空間信息(圖4C)一樣,GNNs將這個概念推廣到非歐幾里得的輸入,如網絡(圖4D)。圖學習分為幾個步驟(圖6B):首先,現有的分子特征直接編碼到每個節點表示中,比如原子類型和雜交。在一個GNN的各個層中,節點表示用來自其周圍鄰居的信息更新,這些信息在一個稱為消息傳遞的框架中傳遞。這種迭代消息傳遞和更新的過程允許信息在圖中流動,從而為每個節點創建連續而密集的表示。
該算法與ECFP指紋算法緊密對應,從局部環境中提取信息。關鍵的是,盡管傳統的指紋和圖形神經網絡都利用了專家定義和設計的原子和鍵特征(例如,原子類型、雜交、部分電荷等),圖形神經網絡層逐步轉換和聚合任意大小的分子圖,成為相關的學習向量(即,一個嵌入)。因此,這些網絡的信息聚合階段是專門為任務而進化的,與傳統的指紋和描述符有本質區別,后者依賴預定義的手段來聚合化學子結構模式。
在實踐中,Duvenaud等人對神經圖譜指紋的發展和Kearnes等人對分子圖譜回旋的早期報道顯示,在水溶性和生物活性任務方面,傳統指紋具有較強的性能。隨后,一些變化的圖形神經網絡結構已經被開發用于預測物理化學性質,生物活性和小分子能量。?

圖6?深度學習可以從不同的輸入類型(如序列和圖形)中靈活地學習
圖片來源 JMC
通過連續表征學習分子相似性和化學空間
化學信息學的相似性質原理表明,相似的化合物應該具有相似的性質。計算方法如Tanimoto系數(Tc)主要反映了它們所選擇的分子表征的相似性,但這些表征的相似性僅作為從分子結構確定函數這一最終目標的相關代理。與活性懸崖對應的匹配分子對從一個極端說明了這一概念:盡管兩個分子可能在結構上相似,但活性上的顯著差異表明它們在功能上并不相似。在另一個極端,兩個具有不同支架的活性分子說明了相反的概念:根據分子指紋,兩種分子在結構和拓撲上的相似性較低,但可以認為它們在功能上類似于針對同一蛋白靶點的活性分子。
相比之下,深度神經網絡可以自然地學習獨特的連續表示,具有更強的表征能力,并可以學習特定任務分子相似性的概念。圓形指紋ECFP算法根據本地原子環境有效地將每個分子編碼為一個片段袋,生成惟一的整數標識符,然后將其散列成固定長度的表示。因此,每個片段必然是完全不同的。在另一個極端,對ECFPs的修改,如功能類指紋(FCFPs),使用泛型原子類型來強制類似的組以相同的方式編碼。將相似但不完全相同的片段映射到相同的比特必然會降低指紋的表現力,但在數據量低的情況下可以有效地提高性能。
例如,Duvenaud等人報告的神經圖指紋提供了ECFP算法的連續泛化,用神經網絡的單層代替哈希函數。這種方法允許基于預測任務對每個分子片段進行類似的編碼。學習相似性的連續統一體可以提高這些表征的表現力,使分子中的細微差異得以準確地捕捉。
在更廣泛的背景下,學習平滑和連續的表示法提供了比改進的相似度度量更好的預測性能。具體來說,深度神經網絡學習的化學空間有幾個優點:1)離散分子可以自動、數據驅動的方式生成光滑連續的化學空間;2)通過網絡學習得到的連續的、分層的表示具有獨特性和更強的表現力;3)快速梯度法可用于化學性質的優化。
例如,Gomez-Bombarelli等人的開創性報告通過應用變分自動編碼器(圖7)網絡說明了這些優勢。具體來說,自動編碼者體系結構由兩部分組成:一個編碼器網絡,它將輸入的分子(用SMILES表示)轉換為一個降維的化學潛在空間;另一個解碼器網絡,它將這個潛在空間中的點映射回分子輸出。整個自動編碼器是訓練通過無監督的學習方法,采取一個簡單的目標:重建其輸入。這種無監督的重建任務允許大量未標記數據,甚至假設的類藥物分子學習化學空間的平滑表示。

圖7?連續潛在空間優化
圖片來源 JMC
利用生成模型學習新分子
逆向分子設計是現代藥物發現中的一個長期挑戰。標準QSAR模型將分子結構映射到活性或性質上,而反向QSAR模型則將此概念反過來,轉而尋求生成滿足最佳性質或活性的新分子結構?,F如今,深度學習中的生成模型現在直接解決了逆向設計問題,為新藥設計帶來了新的機會。
如上文所述,Gomez-Bombarelli等人使用變分自編碼器所描述的方法構成了一種生成模型(圖7)。生成過程的關鍵與任何自編碼器的主要目標相同:重構其輸入。關鍵的是,解碼過程學習通過重建任務是一個直接解決逆分子設計。為了利用這個化學空間來尋找具有特定性質的分子,可以通過與預測網絡的聯合訓練來調整潛在空間,從而可對空間的特定區域進行采樣并生成新的分子。
為新藥設計生成重點庫的能力激發了許多方法,包括各種自動編碼器和循環神經網絡架構。然而,輸入表征仍然是這些生成模型的一個關鍵方面。到目前為止,大多數生成模型主要關注于輸入和生成輸出的SMILES表示。為了達到這個目的,新架構的開發和訓練集的增加極大地提高了結果。例如,Popova等人最近的一項研究使用堆疊-RNNs生成了數百萬個結構有效性為95%的分子。
盡管這些模型主要是在SMILES字符串上運行,但直接產生分子圖的模型仍然具有吸引力。盡管編碼圖很簡單,但圖的生成卻具有更大的挑戰性。但眾多研究表明,這些生成模型可以作為藥物設計和發現的假設生成器。
深層生成模型開始直接解決小分子藥物設計的長期挑戰。具體來說,必須考慮產生分子的新穎性和可獲得性。如果生成模型要指導藥物設計,它們不能僅僅產生訓練數據集的瑣碎擴展。生成模型有效地插值了訓練數據的化學空間,其潛在空間能否有效地外推到化學結構空間的新區域還不清楚。此外,當前的生成模式在新穎性和可訪問性之間搖擺不定。
基于以上考慮,該領域仍存在兩個關鍵問題:1)生成模型能否實際應用于前瞻性發現? 2)如果檢驗他們的預測是困難的,我們如何評價他們的成功?最近的報告已經開始通過綜合和實驗前瞻性地評估生成模型。
研究者必須考慮生成模型的實用性,而不是依賴于快速篩選大型預先列舉的化學文庫的替代方法。例如,Stokes等人最近采用了一種發現新抗生素的虛擬篩選方法。從藥物再利用文庫中對預測抗生素進行的前瞻性試驗確定了一種新的廣譜抗生素——哈利辛。此外,ZINC15數據庫的虛擬篩選產生了有希望的結果。這項工作說明了深度學習在篩選工作流程中的有效性,它只考慮可合成和有效的分子。?

圖8?在不同任務中學習共享表征的方法
圖片來源 JMC
利用多任務和遷移學習進行共享表征學習
親和力和理化性質的多維優化是小分子治療發現的核心挑戰。小分子先導物必須同時進行多目標優化:1)保持其對預定目標的高親和力,2)改善其吸附、分布、代謝和排泄(ADME)特性所需要的物理化學特性,3)保持對非期望的脫靶物的選擇性。為此,多任務學習和遷移學習等機器學習概念在藥物研究中具有重要意義,這些方法利用從一個預測任務中獲得的知識來促進另一個預測任務,提供更好的預測性能,或者需要更少的例子進行訓練。
與單任務學習不同,多任務學習包括明確考慮兩次或更多任務的模型,比如同時預測整個分子目標圖譜(圖8A),自然反映了藥物設計的多藥物優化。一般來說,多任務網絡共享內部層次表示,可以利用任務之間的相似性和細微差別,從而提高學習效率和模型性能。在藥物化學的背景下,在一個蛋白質靶點上收集的生物活性數據常常能告訴我們另一個靶點。
眾多實驗證明,多任務學習策略可以提高模型的性能和魯棒性。例如, Dahl等人為默克分子活性挑戰賽開發的多任務模型,就比單目標訓練的模型表現更好。Ramsundar等人證明,多任務網絡可以同時應用于數百個不同的蛋白質靶點,性能略有提高,等等。
盡管多任務學習利用共享的底層層次表征,表示也可以在任務之間轉移(圖8B)。在遷移學習的情況下,一個在某項任務上接受過訓練的完全訓練的網絡隨后可被應用到另一項任務上。
將現有的和歷史上的化學數據轉移到有有限例子的新數據集,同樣會使藥物發現成為可能。理想的情況下,在一個足夠龐大和多樣化的化學數據集上預先訓練一個大型神經網絡模型,可以彌補在一個新的藥物化學運動中觀察到的少量數據。然而,相比之下,藥物發現跨越了更多的潛在化學和物理過程的多樣性,數據集運行在一個小得多的規模。早期的報告表明,在監督下對類似的生物活性和性質預測任務進行預訓練可以提供適度的幫助和改進。
最近的試驗中,Hu和Liu等人評估了圖神經網絡在生物和化學預測任務中的遷移學習策略。然而,研究發現,訓練任務的選擇和圖形神經網絡結構對性能的影響很大。他們的實驗證明了兩個例子,提高的表現(正遷移)和下降的表現(負遷移)取決于訓練設置。這些觀察強調了未來對遷移學習方法進行調查的機會。

圖9?深度神經網絡的特征可解釋性
圖片來源 JMC
深度神經網絡的特征可解釋性
深度神經網絡能夠有效地從數據中自動學習模式,但自動學習并不能保證有意義的學習。為了生成可操作的新科學知識,而不是簡單地擬合數據,深度學習模型必須學習反映潛在物理過程的真正顯著的模式。
長期以來,神經網絡以犧牲可解釋性來換取性能,但模型可解釋性的初步方法現在揭示了神經網絡的內部決策過程,顯示出哪些特征對最終的預測是顯著的。最近,基于梯度的顯著性映射和基于注意力的模型突出了對計算機視覺和自然語言處理性能最重要的圖像和文本中的關鍵字區域。將這個工具箱應用到藥物設計中,可以洞察哪些分子特征影響預測性能,從而推動更健壯和可推廣的模型的開發。
一些早期的報告說明了這些工具在理解屬性預測任務訓練的模型方面的效用(圖9)。例如,Mayr等人手動檢查了一個訓練過的網絡的隱藏單元,以揭示導致分子毒性的子結構。Duvenaud等人分析了基于水溶性訓練的圖形神經網絡(圖9A,左)。他們的發現與化學直覺一致:模型認為含有羥基的基序對溶解度最重要,而擴展的多芳香族體系最能預測不溶解度(圖9A,右)。再如,Chen等人開發了一種深度強化學習方法來生成小分子生物活性預測的明確原理。用于預測人類ether-a-go-go相關基因(hERG)抑制劑的模型恰當地識別出親脂性、堿性叔胺作為關鍵的結構基序,這與專家的直覺一致(圖9B)。重要的是,在所有情況下,網絡學習這些結構基序沒有專家編碼的知識,說明了可解釋性方法對小分子的適用性。對這些研究的一個重要警示是,所顯示的例子是驗證性的和非詳盡的。在缺乏更嚴格和系統的測試的情況下,這些解釋可能受制于確認性偏見。
沒有一個單獨的測試可以保證提供有用的答案。相反,可解釋性工具允許研究者用深思熟慮的實驗設計來審問模型。假設驅動的方法可以測試模型是否了解了與潛在因果過程相關的內容,并標記出意外模式識別的實例、學習虛假的相關性和數據集偏差。
理解模型學習的內容不僅提高了模型的健壯性,而且為藥物開發中的假設生成開辟了道路。例如,將可解釋的模型整合到發現設置中,可以增強藥物化學家對擊打先導優化的決策過程:探索結合活性的模型可能提醒化學家保存活性最突出的核心基序,并指導化學家探索改善ADME性能的擾動。這些工具提供了指導優化活動的機會,而不是將這些深度學習模型視為藥物化學家的替代品??山忉屇P涂梢蕴崛〕鲈诮涷灁祿芯幋a的隱式模式到獨立的結構-活動假設中,可以被明確地測試。
深度學習的局限性
要將深度學習作為一種實用的方法集成到藥物發現管道中,我們必須解決以下問題:
1)數據和數據集注意事項:與其他機器學習算法相比,深度神經網絡需要大量的數據來確保模型的通用性和防止過擬合。
2)訓練成本:與已經建立的分子特性化和指紋識別方法(如MACCS鍵和ECFP)相比,大規模計算速度更快,以上討論的大多數學習方法需要大量時間的訓練和優化步驟。
3)豐富的學習經驗和專業知識:深度學習的靈活性要求仔細的數據集管理、模型訓練和評估程序,以確保模型的泛化。
4)再現性:?深度學習模型是通過隨機初始化和優化來訓練的,并且可以對它們的設置非常敏感。
未來方向、展望和結論
近年來,深度學習研究和創新出現了爆炸式增長。盡管人們對藥物研發抱有很高的期望,但深度學習技術本身并不是萬能的。相反,這些方法在解決小分子預測模型的具體挑戰方面有價值,在集成到實際發現管道之前需要進一步的開發。
展望未來,捕獲復雜系統動力學的分子表征將變得越來越重要。忠實編碼三維空間關系、構象動力學和動力學路徑的表征將為未來的預測任務奠定堅實的基礎。通過考慮從原子到蛋白質的復雜物理系統,深度學習方法將推動新的假設和實驗程序??偟膩碚f,在小分子創新中深度學習的前景是光明的。
參考文獻
Chuang, K. V., Gunsalus, L., & Keiser, M. J. (2020). Learning Molecular Representations for Medicinal Chemistry. Journal of Medicinal Chemistry. DOI:10.1021/acs.jmedchem.0c00385