

雖然神經網絡在許多分子建模和結構特性預測任務中表現優秀,但難以泛化到域外樣本。本文利用證據性的深度學習來量化不確定性。證明了不確定性度量能夠用來校準預測、引導主動學習進行有效訓練、在虛擬篩選活動中提高實驗命中率。
背景介紹
盡管神經網絡在QSAR 建模中應用越來越多,但是對域外樣本的預測缺乏穩健性。文獻中對樣本預測的不確定計算方法主要是從模型不確定性和固有噪聲的數據不確定性兩個角度展開的。然而,這些方法需要隨機采樣來計算潛在不確定性函數的近似值,往往計算量大且成本高。
作者開發了證據性深度學習作為不確定性度量方法,用于分子結構-性質預測(圖 1)。這個方法無需采樣,直接學習認知不確定性表示。它將學習看做證據獲取過程,從新的訓練示例來參數化網絡似然函數的概率分布。證據性神經網絡通過修改訓練損失函數可以實現與特定領域架構的緊密集成。

圖1. 證據性深度學習用于分子性質預測與藥物研發。圖片來源于ACS Cent. Sci.
模型原理
證據性深度學習擴展了學習概率分布參數的思想,預測原始似然參數本身的高階分布。模型通過直接學習原始似然參數來估計不確定性。假設一個成對訓練樣本的回歸數據集,預測目標服從高斯分布,在網絡模型中通常假設似然參數是確定和固定的,因此在訓練期間優化模型可以直接預測這些值。作為這種方法的擴展,證據模型假設這些參數是未知的,必須用概率估計。這是通過在似然參數上預設先驗來實現的,這樣平均值 μ 取自高斯分布,而方差?σ2??取自反Inverse-Gamma分布,由此產生的高階分布(也稱為證據分布)因此可以由正態逆伽瑪分布 p(θ|m) 表示。這種證據分布由四個參數 m = {γ, λ, α, β} 指定。對于連續目標,證據模型直接學習這些參數 m,這些參數 m 反過來在似然參數 {μ, σ2?} 之上定義完整分布,從而捕獲模型預測中的不確定性(圖 2A,B)。因此,該模型為每個目標輸出四個值,對應于 m 的四個參數,并使用多目標損失進行訓練,該損失旨在共同最大化模型擬合,同時最小化證據錯誤(圖 2C)。

圖2. 建立并訓練一個證據性模型的流程。圖片來源于ACS Cent. Sci.
不確定性的基準
作者證明了證據性學習算法可以在分子和原子性質預測任務中產生所需的不確定及評估了預測的不確定性是否根據錯誤進行了正確排序。我們將證據性的方法集成到D-MPNN神經網絡中,并評估了模型在小樣本數據集中對溶解度(Delaney)、溶劑化能(Freesolv)、親脂性(Lipo)和原子化能 (QM7)的表現(圖 3A)。證據性學習算法在對錯誤的不確定性進行排序的能力方面表現良好(表 1)。當僅考慮四個數據集中的三個數據集的前 5% 的確定性預測時,證據方法在所有測試方法中實現了最低的測試誤差。在 Delaney 和 QM7 數據集上,證據模型返回的誤差遠低于 50% 置信度臨界值的第二個最佳執行方法(圖 3B、C)。QM7 的顯著改進與之前的觀察結果一致,即單個神經網絡模型比 QM7上置信度最高的百分位數中的集成更準確。不過,在小樣本中,跨數據集的性能存在一些差異。在親脂性數據集上,在 0.25 及以下預測回歸的不確定性截斷百分位數下計算的 RMSE 高于(更差)基于 dropout 的采樣方法,顯示在選擇最準確預測的測試集分子方面沒有優勢超過 dropout(表 1)。

表1. 模型在不同的置信百分位數臨界值的誤差。圖片來源于ACS Cent. Sci.
在大數據集上,我們比較了證據性2D MPNN模型在QM9數據集和配體對接數據集上的表現(圖 3D)。對于大于 50% 的所有置信百分位截斷值,證據回歸預測的誤差都低于基于集成和 dropout 的方法,這表明作為置信度函數的誤差下降幅度更大(圖 3E,表 1)。

圖3. 分子性質預測的不確定性基準表現。圖片來源于ACS Cent. Sci.
作者通過在 3D 分子構象異構體上運行 SchNetPack 軟件,將證據回歸損失函數集成到神經網絡中實現(圖 3D)。雖然在沒有截止計算的情況下集成模型預測更準確(表 1),但證據性的模型更好地刻畫了樣本的預測偏差(圖 3F)。當僅考慮 95% 置信百分位數的預測時,證據方法優于集成方法(圖 3F,表 1)。這些結果證明了證據回歸在實現跨數據集和分子表示的良好排序的不確定性估計方面的前景。
研究者還探索了證據學習在分子特性預測中的校準特性。為了量化校準精度計算了觀察到的校準曲線和奇偶校驗線(完美校準)之間的面積,用于評估數據集中的每個 λ 值。對于除 QM7 之外的所有小樣本數據集,存在一個 λ 值,在該值處,證據回歸比集合基線更校準(圖 4C)。λ 值默認為0.2。

圖4. 證據性不確定性計算的參數調整。圖片來源于ACS Cent. Sci.
模型應用場景:主動學習及貝葉斯優化
在證實了證據性深度學習能合理度量預測任務的偏差后,作者利用該不確定性來指導模型訓練。
首先使用 QM9 數據集進行主動學習實驗。以隨機 15% 的訓練樣本做初始子集,模型從庫中迭代選擇樣本,重復 6 次。在每個步驟中,對未選擇的樣本評估不確定性。選取最不確定的 k 個樣本添加到訓練集中,隨后使用新數據集重新訓練模型,然后在測試集測試(圖 5A)。對于所有驗證集上的結果,隨機樣本選擇作為不確定性算法的基線。結果發現基于證據不確定性的主動學習表現與完整訓練數據相當,但數據減少了 60% 以上(圖 5B)。此外,與dropout相比,該方法提高了數據效率。模型集成相對隨機選擇改進最大,但是這需要巨大的計算成本。相比之下,證據學習憑借單模型就獲取了更高的訓練效率,效果與集成方法相當(圖 5C)。

圖5. 證據性模型與貝葉斯優化。圖片來源于ACS Cent. Sci.
接著研究者嘗試使用證據性的方法度量貝葉斯優化參數的不確定性,期望快速發現具有目標特性的分子。作者使用含有5萬個分子的對接數據集來嘗試從少數的對接中來識別最佳配體。主動學習迭代地從隨機的 1% 子集開始,根據給定的不確定性為置信上限采集新樣本。同時使用 D-MPNN 作為替代模型,預測對接分數和不確定性。結果發現相比隨機方法,三種不確定的方法均產生了明顯的改進。證據性方法在探索了不到2萬個分子后,從 5萬個分子中發現了500 個最佳對接分子中的一半以上(圖 5D)。證據性方法采樣的分子與其10 個最近的訓練集樣本之間的平均距離顯著增加,探索的樣本更具多樣性(圖 5E)。
證據性深度學習加速新藥高通量篩選
作者還在一個抗生素的虛擬篩選中,基于置信度和預測活性來過濾篩選庫并確定用作抗生素藥物的優先級。
團隊開發了一個虛擬篩選中不確定性引導的優先級框架(圖 6A)。使用含標簽的較大數據集來訓練證據模型,然后用一個小型無標記的數據集預測分子特性和不確定性。根據預測結果對候選分子按其相關屬性排序,然后根據最大預測置信度進一步過濾。
考慮到抗生素發現中的問題,作者用OD600 表征藥物的體外生長抑制程度。在數據集上訓練具有證據損失和預測數值的 D-MPNN,模型在驗證集上的準確性如圖 6B所示。而后將驗證集的分子與訓練集的分子可視化以對比估計的證據不確定性(圖 6C)。在較高證據不確定性的區域,訓練集的樣本較少。
然后利用證據不確定性,對高可信度的候選抗生素排序,確定具有高實驗命中率的分子集并根據預測的抗生素活性對分子排序。該分析表明,使用基于置信度的過濾和證據不確定性來增強網絡預測可以提高實驗命中率(圖 6D)。增加置信百分位數豐富了實驗命中的候選集,從原始過濾的 78% 的命中率到使用證據方法進行置信過濾后的 95% 以上(圖 6D)。

圖6. 不確定性指導虛擬篩選中的新藥推薦
總結
本文介紹了一種可擴展、高效且易于使用的不確定性量化方法,用于化學和物理科學中的分子特性預測。證據性深度學習算法可以并入常見的網絡架構中,用于模型訓練可以促進不確定性感知神經模型的穩健性,具有可擴展性和效率優勢。
參考文獻
Ava P. Soleimany, Alexander Amini, Samuel Goldman, Daniela Rus, Sangeeta N. Bhatia, and Connor W. Coley, Evidential Deep Learning for Guided Molecular Property Prediction and Discovery, ACS Central Science, 2021, 7, 8, 1356-1367.