<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    JCIM | 量子機器學習在藥物發現中的應用

    JCIM | 量子機器學習在藥物發現中的應用

    背景介紹

    不斷增長的公開或私有數據集為藥物發現提供了重要的數據支撐,而機器學習算法如支持向量機(SVM)或深度神經網絡(DNN)在巨大規模的數據集上運算成本很高。相較于經典計算機(CC),量子計算機(QC)計算速度很快,但是有很大的局限性。在化學信息學領域中,要克服的挑戰之一就是需要將高維的分子描述符壓縮降維以用于QC。本文提出了幾種可行的壓縮方法并結合SVM和Data Reuploading Classifier(DRC,類DNN算法)兩種分類算法在QC上進行了測試,為建立藥物發現領域的量子計算方法奠定基礎。

    數據集

    1. SARS-CoV-2:132個分子,陽性閾值為6.65 uM;

    2. 結核分枝桿菌:18886個分子,陽性閾值為100 nM、1 mM或10mM;

    3. Cathepsin B:63331個分子,陽性閾值為20%;

    4. Krabbe?。?/span>44809個分子,陽性標簽與原作者一致;

    5. Plague(Yersinia pestis):139861個分子,陽性閾值50%;

    6. hERG:306587個分子,陽性閾值50%;

    7. 結核分枝桿菌2:293937個分子,陽性閾值為MIC_50 < 10 ug/mL 或 IC_50 < 10uM 同時選擇性SI > 10。

    量子計算機

    IBM ibmq_rochester,共有53個量子比特(如圖1所示)。

    描述符壓縮

    SARS-CoV-2數據使用的描述符為2048位的ECFP6,維度太高無法用于QC。作者提出以下四種壓縮方法:

    1. 主成分分析?(PCA);

    2. 線性判別分析?(LDA);

    3. 將2048位等分為x組,每組則有k位,將每一組看作一個二進制數并轉為十進制(如圖2所示);

    4. 使用一種算法記錄描述符中所有1和0的位置。

    算法實現

    量子SVM使用Qiskit庫中的LS-SVM實現。SVM depth為默認值2,表示電路將重復2次;entanglement為“full”,表示所有量子位均相互糾纏;skip_qobj_validation為False,表示不輸出警告;shots為2048。DRC使用2個量子比特模仿一個兩層的有非線性特征的神經網絡,使用描述符為MFF,為71735位向量。

    主要結果

    首先作者使用SARS-CoV-2數據集作為測試描述符壓縮方法的一個示例數據集。通過上述4種方法將2048位描述符降至2或3位后使用QC進行SVM建模。結果如下:

    方法1:CC:37%,QC:33% (N=3);

    方法2:CC:40%,QC:39% (N=3);

    方法3:CC:61%,QC:59.6% (N=3);

    方法4:CC:59%,QC:59.25% (N=2);

    之后,作者對四種方法的不同組合也進行了測試,結果如表1所示。其中結果最好的為方法1(PCA)+方法3。作者分析結果,認為之所以表現較好的原因可能是這樣得到的數據離散度較大(如圖3所示)。

    另外,作者還測試了混合方法(QC執行部分計算,CC 執行剩余部分)以消除對 QC 的存儲限制。作者使用 SVM 的方法 1 和方法 3 將數據點減少到6個維度。通過執行簡單的幺正運算U(x1, x2, x3)將數據加載到單個量子位中,其中x1、x2 和x3是點的坐標。當維度大于三時,可以有U(x1, x2, x3, x4, x5, x6)到(U(x1, x2, x3), U( x4, x5, x6))。我們有一個類似的U(θ1, θ2, θ3)用于旋轉bloch球體中的數據點,以制作一個雙量子位連接層。對于相同的SARS-CoV-2數據集,準確率為61%。

    之后,作者在結核分枝桿菌數據集上進一步測試了DRC方法。在表2 中,我們看到在 QC 上獲得的準確度更接近在 CC 上獲得的準確度,與 CC 相比具有輕微的時間優勢。

    最后,作者在其他幾種大規模的數據集上也應用了量子機器學習方法,數據集大小范圍從44000~293000個分子(如表3所示)。作者發現傳輸數據是 QC 上運行此類大型數據集的主要時間開銷。不同數據集大小的模型在 CC 上的計算時間明顯是線性的,但對于QC 而言,時間趨于穩定(如圖4所示)。

    圖表匯總

    JCIM | 量子機器學習在藥物發現中的應用

    圖1.?IBM ibmq_rochester架構

    圖片來源于JCIM

    ?

    JCIM | 量子機器學習在藥物發現中的應用

    圖2.?一種壓縮方法圖示

    圖片來源于JCIM

    ?

    JCIM | 量子機器學習在藥物發現中的應用

    表1.?組合方法的預測結果

    表格來源于JCIM

    ?

    JCIM | 量子機器學習在藥物發現中的應用

    圖3. SARS-Cov-2的數據分布

    圖片來源于JCIM

    ??

    JCIM | 量子機器學習在藥物發現中的應用

    表2.?結核分枝桿菌抑制數據集(18,886種化合物)的準確性和運行時間結果比較

    表格來源于JCIM

    ?

    JCIM | 量子機器學習在藥物發現中的應用

    表3. 對比大規模數據集在CC和QC上的表現

    表格來源于JCIM

    ?

    圖4.?比較量子計算機 (QC) 模擬器和經典計算機 (CC) 的數據集大小與運行時間

    圖片來源于JCIM

    亮點總結

    作者討論了四種壓縮分子描述符的方法及其組合,在QC上的機器學習模型進行了測試。作者發現將方法3和方法1結合使用時可以得到最佳結果。此外,作者同時應用了QC和混合方法來訓練模型,對當前藥物發現來說混合方法可能是最佳選擇。當處理更大量級的結構-活性數據集時,作者發現計算機和基于云的QC之間的數據通信開銷遠大于在QC電路上執行所需的實際時間,證明QC可以處理數十萬個分子數量級的“非常大”的藥物發現數據集。本研究展示了在具有多個不同大小的獨立數據集的QC上計算時間的非線性增長,遠優于在CC上觀察到的線性增長。目前在公共數據庫(如PubChem)中積累的針對其他靶點和疾病的更大的高通量篩選數據集對SVM和深度神經網絡以及其他計算密集型工具提出了重大挑戰,而QC是克服其中一些限制并使計算成為可能的一種可行方法。隨著量子機器學習的發展,QC在藥物發現化學信息學應用中的可及性將會增加,如DNA編碼化合物庫量級可達百萬級。未來評估這些和其他量子機器學習模型的研究還需要涉及前瞻性預測和實驗驗證,以便為其藥物發現價值提供令人信服的證據。

    參考文獻

    Kushal Batra, Kimberley M. Zorn, Daniel H. Foil, Eni Minerali, Victor O. Gawriljuk, Thomas R. Lane, and Sean Ekins, Quantum Machine Learning Algorithms for Drug Discovery Applications, Journal of Chemical Information and Modeling, 2021, 61, 6, 2641-2647. DOI: 10.1021/acs.jcim.1c00166.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放