
引言
網絡理論為研究復雜系統提供了有效的分析工具。意大利博洛尼亞大學Maurizio Recanatini教授近期在JMC綜述了網絡科學在藥學研究中的應用。作者首先介紹了構建網絡的數據來源,然后展示如何使用網絡研究藥物相關系統的一些范例,其中專門介紹了基于網絡推理的應用以及布爾網絡動力學(Boolean networks dynamics),最后作者認為在未來幾年中,結合機器學習和3D建模方法的網絡應用程序將成為計算藥物發現中必不可少的工具。
背景
復雜性是生命系統的一個顯著特征,網絡科學允許捕獲整個系統的行為,尤其是在系統出現的特性方面,這些特征是系統各部分之間相互作用的結果,而不僅僅是它們的總和。網絡用點和線分別表示元素和元素之間的關系。圖論解決了網絡的數學描述,使得可以用圖代表網絡。網絡的元素稱為節點(nodes),它們之間的連接被稱為鏈接(links)或邊(edges)?;诰W絡的方法在一定程度上已經影響了尋找新療法的方式。將網絡理論應用于藥物發現的方法有很多,在藥物化學/藥物設計領域中,使用基于網絡的方法的主要方向是靶標識別(target identification)和藥物重利用(drug repurposing),進一步的應用還有化學空間的分析和藥物不良反應或毒性的預測。
數據與數據庫
在構建網絡時,要考慮的第一個也是最重要的問題是我們用于構建這些模型的材料,即我們通常所說的“數據”。高通量實驗技術所提供的信息正在以前所未有的速度增長。如今,我們可以訪問幾乎每個疾病治療領域的涵蓋數百萬個分子以及數千種蛋白質和基因的化合物、靶標和疾病的數據庫。
化學數據庫
根據其內容可以將公共化學數據庫分為六類,即(1)化學信息,(2)生物活性,(3)藥物,(4)天然產物,(5)商業可得性,(6)片段。通常,化學數據庫中包含的所有類型的數據都可用于藥物設計目的,但對于涉及網絡應用的問題,最有用的是生物活性、藥物和天然產物的數據。在這方面,最受歡迎的數據庫是CHEMBL和PubChem,它們提供有生物活性的化合物的信息,尤其是活性測定和靶標信息的數據。DrugBank則包含已經批準和還在實驗過程中的藥物的數據,可以成為靶標識別和藥物重利用研究的重要信息來源。在純化學方面,ChemSpider是理化和光譜數據以及化合物名稱、同義詞和標識符的非常豐富的來源。在表1中,總結了上述數據庫的主要功能。

圖片來源JMC
使用化學數據集時要考慮的最重要問題是其內容的預處理,這是一項關鍵操作,可能需要很長時間,但必不可少,以降低獲得誤導性結果或建立錯誤模型的可能性。特別是,數據集的處理應考慮化學、生物學和項目標識等多個方面,例如,化學結構的表示和非標準化結構(鹽,離子等)在數據集中的存在,針對相同化合物的不同的生物活性數據,通過不同實驗室得到的結果的可重復性,活性缺失、拼寫錯誤或標簽錯誤的化合物以及不正確的標識符。
生物數據庫
從系統角度看待靶標識別或藥物重利用研究時,必須在網絡中包含由大量生物技術所產生的越來越多的生物學數據?!逗怂嵫芯俊冯s志于2019年出版的《分子生物學數據庫收集》(Molecular Biology Database Collection)列出了1613個數據庫列表,簡要描述了新條目并最終更新了舊條目。這些數據庫可以分為:(1)核酸序列和結構以及轉錄調控;(2)蛋白質的序列和結構;(3)代謝和信號傳導途徑、酶和網絡;(4)病毒、細菌、原生動物和真菌的基因組學;(5)人類和模式生物的基因組學以及比較基因組學;(6)人類基因組變異、疾病和藥物;(7)植物;(8)其他。
對于藥物設計領域可能感興趣的是,例如那些包含有關蛋白質信息的數據庫,這些數據庫既可以是一般序列(例如SMART,UniProt),也可以是單個蛋白質家族的序列(例如GPCRdb,Kinomer);蛋白質結構或蛋白質-蛋白質相互作用(例如PDB,STRING);代謝和信號傳導途徑(例如Reactome);人類基因和疾?。ɡ鏒isGeNET)。在表2中,總結了這些數據庫的主要功能。

圖片來源JMC
表型數據
醫療保健的普遍數字化提供了數量非常重要的表型數據來源,主要源于電子健康記錄(EHR)、可穿戴設備或應用程序。僅就HER而言,這些文檔中的信息包括對個人健康/疾病狀態的描述、臨床測試結果、藥物處方以及最終的不良反應。當然,隱私問題限制了此類數據的可用性,我們無法公開找到可訪問的數據庫。關于此類信息對藥物研究的貢獻,我們觀察到表型和基因型數據的整合可能是邁向深入了解疾病發作和進展的生物學過程的必要步驟。
建立網絡
鑒于有關分子、基因、蛋白質、細胞、組織和疾病的數據的廣泛可用性,并且假定這些數據實體相互連接并代表或多或少的復雜系統,因此需要構建和可視化網絡??捎糜诰W絡可視化和分析的計算工具不計其數,其復雜程度取決于數據集的大小和要執行的任務。Cytoscape是其中最受歡迎的工具之一,當然還有Gephi、Pajek和NetworkX等。(有關軟件主要功能的詳細信息,請參見表3)。這些軟件工具可以可視化最大數量級為106個節點和邊的大型網絡。但是,當數據量進一步增加時,即使對于功能強大的工作站,由于加載大型矩陣的內存需求從而也變得無法滿足,并且需要更高性能的計算來分析網絡。解決方案可以是通過諸如Hadoop或Apache Spark之類的框架在大量內核上分發數據和流程。

圖片來源JMC
研究特定藥物系統的網絡
分子數據集分析網絡
在有機小分子環境中使用網絡分析的一個相關示例是化學空間網絡(CSN),這是由G. Maggiora和J. Bajorath提出和開發的框架。該化學空間被視為一個復雜的系統,可以將諸如生物學活性之類的特性與之關聯。引入并驗證了不同的相似性指標,以及對網絡拓撲參數的分析表明,它們是可視化和分析中等大小化合物庫的結構-活性關系(SAR)的強大工具。通過適當的度量標準和算法對CSN進行分析,可以發現共有潛在特征的化合物群落(簇)的存在,而這些共同特征不能從通用表格格式中立即看出來。為了說明簡單的CSN應用,在圖1中顯示了62種ADP-核糖聚合酶(PARP)抑制劑的網絡。網絡解釋了化合物之間的關系,它們之間的鏈接是根據基于指紋計算的成對相似性值得出的。如果抑制劑的結構相似性超過閾值,則由通過邊(188)連接的節點(62)表示(請參見圖1的圖例)。節點根據效能著色?;谙嗨菩杂嬎愕幕瘜W空間可視化有助于識別PARP抑制劑(網絡的主要連接組件)的不同結構族,并且顏色編碼使人們可以立即掌握化合物的SAR。

圖片來源JMC
蛋白質結構網絡
如果我們認為蛋白質像其他任何分子一樣是相互作用元素(即氨基酸)的集合,則可以立即得出它作為一個復雜系統的信息,其中結構、動力學和最終功能可以被視為源自氨基酸之間關系的顯著性質。在這種情況下,蛋白質結構網絡(PSN)得到了廣泛研究,隨著蛋白質結構測定的分析/生物物理技術的快速發展,該網絡方法非常適合處理結構-功能關系。通過將氨基酸(通常為Cα原子)視為通過鏈接連接的節點(如果它們之間的距離落在臨界值之內)來構建PSN。對描述PSNs特征的參數進行分析有助于研究該蛋白的3D結構及其對變構調節、折疊和模型驗證等問題的影響。特別地,分子動力學模擬以及最終的結合自由能計算可以協同地應用于藥物研究。
人類疾病網絡與藥物發現
基因調控網絡(GRN)、蛋白質-蛋白質相互作用(PPI)網絡或代謝網絡,是構建人類疾病表型-基因型關系基礎的細胞機制的系統視圖時必不可少的元素。通過利用系統生物學方法可以將復雜系統的不同層次結合在一起。作為復雜交互組的一個示例,在圖2中,展示了一個從DrugBank數據庫中生成的藥物-靶標網絡(DTN)。該網絡顯示了1636種被批準的小分子藥物與1991種人類蛋白質靶標之間的相互作用。邊代表7521個唯一的相互作用。從圖中可以明顯看出,該網絡包括一個由3368個節點組成的大型連接組件,其中1510個節點是藥物分子。對此類網絡的分析提供了分子藥理學領域的全局概況,并可能有助于確定藥物研究的趨勢或未來發展的可能領域。

藥物-靶點網絡
圖片來源JMC
基于網絡的推理
在處理網絡時,一方面要解決信息丟失的問題,這是生物系統研究中的一種常見情況,在這種情況下,難以獲得相互作用的實驗證據使網絡本質上不完整,而另一方面新的數據還在不斷增加。這個問題在網絡理論中是非?;镜?,從更嚴格的角度來看,推斷網絡中丟失鏈接的可能性是對兩個尚未連接的節點之間的新鏈接的預測,具有更實際和直接的意義。
鏈接預測方法
在實踐中,一種嘗試預測潛在的藥物-靶標相互作用(DTI)的方法通常是從諸如社會科學、通信網絡、經濟和金融等領域借來的。這些方法的目標是生成潛在DTI的列表,并根據一些預定義的指標對它們進行排名。起點是構建異構網絡(heterogeneous network),在該網絡上運行鏈路預測算法。通常,異構網絡整合了從不同數據庫獲得的有關藥物、靶標和藥物-靶標相互作用的可用信息。
考慮到數據的可用性,這些方法的關鍵步驟是(1)藥物-藥物和靶標-靶標相似性的計算和(2)藥物-靶標關聯推論方法的應用。對于前者,在最初簡單地使用指紋和一級序列分別比較藥物分子和蛋白質后,已發展出更復雜和信息更豐富的相似性指標以便考慮到已知藥物-靶標相互作用信息以及蛋白質和網絡拓撲信息。
基于網絡的DTI預測方法差異很大,通常取決于用戶的偏好或專業知識,但最受歡迎的算法是從推薦算法或網絡傳播算法派生而來的,它們都屬于所謂的基于相似性的算法?;谕扑]算法的方法旨在預測基于先前計算的相似性分數(也稱為協作過濾),確定節點對未連接節點的偏好。另一方面,在網絡傳播算法的框架內,包括了幾種方法,這些方法通過模擬從種子節點開始的信息在網絡中的傳播來起作用。最著名的是Google頁面排名算法,該算法使用隨機瀏覽網頁來計算其重要性。
在藥物重利用中的應用
作為基于網絡的方法可能對藥物重利用產生影響的說明性示例,在這里,我們簡要描述一項最近發表的名為研究項目Repethio(https://think-lab.github.io/p/rephetio/)的研究。在這項工作中,作者報告了構建異構網絡以捕獲藥物和疾病之間的聯系的情況(Hetionet版本1.0,https://neo4j.het.io/browser/)及其在預測新藥/疾病的關聯中的用途。Hetionet整合了來自公共資源的數據,由11種類型的約50000個節點與24種類型的約225萬條邊鏈接在一起。

Hetionet 1.0版
圖片來源JMC
Repethio項目清楚地解釋了基于網絡的數據分析如何影響藥物研究,同時還考慮了將這種方法與功能強大的ML方法進行特征選擇和預測相結合的適用性。此外,這是使用集成到在線平臺中的公共數據的示例,該數據反過來向用戶開放,這些用戶可以訪問該數據并利用其本地時間進行時間和資源密集的組裝和集成工作。我們設想,越來越多的研究數據可用于公共領域,這種更頻繁的舉措得以開發,充分利用了大數據和網絡科學的綜合潛力。
網絡動態
如果我們考慮對網絡時間演化(即網絡動力學)建模的可能性,那么可以將網絡科學在藥物研究中的應用向前邁出一步。為了了解該領域對于未來藥物發現的潛在重要性,有必要簡要介紹S. Kauffman于1969年提出的布爾網絡(Boolean networks),該布爾網絡的一般假設旨在解釋控制細胞體內穩態和分化的調節回路。
布爾網絡是有向網絡,其構建方式是節點是基因,鏈接表示它們之間的功能連接。每個基因可以“打開”或“關閉”,并且一組規則或更新功能與每個節點相關聯,以在隨后的時間步長定義基因的狀態。系統的動力學是從輸入基因開始的,通過在每個離散時間步同時更新基于預定義規則的所有基因狀態來計算。給定其構建方式,布爾系統是確定性的,并且具有有限數量的初始網絡狀態(2N,其中N是基因的數量,而2表示打開和關閉的兩個狀態)。經過多次迭代(時間步長)后,它將達到一個穩定的狀態,可以是一個固定點或一個自循環的圓:可以按照不同的網絡狀態序列(軌跡)訪問這種網絡狀態,并且它似乎吸引了系統,因此被定義為吸引子(attractor)。一個布爾網絡可能存在多個吸引子,它們的集合以及從初始狀態到吸引子狀態的軌跡共同構成了attractor landscape。應當指出,布爾網絡可以在正常條件下模擬系統的動態狀態,但是它也可以通過修改更新規則,即設置某些節點的開或關而受到干擾。已經表明,吸引子狀態對應于對外部刺激的細胞表型,因此,探索吸引子態導致了表型態的定義,其中表型包括所有網絡導致系統指向相同吸引子的狀態。

布爾網絡動力學
圖片來源JMC
總結
在新藥的設計中,基于系統的網絡模型所描述的場景非常有用并具有啟發性?;诰W絡的觀點可以讓人們擴大視野,從中可以考慮藥物發現過程。這不僅僅是技術上的改進,它最終還可以導致設計出替代性的藥理干預范式。此外,如何將網絡建模方法與目前在藥物設計/發現中使用的成熟的計算技術(即分子建模以及機器學習)集成在一起也是一個值得思考和關注的問題。機器學習和深度學習方法已經在計算藥物發現中被廣泛使用,它們非常適合集成到網絡構建技術和基于網絡的預測方法中。
最后,必須強調基于網絡的藥物發現方法的局限性和開放性挑戰。第一個問題是數據質量,即數據的類型和來源。此外,某些生物學數據可能是不完整的、有偏見的或稀少的,還有用于構建數據庫的語言可能是不同的和/或不兼容的。所有這些嚴重限制了甚至建立網絡的可能性。第二個挑戰與數據的大小有關,因此也與網絡有關。根據節點的數量和節點的度數,要計算的鏈接數量可能會大大增加,這再次限制了構建或分析網絡的可能性,即使某些工具允許一個人處理多達數百萬個節點和邊。但是,隨著分析方法變得更加詳細或復雜(例如,網絡動態),計算需求變得令人望而卻步??朔嬎銌栴}的一種方法是將工作負載分布在云上,這是目前看來最好的技術選擇,同時等待量子計算機的有效應用。
參考文獻
Drug Research Meets Network Science: Where Are We? Maurizio Recanatini and Chiara Cabrelle. Journal of Medicinal Chemistry?Article ASAP DOI: 10.1021/acs.jmedchem.9b01989