引言
1. 介紹了抗生素耐藥性(AR)相關的數據庫;
2. 大多數用于識別AR相關基因特征的方法提供了一種基于相似性的方法來預測AR基因;
3. 深度學習已經被用于尋找基因組中的AR基因;
4. 確定了表型敏感性檢測和基于基因組的AR預測之間的一致性;
5. 討論了計算工具在管理AR中的作用。
背景
抗生素耐藥性(AR)是細菌抵抗曾經可以抑制它們的藥物的能力。細菌會對處方藥物產生適應性變化從而在患者體內得以存活。多藥耐藥性(MDR)是對多種抗生素的同時耐藥性,由于濫用和過度使用藥物以及新藥發現的減少,細菌耐藥性正在逐步成為全球的主要威脅。使用抗生素治療細菌性疾病與后續發展的抗生素耐藥性之間有很強的相關性。由于過度使用抗生素,在選擇性壓力下,細菌會產生多種耐藥機制。這種現象促進了耐藥細菌的生長和脆弱細菌的死亡。多種抗生素耐藥菌株的存在導致疾病治療的有效性降低、死亡率增加。因此,開發針對大量AR細菌群的有效治療藥物已成為對抗抗生素耐藥性的迫切需求。在當今時代,細菌的全基因組測序(WGS)不是很困難,但AR相關信息的匯編和挖掘仍然是一個重大挑戰。在過去的20年里,已經開發了許多數據庫、數據匯總工具和數據查詢渠道,以研究細菌AR中的機制,并預測細菌AR基因和基因組。本文批判性地回顧了所有與AR相關的計算資源,以幫助科學界選擇最合適的資源來滿足他們的需求。其中包含用于直接或間接維護AR相關信息的數據庫,文章根據內容類型對這些數據庫進行分類,并描述了每種資源的效用和局限性以幫助用戶找到定期更新的最佳資源。這些AR數據庫被大量用于預測AR基因或基因組。此外,深度學習技術已被用于預測新序列基因組中的AR基因。本文推薦了相關工具并提供了詳細的描述以便用戶能夠找到最適合他們的研究的工具,此外,還討論了管理AR相關細菌性疾病治療的替代解決方案。希望這些信息將幫助研究人員解決與AR相關的問題,同時也希望能為藥物的發現做出貢獻。
數據庫
科學界正在積極地收集和匯編在過去二十年中獲得的與AR相關的信息,以了解細菌抵抗藥物的機制。本文將這些資源分為四類:AR基因數據庫;酶專用數據庫;生物體特定數據庫;其他數據庫(表1)。?
表1. 與抗生素耐藥性基因相關的數據庫列表
圖表來自 Drug Discovery Today

AR基因的數據庫
線上抗生素耐藥基因(ARGO)是2005年開發的第一個列出AR基因的數據庫。它包含了555個β-內酰胺酶耐藥基因和115個萬古霉素耐藥基因的綜合信息。此數據庫截止到2005年便不再更新。2007年,MvirDB數據庫被開發出來以分類AR基因、有毒蛋白質,該數據庫包含的AR基因有限,在開發后也沒有再次更新。2009年,抗生素抑制劑綜合性基因數據庫(ARDB)建立,用于表征和鑒定具有抗生素耐藥性的基因。該數據庫已不存在,但所有的數據都可以在2013年開發的綜合抗生素抑制劑數據庫(CARD)中找到。該數據庫包含抗生素耐藥性基因及其相關蛋白質和表型的分子和序列數據,還包含與抗生素及其靶點相關的信息以及抗生素耐藥性的理論,目前該數據庫將定期更新;截止到2020,該數據庫包含了3057個參考序列、3103個抗菌素(AMR)檢測模型和1704個單核苷酸多態性(SNPs)。此外,許多預測和分析工具也包含在數據庫中;此外還包含了新的殘基和異構體的分析和統計總結。RGI等分析工具的存在,增強了該數據庫在預測抗生素耐藥性方面的效用。還有一些用于維護AR基因的數據庫,如國家生物技術信息中心(NCBI)生物數據,細菌抗生素耐藥性參考基因數據庫(BARRGD)、由NCBI維護的與AR相關的抗菌素耐藥性生物體國家數據庫(NDARO)。NDARO數據庫包含了關于抗菌素耐藥性基因的大量信息,該數據庫包含ARMFinderPlus,便于用戶找到AR基因和抑制突變點。
β-內酰胺酶特異性數據庫
負責降解或修飾抗生素的重要酶之一是β-內酰胺酶,這種酶水解了β-內酰胺抗生素的β-內酰胺環,從而消除了對細菌的傷害。β-內酰胺抗生素是用于治療嚴重革蘭氏陰性感染的廣譜抗生素,大腸桿菌、腸沙門氏菌和肺炎克萊伯氏菌是最常見的革蘭氏陰性細菌,可導致人類的多種疾病,因此,β-內酰胺酶被認為是AR領域中最重要的酶,并且建立了許多已專門用于這些酶的數據庫。歷史上,β-內酰胺酶的第一個數據庫由拉希診所運營,隨后這些數據被轉移到NCBI并可以在BAARGD中找到。在眾多數據庫中,乳酸乙酰胺酶工程數據庫(LacED)包含TEM和SHV-β-乳酸乙酰胺酶的信息,是最古老的數據庫。2012年開發的β-乳酰胺酶工程數據庫(MBLED)包含了關于B類β-乳酰胺酶的信息。LacED和MBLED都是乳酰胺酶工程數據庫的一部分,分別包含關于A類和B類β-乳酰胺酶的信息,但它們僅限于一類特定的β-內酰胺酶。因此,2013-2014年開發了甜乳胺酶數據庫(BLAD)和綜合甜乳胺酶分子數據庫(CBMAR)。BLAD包含大約2000個基因序列,以及200個β-內酰胺酶的三維晶體結構及其結合配體的理化學性質,CBMAR提供了關于β-內酰胺酶的分子和生化功能的信息,并進行了詳細的分類。β-乳酰胺酶領域最全面和最常更新的數據庫是甜乳酰胺酶數據庫(BLDB),它于2017年開發,每月保持更新,包含所有目前已知的β-內酰胺酶的序列以及生化和結構信息,該數據庫包括各類β-內酰胺酶,它們的代表性突變體、動力學信息和三維結構。此外還有一個未發表的β-內酰胺酶數據庫,其中β-內酰胺酶是根據其活性位點上的殘基來分類的,此外,結構信息、動力學信息和最小抑制濃度等信息也包含在內。數據庫中的分子標號直接與NCBI數據庫鏈接,結構信息與蛋白質數據庫鏈接,數據庫中包含的結構和動力學信息可以幫助我們掌握β-內酰胺酶的活性位點殘基,從而研究它們對不同抗生素的識別和特異性。
生物特異性數據庫
結核病是最致命的傳染病之一,而病因細菌結核桿菌經常通過特定基因的突變來獲得耐藥性,為了提供關于細菌耐藥性全面的信息,2009年開發了結核病耐藥性突變數據庫(TBDReaMDB),該數據庫在開發新的測試藥物方面具有巨大的效用,可以幫助快速識別M.結核病菌株的敏感性特征。在此基礎上更新的數據庫MUBII-TB-DB于2014年開發,該數據庫包含了一組AR相關結核基因的蛋白質和DNA中的突變信息,使用該數據庫進行查詢序列簡單快捷,該數據庫可用于識別結核桿菌突變體并幫助進行的抗生素研發,此外,還可用于其他微生物突變體的鑒定,因此也可用于多種耐藥微生物的監測和控制。為了研究大腸桿菌的耐藥性,2015年開發了綜合抗耐藥庫(u-CARE),它含有52種抗生素,以及大約107個基因及參與大腸桿菌藥耐藥性的SNPs和轉錄因子。此外,還有2017年建立的國家豬肉抗生素耐藥性數據庫,目的在于幫助了解某些抗生素對豬及其環境中存在的AR細菌的影響,以及這些細菌向其他豬和人類傳播的渠道。
其他數據庫
還有其他幾個數據庫可以以某種方式處理AR字段。其中,PSA是一個有四個交互式數據集的web應用程序,包含AR數據(AR數據描述了具有耐藥表型的細菌)、醫療保健相關感染(HAI)數據、門診抗生素使用數據和住院抗生素管理數據。對于病原體中出現的耐藥性造成的治療困境,應用PSAweb可以對這類抗藥菌株進行研究。MEGARes于2017年開發,對抗菌素耐藥性的人群水平分析非常有用。此外,歐洲抗菌素耐藥性監測網絡(EARS-Net)數據庫包含與AR細菌相關的數據。ResFams和FARMEDB是包含基因組的抗生素耐藥性數據庫,其中ResFams是2015年建立的具有AR功能及其相關特征的蛋白質數據庫,功能抗生素耐藥元件數據庫(FARMEDB),也被稱為元基因組元件(FARME)數據庫,包含來自元基因組數據的DNA和蛋白質序列。此外INTEGRALL于2009年開發,提供了DNA序列和基因排列的詳細信息等數據,2011年開發的RAC(耐藥盒存儲庫)數據庫包含一組基因盒,這個基于web的平臺上的數據將有助于揭示整合子在細菌相互作用和適應性反應中的作用。此外,多重抗抗生素抗炎劑(MARA)是2018年4月開發出來一個包含革蘭氏陰性細菌的移動元素和移動AR基因的數據庫,該數據庫能夠實現提交序列中抗性基因和相關移動元件的比較分析。除了抗生素之外,抗菌生物殺菌劑和金屬還通過共同選擇對細菌群落中AR的發展和維持做出了重要貢獻,抗菌生物滅活和金屬抑制基因數據庫(BacMet)開發于2014年,最后更新于2018年,可通過共同選擇促進AR的發展或維持。該數據庫包含753個經實驗證實的和155512個預測的耐藥基因,以及111種化合物,包括58種抗菌生物殺菌劑和23種金屬??股啬退幮灶I域相當廣泛,生物信息學家還提供了其他一些不同的資源,如ARGMiner是一個基于網絡的管理系統,包括其基因名稱、耐藥機制、抗生素類別、流動性證據和臨床重要菌株。Mustard是一個AR決定因素和策劃基因集的數據庫,該數據庫于2017年開發,包含了來自人類腸道微生物群中20個家族的6095個AR決定因素。Noradab抗生素耐藥性數據庫創建于2018年,它包含從ARDB和CARD數據庫中收集的抗生素耐藥基因序列;抗生素耐藥性基因發現器(ABRESfinder)是一個在印度流行的AR基因聯盟,它共包含37種抗生素,377個基因家族和36,467個基因。同樣,PATRIC是一個2011年開發的以基因組學為中心的關系數據庫,包含了致病菌的所有基因組數據。另一個MvirDB數據庫建于2007年,整合了其他數據庫中管理的AR基因、DNA數據。對于AR預測基因的工具,包含前文提到的一些工具,還有諸如CARD包括分析分子序列的工具,以及基于同源性和SNP模型的電阻預測的RGI軟件等。圖2所示為對抗抗生素耐藥性的計算資源的時間軸。

圖2.?對抗抗生素耐藥性的計算資源的時間軸
圖片來源于Drug Discovery Today
AR基因的預測
ARG-annot是一種檢測細菌基因組中AR基因的生物信息學工具,于2014年建立,該工具可用于檢測現有的耐藥性基因決定因素、AR相關的突變點,以及細菌基因組中抗生素耐藥性基因決定因素。DeepARG是一種基于深度學習方法的工具,該工具可用來預測元基因組數據中的AR基因,開發于2018年,可以作為命令行工具和web服務使用。DeepARG的作用并不局限于AR基因,它可以用于訓練任何一套基因,因此它可以用于創建新的深度學習模型。成對比較模型(PCM)是一種基于3D的解釋抑制基因的通用方法,它使用一種特定的方法來構建結構模型并評估其相關性。Mykrobe預測器于2015年開發,用來分析特定細菌的完整基因組,并在幾分鐘內預測抗生素或藥物的耐藥性。ARIBA是2017年開發的一種工具,可以通過配對序列來識別AR相關基因和SNPs,該工具具有快速、高效和準確的特點。表2列出了用于幫助表征AR的所有計算工具。
表2.?可用于抗生素耐藥性研究的工具和軟件的列表
圖表來源于Drug Discovery Today

AR相關突變的預測
ResFinder開發于2012年,用于識別全基因組數據中獲得的AR基因和突變染色體。該工具可以在https://cge.cbs.dtu.dk/services/ResFinder/上訪問。細菌耐藥性相關突變的全基因組評估(GWAMAR)突變檢測工具于2014年開發,通過對細菌全基因組序列的比較分析來檢測耐藥性相關突變。2016年,科爾蒂娜等人開發了“異常變異代碼”工具,可以在github上免費獲得,他們的代碼在分子動力學模擬中使用位置相互信息來預測影響β-內酰胺酶耐藥性的局部和異構突變。2018年,格里洛特等人開發了一種基于分子條碼方法的深度測序工具RM-seq,該工具有助于檢測和估計細菌群中抗突變性的功能。PointFinder開發于2017年,用于檢測與病原細菌染色體點突變相關的抗菌素耐藥性。此外,有一些工具利用分子動力學技術來識別突變,如PZA是一種用于治療結核病的藥物,但對吡嗪酰胺的抑制作用有時會由于結核病人的吡嗪酰胺酶蛋白(PncA)的突變而發生,此工具提供的結構分析可幫助患者疾病的治療。
對AR的基因注釋的工具
VRprifle是一項基于網絡的服務,開發于2018年,旨在幫助探索AR基因。該工具可用于幫助實時定義致病菌中與疾病相關的基因簇,也可滿足細菌基因組可變區域重新注釋不斷增加的需求,電阻體分析是與參考基因相似的復雜過程,測序數據龐大,分析工作流程復雜。GROOT開發于2018年11月,該方法使用了索引,可以用于分類元基因組樣本中的抗藥基因。PhyResSE是2015年開發的另一種網絡工具,用于描述結核病系和其他譜系中來自全基因組測序數據的AR,也可用于識別多耐藥結核復合物(MTBC)耐藥介導變異及分類系統發育譜系。GRcalculator于2017年開發,用于提高臨床研究中藥物反應研究的價值和可靠性,使用這種方法可計算、分析和可視化藥物反應數據;GRmetricsR也可用于離線數據分析和可視化,在測量細胞對藥物的反應方面具有優勢,此外該工具可以用于藥物療效和效力的比較。ARsim模擬工具在2018年開發,用于模擬細菌生長和抗生素耐藥性,以決定特定抗生素是否適用,以尋找對抗抗生素耐藥性的新方法。
基于元基因組的工具及AR基因相關資源
片段抗抗生素基因iENntifier(fARGene)是2019年4月開發的一種工具,可以用來直接從元基因組數據中識別和重建AR基因,包含了許多已開發和優化的耐藥基因模型。此外,該工具使用戶能夠創建和優化他們的抑制基因的模型。然而,如果用戶對元基因組數據中的基因特異性突變點感興趣,可以使用2018年9月開發的一種名為Mumame的工具。此外本文提供了AR基因搜索的相關資源(見表3),如抗菌素耐藥性搜索引擎(SEAR)于2015年建立,目的是從原始序列數據中檢測抗素耐藥性基因。
表3.?可用于抗生素耐藥性研究的資源
圖表來源于Drug Discovery Today
總結與展望
抗生素耐藥性的不斷增加是全球面臨的主要威脅,根據世衛組織的數據,到2050年,耐藥疾病每年可能導致1000萬人死亡,到2030年,AR可能迫使多達2400萬人陷入極度貧困。目前,每年至少有70萬人死于耐藥性疾病。即使在當前全球大流行的COVID-19中,AR也發揮著重要作用,使病毒不斷產生耐藥性,加重了疾病。據報道,10%的新冠患者出現了繼發性細菌感染,從而造成了器官損傷或死亡。此外,一些研究表明,幾乎所有的COVID-19患者都以抗生素作為其治療方案的一部分,但抗生素的廣泛使用也在推動耐抗生素細菌的進化。幾十年來,抗生素一直是對抗傳染病的主要救世主,但耐藥性的出現已經將肽療法轉向了肽治療。研究表明,細胞穿透肽和抗生素的結合可以有效地對抗抗藥性病原體,但肽的半衰期仍然是一個主要的問題,這限制了它們克服耐抗生素疾病的應用。此外,疫苗接種也是防治傳染病侵襲的一種策略。另一方面,包含AR基因、蛋白質、酶等信息的數據庫的建立,以及從高通量測序數據中了解AR的新工具的發展,有望對人類疾病的消滅和經濟的發展做出巨大的貢獻。本綜述中討論的資源有助于促進藥物開發過程中的臨床前研究。此外,不斷發展的算法和軟件可以作為輔助幫助對抗生物體的耐藥性。通常,每種病原體都表現出一種特定的耐藥機制,并隨著時間和抗生素的使用而演變。這些復雜的機制使得人們難以準確地預測表型抗菌素耐藥性,因為基因的表達取決于多個因素。盡管研究人員已經使用各種機器學習和深度學習方法進行研究,但往往是專門針對特定的細菌的。此外,每種機器學習技術都有其缺陷,新的算法也一直在發展用于更準確的表型抗生素耐藥性的預測。我們希望對AR的準確和快速的基因識別將為基于基因序列的現在醫學的發展提供幫助。
參考文獻
L. Maryam, S. S. Usmani, G. P. S. Raghava, Computational Resources in the Management of Antibiotic Resistance: Speeding Up Drug Discovery, Drug Discovery Today, 2021, in Press. DOI: 10.1016/j.drudis.2021.04.016.