引言
劍橋/牛津大學與倫敦大學研究者概述了計算方法如何在資源更有限的情況下幫助小型藥企推進藥物發現,并根據他們的經驗,分享這些方法的最佳實踐。
背景介紹
政府和慈善機構對學術研究的資助通過闡明疾病生物學和降低風險靶點對藥物發現有重大影響。越來越多的對新藥的學術貢獻是通過致力于將基礎研究轉化為概念驗證的專門的學術藥物發現機構做出的。與此同時,越來越多的新藥來自小型生物技術公司,而不是大型制藥公司。
預測建模和信息學是當今藥物發現的基石。計算方法的影響可以從藥物發現項目的最初構想一直到臨床試驗。數據挖掘和分析方法可以幫助更好地提供信息,并大大加快靶點評估的過程。虛擬篩選(VS)是一種成熟的計算方法,用于找到選定的蛋白質靶點的命中化合物。對接、QSAR分析和匹配的分子對(MMP)支持藥物化學程序將命中化合物轉化為先導物。計算工具中最近增加的內容包括大數據分析和人工智能方法(通常以深度神經網絡的形式)??傊?,計算方法在候選藥物和批準藥物的發現中發揮著重要作用。
學術藥物研發中心和較小的生物技術公司往往不具備大型制藥公司的全部能力,這對可訪問的工具和數據設置了一定的限制。本文中,來自劍橋大學,牛津大學與倫敦大學的研究者概述了在資源有限的藥物發現組織的背景下,計算方法影響藥物發現的挑戰和機遇。研究者希望這可以用來說明這些方法在藥物發現領域的價值,也可以幫助將這些方法介紹給那些好奇他們的組織能從計算方法中得到什么的非該領域專家的學者。
計算方法對靶點識別和驗證的影響
大多數藥物研發計劃的第一步是確定并盡可能驗證一個合適的靶點,而信息學可以被用來篩選大量的數據來實現這一目標。然而,選擇正確的靶點開始藥物研發項目從來都不是一件容易的事?,F在可用的大量信息有可能使這一決定更加便捷,這一觀點的目的不是提供正確的方法來選擇一個成功的藥物靶點,而是強調計算化學可以做出的貢獻,以及計算科學家將在這一努力中面臨的挑戰。
研究人員可獲得的大量、多樣的數據使目標選擇和驗證成為一門學科。數據包括CRISPR-Cas9篩選、蛋白表達譜、生物標記、多組學研究和患者數據;需要在不同的度量、本體和約定之間切換,以提取可用于推斷相關疾病的信息。為了幫助完成這一任務,開發了大量的工具(參見表1)。這里,研究者只關注少數特別容易訪問的工具,它們提供了用戶友好的界面和對各種數據源的訪問,諸如Open-Targets、UniProt和ChEMBL(表1)等項目分別為疾病關聯、蛋白注釋和潛在配體等領域的研究提供了非常有用的起點。這些工具只需要很少的計算專業知識即可操作,并且輸出參數通常都有很好的文檔記錄。通常,這些門戶將用于獲取潛在目標的知識,并構建可用信息的數量和類型。閱讀鏈接到門戶信息的文獻有助于進一步驗證或推翻目標假設。雖然這種方法有它的優點,但當需要評估來自全基因組關聯研究或多組學分析的數百個潛在目標的有效性或可處理性時,這種方法就不合適了。在這種情況下,信息學可以在以自動化和標準化的方式整合所有可用資源中發揮作用。

表1 用于挖掘復合活性數據和/或目標疾病鏈接的數據庫
無論是源于基因篩選還是對特定蛋白質家族的興趣,要研究的潛在蛋白質靶點的清單可能都會很長。對于所有這些目標,需要從多個源提取和組合數據。在項目的這個階段,為了處理可能以不同格式出現的信息,諸如腳本(如Python或R)和數據庫提取(如SQL)等技術技能是非常重要的。公開可用的數據通常以數據庫、CSV文件的形式分發,或者以腳本語言直接訪問的API的形式分發。除了技術技能之外,理解和批判性地評估所收集數據的質量和相關性的能力也是必不可少的。這在較小的環境中常常是一個挑戰,因為這些領域的專家通常微乎其微。因此,需要做出重大努力來解釋和分析有關靶點的可用信息的廣度,并以可操作的方式來總結這些信息。數據的多樣性使得為了構建靶點選擇的度量標準而聚合和規范化數據變得困難。另一個挑戰是獲得的數據的稀疏性。例如,如果可用的數據源之間幾乎沒有重疊,如何比較兩個目標?試圖填補這些空白的預測模型可以提供一個解決方案,但是它們的應用通常需要專門的知識。此外,信息源的倍增使得保持所有內容的更新更加困難,因為它需要跟蹤并返回每個源來檢查新的信息。
實踐中的靶點選擇?
當尋找單個靶點的信息時,Open-Targets initiative在展示和提供對單個地方不同數據源的方便訪問方面做得非常出色。鑒于現有數據的傳播和碎片化,它突出了直接比較不同目標的挑戰。在研究者的研究單位,研究者構建了一個工具TargetDB (https://github.com/sdecesco/targetDB)來幫助完成這項任務。該項目的意圖是開發一種工具,它可以將有關目標的標準化信息收集到單個文件中,并可用于根據用戶定義的分數對目標列表進行優先排序。從上述資源和其他資源中收集數據,并進行一系列的數據分析,以提取最相關的信息,進行目標可操作性評估;圖1a提供了該過程的示意圖。近年來,ML(機器學習)算法普遍應用于靶標識別和藥物發現。需要注意的是,這些算法需要精心策劃、統一和標準化的數據來最大化其預測能力。在作者的研究機構中,TargetDB被用于在機器學習(ML)模型的幫助下,從整個蛋白質家族中快速排序和選擇目標,該模型將目標分為三個可處理類別(可處理、具有挑戰性、難以處理)(圖1b)。

圖1 a) TargetDB如何在一系列數據庫中搜索信息并編譯結果以生成輸出的示意圖;b)使用TargetDB對E3連接酶家族進行分析的示例,以評估目標的潛在易處理性和疾病相關性
計算方法對hits發現的影響
一旦確定了合適的靶點或表型,下一步就是識別能夠結合或修飾所選靶點/表型的化合物,作為藥物化學的起點。
高通量篩選法?
高通量篩選(HTS)長期以來一直是藥物發現的首選方法。然而,由于成本高,這種方法已經超出了許多學術實驗室和較小的生物技術。計算方法可以幫助使篩選過程更易于管理,無論是通過虛擬篩選,還是通過ML-驅動迭代篩選和合理庫設計的應用。
在迭代篩選中,篩選化合物庫的一個子集,該篩選的結果用于提示下一階段的篩選。研究表明,這種方法可以檢索到大多數活性化合物,而篩選不到總篩選庫的一半。通常,ML方法用于預測要篩選的下一組化合物。雖然這種方法引入了多輪化合物篩選,使篩選物流更加復雜,但減少的化合物篩選數量可以彌補這一點,特別是對于復雜和昂貴的篩選。隨著自動配藥等方法變得越來越普遍,這種交換將變得越來越有吸引力。此外,這些方法可以用于迭代地從供應商庫中選擇化合物,只購買感興趣的化合物。
對于許多較小的研究機構來說,維持一個大的HTS庫所涉及的工作和成本是令人望而卻步的,人們可能會尋求維持一個較小的庫或者為每個實驗購買一套篩選準備板。無論哪種情況,重要的是不要包括那些不太可能形成藥物化學生產起點的化合物。這就需要一個設計合理的篩選庫。庫的設計可以針對一個特定的靶標,通過豐富針對該靶標的相關化學類型,也可以針對多個不同靶標篩選庫。常見的任務包括過濾反應和干擾組(如PAINS)以及控制關鍵分子特性和化學多樣性。通常,這種性質過濾的靈感來自于類先導物的概念,尋找經過開發后仍將停留在類藥物的空間內的化合物。適用于這些性質的切斷裝置已經在其他地方廣泛地討論過。有一些免費的工具,如RDKit和KNIME,可以用于復合過濾(表2)。PAINS和反應活性組的子結構過濾器可以在KNIME/RDKit中下載或創建。ChemAxon還為學者提供了免費的工具,包括logD和pKa計算器(KNIME和RDKit中沒有)。后兩個特性是計算CNS MPO評分所必需的,該評分優先考慮有可能穿透血腦屏障的配體,因此對CNS項目來說是一個重要的過濾器。
對于HTS命中化合物,效力通常隨分子量增加,但最強的分子可能不是最容易控制的。一般來說,從較小的分子開始是可取的。研究發現配體效率指標,如配體效率(LE)和親脂配體效率(LLE)是有用的優先指標。
虛擬篩選(VS)
虛擬篩選( VS)是指使用計算工具來選擇化合物進行生物活性測定。對于計算化學家來說,這通常是一個關鍵的任務。術語VS通常指的是大型化合物數據庫的對接,但也有一些替代技術,如形狀和藥效團搜索,也可以用于虛擬化合物數據庫。VS選擇的一組化合物通常比進行高通量篩選(HTS)要便宜得多,因為化合物成本和篩選的成本都較低。同時,它也比HTS速度快得多。作者的經驗是VS的成本是HTS的十分之一,而花費的時間只有HTS的一半。因此,學術和小型生物技術藥物發現團隊應該考慮VS是否可作為他們的項目的一種選擇。

表2 常用軟件的關鍵計算藥物發現任務
VS的合適靶點?
許多藥物發現計劃的目標沒有很好的探索,沒有晶體結構,和/或沒有許多甚至任何已知的配體。在這些情況下VS是具有挑戰性的,但通常仍然有可能成功地進行VS活動。關鍵是在決定方案之前找到所有關于靶點結構和配體的可用信息。蛋白結構信息可以在PDB中找到(表1),如果PDB中沒有靶點結構,以PDB為靶點數據庫,在UniProt中以靶點序列進行BLAST搜索(表1),可能會發現具有晶體結構的同源蛋白。任何在相關結構域具有25%同源性的蛋白,例如ATP-結合結構域或蛋白酶結構域,都可能產生一個有用的同源模型。較低的序列同源性并不一定會降低VS的成功幾率,但序列一致性與VS富集之間存在微弱的相關性。一個可用的蛋白質結構是VS的一個很好的開始,但是蛋白質結構并不是都一樣有用。具有類藥物配體的晶體結構比具有天然配體或底物的結構成功的機會更大,因為最優的富集條件通常是結合配體與待對接化合物相似的蛋白質結構。強有力的配體有更高成功的可能性,因為他們通常有更多和更強的相互作用,并可以使用這些信息來指導藥物設計,因為錯誤的口袋可能是有針對性的,或結構蛋白的變化可能發生在結合?時。良好的分辨率(< 3.5 ?),明確的活性位點和在電子密度中完全可見的殘留物,也是成功可能性的有用指標。表3總結了VS起點所需特性的層次結構。從PDBe中檢索電子密度圖(表1)總是值得的,以檢查配體和口袋殘留物的定義如何。該信息可用于調整藥效團約束的大小,或允許對接協議中某些殘留的靈活性。

表3 VS的特征,根據成功的可能性排序的起點。顏色梯度強調了不同情況下成功的可能性,綠色表示可能性高,紅色表示可能性低
數據庫如ChEMBL, Probes&Drugs,和PubChem(表1)可以用來尋找已知配體。使用SureChEMBL可以為配體挖掘專利(表1)。如果已知蛋白靶標的配體,甚至單個配體,可以嘗試基于配體形狀和藥效團特征的VS。這些方法不需要三維蛋白質結構就可以使用?;谂潴w的有許多商業和學術軟件包可用,作者已經成功地使用了ROCS、Blaze、MOE和Phase進行篩選(表2)?;谂潴w的3D藥效團方法假設已知配體的所有特征都對結合很重要(盡管在某些包中可以手動重寫)。配體只有有藥效團特征才有所需的效力,因此最好作為查詢。構象的靈活性增加了基于配體的3D藥效團相對于更嚴格的查詢分子的復雜性,因此應該盡可能選擇更靈活的替代方案。然而,并不是所有基于配體的篩選工具都對查詢構象敏感。如果有多個配體可用,疊合可以表明關鍵的結合特征和可能的口袋形狀。對于基于結構和基于配體的篩選,無活性配體的數據也有助于測試VS協議是否具有預測性,并能區分活性和非活性。
選擇要篩選的數據庫?
決定篩選哪個數據庫是VS活動成功的一個重要因素。為了對藥物研發項目產生及時的影響,VS方案所選擇的化合物必須是負擔得起的,在合理的時間框架內交付,并采用合適的格式。當考慮VS的成本時,重要的是考慮應該購買多少化合物。三到四個小的活性物簇將是一個虛擬篩選的好結果,因為這允許一些摩擦,由于平坦的SAR,棘手的化學,或ADME屬性不能優化而失去效能。這些都是研究者停止化學篩選的原因。對于我們VS的成功案例,在ADP Glo試驗中,使用IC50?< 10 μM作為截斷點,命中率為0.5- 1.5%。很難知道這是否具有代表性,因為文獻中報道的命中率使用了廣泛的界限,而且不同的目標成功率也不同。此外,許多報告較高命中率的研究都是回顧性研究,使用已知具有活性的數據庫。
每個篩選化合物的成本大約為2美元到120美元,具體取決于供應商、所需數量和訂單中化合物的數量。因為當訂購的化合物數量超過閾值時,每個化合物的成本通常會下降,所以當從一個供應商訂購化合物時,有限的預算往往會進一步增加。使用單一供應商的額外優勢是,訂購和處理物理化合物更容易,運輸成本更低。因此建議篩選單一來源源供應商數據庫(表4)。表4顯示了一些化合物供應商和數據庫,這個列表絕不是詳盡的,但包含了有經驗的單一來源供應商,當研究者詢問超過1000個化合物的訂單時,每個化合物的成本是10美元。

表4單一來源供應商的化合物數據庫
除了成本之外,供應商庫的內容也是一個需要考慮的重要因素。一些供應商可能只是比其他供應商有更多感興趣的化學類型的例子。所以,如果可以詳細地定義要購買的化合物的性質空間和特征,挖掘非常大的化合物數據庫來尋找非常符合要求的分子可能是值得的。研究者最近從111個購買的化合物中獲得了5%(IC5 < 10 μM)的命中率,這些化合物在生物物理篩選上測試了一個目標,而這個目標在之前的HTS中沒有命中任何目標。這111個化合物是根據一種新的化學類型來選擇的,并且適合一種精細的對接模型來區分大約100個內部測試的活性和非活性。使用BioSolveIT的infiniSee軟件(表2),從Enamine REAL數據庫(表4)中選擇了50,000個與已知活性有某種相似性的分子進行對接。
數據庫選擇的最后一個考慮也許是化合物庫是否可管理,一個大約一百萬虛擬化合物的數據庫可以很容易地在一個多核的工作站上處理,對接一個這樣大小的化合物庫可能需要一個周末。除了數據庫的大小,還需要大量時間來建立計算基礎設施和工作流。
為VS準備數據庫和搜索查詢?
為了確保只篩選一個化學運動合適的起始點,上面討論的篩選庫的合理設計的煩惱、反應基團和屬性過濾器應該在VS之前應用。對接和大多數基于配體的篩選應用程序需要輸入配體以所有可能的形式表示,包括電荷態、互變異構體和立體異構體。許多商業和自由軟件包都有實現這一點的工具(參見表2),但是它們交付的結果和花費的時間各不相同。MolConvert從ChemAxon生成電荷、異構體和立體異構體,然后在RDKit中進行幾何優化,在沒有綁定其他應用程序使用的軟件許可的情況下工作得非常好。
不僅是數據庫,而且是搜索查詢,無論是蛋白質活性位點、藥效團還是配體都需要精心準備。蛋白質需要被正確地帶電和質子化,以便發現相關的氫鍵和電荷相互作用。需要對水分子進行評估,并決定是保留還是去除它們。如果這是不清楚的,或者側鏈或環是靈活的,最好的方法可能是使用多個蛋白質模型的虛擬篩選。如果將配體用作3D查詢,則需要具有可能的構象。在沒有綁定模型的情況下,通常使用能量最低的構象異構體,但Kirchmair等人表明,在使用ROCS時,查詢構象不會影響性能。低能構象可以通過構象分析發現,然后通過半經驗或QM方法優化,并通過在劍橋晶體學數據庫(Conquest,表2)中觀察相似的配體來驗證。詳細的構象分析對從多個配體產生藥效團也非常有用。排除不太可能發生的構象,如順式酰胺、軸向取代基環等,可以減少可能的藥效團數量并提高成功的可能性。所有篩選查詢都應該首先進行測試,看看它們是否檢索到已知的活性物,然后測試它們區分活性和非活性的能力,如果有足夠的活性數據可用的話。
選擇對接軟件?
有許多不同的VS軟件包可供使用。表2列出了研究者已經成功使用的工具,但是還有許多其他好的軟件工具可用。對于對接工具,已經有幾個競賽,在這些競賽中,使用一系列不同策略的小組已經在預測晶體結構尚未公布的配體的結合姿態和排列方面展開了正面交鋒。比較成功的研究也已經發表,例如Su等人。在選擇??堪筒呗詴r,這些都是有用的資源。所有的??堪加胁煌膬瀯?,所以在選擇時要考慮目標和庫的詳細信息。例如,開源對接程序不受許可證的限制,因此非常適合在集成CPUs上運行。眾多研究者喜歡GOLD在水分子可能與配體形成關鍵相互作用的場景中,因為它可以在篩選過程中開關結合位點的水分子。然而,作者更喜歡Glide,因為它能計算配體應變能,這是非常有用的評估結合模式。Yuriev等人寫了一篇很好的評論,討論了哪些對接工具可以處理靈活的蛋白質、溶劑化和碎片等。
對接包通常具有多個評分功能,因此對接協議的驗證應該包括評估最佳評分功能。許多VS包也有一個重新評分模式,因此,可以使用??抗ぞ咧袥]有的評分功能重新評分。多個評分函數的結果可以以各種方式組合在一起,以提高豐富性。最近的一個例子是Ericksen等人的一份報告,他們使用ML來改進傳統的共識評分模型?;诮Y構的方法和基于配體方法的結合也取得了成功?;谂潴w的方法可以提供一個快速的預過濾,以減少提交對接的化合物的數量,這通常是較慢的。另外,基于配體的方法可以用作對接后過濾器,以確保所有對接命中都與受體有必要的相互作用。后一種方法在作者看來是非常成功的,在增加基于配體方法的富集方面,它們本身也被證明是非常成功的。
選擇購買和測試的化合物?
VS的最后計算步驟是決定購買哪種化合物。這是一個重要的步驟,它可能會對VS的成功產生更大的影響,例如使用哪個打分函數。打分函數對化合物的排序很差,所以所有得分合理的化合物(如與已知配體相似的化合物)都應該考慮購買。打分函數的一個眾所周知的問題是得分隨著分子的大小而增加。這可能導致更吸引人的、更小的化合物被忽略。例如,使用虛擬配體效率分數,將分數除以重原子的數量,或者將命中化合物列表分成分子量層,然后從中選出一組,就可以解決這個問題。這些策略應與聚類步驟相結合,以確保多樣性。但是,從每個聚類中選擇一些示例是有用的,因為它允許出現一些SAR。如果集合太多樣化,就很難對工作進行優先排序。對于這種類型的集群,Data Warrior是一個有用的工具,因為它通過Tanimoto相似性進行聚類。0.7-0.8的相似度往往會產生真正相似的分子簇,而均值聚類和層次聚類算法更難實現。重要的是,從最初篩選中識別出的任何命中化合物物都要作為固體物重新供應或在內部重新合成,以對化合物進行適當的質量控制,然后驗證其活性。如上所述,作者成功地開展了一系列針對不同目標的VS活動。圖2顯示了部署在這樣一個項目中的典型VS漏斗。

圖2 VS漏斗在內部成功使用的例子
計算方法對命中化合物優化階段的影響
一旦確定了合適的起始點,下一步的任務就是將其開發成具有良好靶向效力和其他有利特性的先導化合物。在這個階段,計算方法也可以加快過程,提高最終先導化合物的質量。對ADME性質的對接研究和預測有助于指導設計過程,并能更快地得到更好的分子。研究者通常在內部使用這些方法,圖3顯示了在這些方法的幫助下優化的Notum抑制劑發現項目的一個系列的最終化合物。

圖3 使用Glide(表2)和各種性能預測被用于指導一系列呋喃嘧啶酰胺作為Notum抑制劑的開發,這些抑制劑基于作為非中樞神經系統的穿透型先導化合物
在某些情況下,更準確,也更強烈計算結合能力的方法,如自由能微擾(FEP)或MM-GBSA/ MM-PBSA,已被證明與測量親和力提供更好的相關性,因此具有更好的復合優化的基礎。然而,這些方法在有限的預算下不是很容易獲得。根據作者的經驗,它們需要昂貴的許可證、大量的計算時間,并且需要使用大量數據進行校準。而且,它們的適用范圍往往很小。結合為該系列建立的構效關系,基于結構的優化可以成為快速生成更好化合物的強大工具。
QSAR模型?
定量構效關系(QSAR)和定量構性關系(QSPR)模型長期以來被用于化合物設計。這些模型通常使用ML方法構造,并使用分子指紋或一組分子描述符來描述輸入分子。QSAR模型可用于優先考慮哪些分子最有可能滿足設計標準,并能跨越多個端點,包括基本分子特性、生物活性和代謝穩定性。使用這些方法的一個挑戰是它們需要數據來建立模型,并且在項目開始時可能沒有足夠的可用數據來構建模型。對于成功的QSAR建模,需要正反兩個示例。對于已經研究過類似蛋白質的家族中的靶點,也有機會利用這些相關靶點的信息來為手頭的靶點提供信息。QSAR模型可以作為軟件包的一部分進行預先訓練(例如StarDrop中的ADME模型),也可以在內部構建并根據可用數據進行訓練。像R或Python中的scikit-learn這樣的開放包通常用于構建ML模型,一些商業軟件包也提供了這個特性。
最近,在QSAR應用中使用深度神經網絡的興趣越來越大,在許多情況下,這些方法比傳統方法表現出更好的性能。然而,這些方法通常在計算上非常昂貴,而且與其他方法相比,許多任務的收益并不大。
重要的是,QSAR模型通常不打算取代實驗測定法,而是在合成前選擇更有可能具有良好性能的化合物,從而減少所需的設計周期。研究表明,納入QSAR預測可以提高項目中化合物的整體質量。
分子對匹配?提高ADME-PK性能是優化先導化合物的一個重要方面。如上所述,QSAR模型可用于ADME-PK建模,但另一種流行的技術是使用匹配分子對(MMP)。這種方法依賴于識別一組非常相似的化合物對,通常只有一種化學變化不同,與所調查的性質相關的數據。一旦建立了這種轉換的數據庫,就可以通過觀察數據庫中分子相應變化的性質的平均變化來評估先導分子的潛在變化。這種技術的優點之一是預測很容易解釋,并且可以回顧預測背后的示例。
雖然MMP對任何性質都是可行的,但它需要大量的數據來給出可靠的估計,因此最適合在項目之間轉移的性質。MMP在預測微粒體穩定性、外排和細胞色素P450抑制變化方面特別有用,這些變化通常依賴于亞結構,因此很難用QSAR方法進行預測。ChEMBL是提取間隙、滲透率和其他ADME數據的極好來源,這些數據可用于構建MMP。有幾種軟件可供選擇來構建匹配的分子對(表2)。
量子力學(QM)計算?
QM計算在命中化合物優化得到先導化合物階段也非常有用。它們可以用來鑒定(假定的)生物活性構象的種類,并發展假說來緩解這種情況。例如,Kuhn等人利用Guassian98成功地應用QM方法緩解了兩個雜環之間的扭轉角應變,而Heightman等人利用基于QM的單點和最小能量計算Q-Chem優化了其配體密切接觸的兩個區域之間的相互作用。除了用于更精確的pKa預測的QM軟件包Jaguar之外,作者還使用開源的QM軟件包ORCA來計算丁腈和半胱氨酸之間形成硫代酰共價鍵反應的活化能,如Cavalli等人所示。
計算方法對先導化合物開發的影響
藥物發現過程進行得越深入,可用于建立預測模型的相關設計階段的數據就越少。例如,雖然可以很容易地獲得大量基于細胞的數據,但在動物模型中測試的化合物的數量將大大減少。在研究者的設置中,這是數千和少數數據點之間的差異。一般來說,這意味著預測建模在項目的后期階段發揮的作用較小,但是在某些領域計算模型仍然可以發揮作用。使用計算模型對一些脫靶和毒性機制進行常規評估??赡茏畛R姷念A測脫靶活性是hERG,它可以獲得高質量的模型。此外,可用計算方法可靠地評估致癌性。計算方法在藥物發現的末期也有用的另一個領域是代謝物和代謝穩定性的預測。對于這兩個任務,商業和開放的解決方案都是可用的,也許最突出的是Lhasa有限公司提供的各種工具。重要的是,當使用基于web的服務進行預測時,不建議披露專有信息,因為大多數服務不保證上載到其服務器的數據的機密性。
挑戰與機遇
數據正在成為現代藥物發現的關鍵之一。這給通常沒有大量內部數據的小型機構帶來了挑戰。然而,數據策略的第一步是利用內部可用的任何數據。因此,建立嚴格的方法來存儲以可搜索和適合后續分析的格式生成的數據是很重要的。商業數據管理系統,如Dotmatics和協作性藥物發現庫,是捕獲從藥物發現項目生成的數據范圍的有效方法。這些系統也為組織提供了未來保護,防止員工離職時數據丟失。數據管理系統比計算建模工具要昂貴得多。即使在利用內部產生的所有數據時,大多數較小的機構會發現總體上缺乏數據來建立模型。緩解這一問題的關鍵是大量的公開數據庫。
選擇合適的軟件是另一個需要仔細考慮的關鍵任務。實際情況是,軟件可能會帶來巨大的成本,而大型軟件集合也會增加復雜性。因此,任何購買都應該具有特定的功能。有些供應商在一個包中提供所有功能,而另一些則銷售單獨的模塊,因此在購買之前請確認任何包是否包含您需要的功能。
還有許多網絡工具可用來完成一系列的計算化學任務,例如,pKa預測器,P450代謝位點預測器等。在使用這些工具時要考慮的一個重要問題是您的數據和IP是否安全。
除了軟件之外,還需要一些硬件。然而,大多數任務可以使用標準硬件完成。一個好的設置是一個帶有GPU的高端工作站,再加上一個用于許可和托管web應用程序的簡單服務器。
對于小范圍的計算化學家來說,一個巨大的挑戰是需要廣泛的技能。大型機構可能擁有獨立的生物信息學、化學信息學、建模和IT專家,而在小型機構中,一個人可能必須涵蓋所有這些學科。幸運的是,現在網上有很多培訓資源,可以幫助你獲得所需的技能。許多軟件供應商,包括CCG、Cresset、Optibrium和Schrodinger組織免費或低成本的網絡研討會、研討會和用戶組會議來培訓他們的用戶。還可以通過與更廣泛的建模社區的聯網獲得重要的知識。
展望與結論
計算方法在整個藥物發現和開發過程中發揮著重要作用,從找到正確的靶點到對臨床數據進行統計分析。雖然在藥物發現領域小藥企可能很難實施所有的最先進的技術,關鍵是可以用有限的資源覆蓋。在整個展望中,研究者描述了這些方法的最佳實踐,以及它們如何適用于藥物發現。研究者的經驗是,擁有一個計算機科學家的討論不僅使各種計算藥物發現方法得以運用,同時簡化整個組織的數據處理和增加利用公共數據的能力??傊?,研究者預計計算方法將在現代藥物發現中發揮越來越重要的作用。對于許多學術團體和小型生物技術公司來說,從計算技術和內部和公開數據中獲得最大價值的方法將是成功的關鍵決定因素。
參考文獻:
Henri?tte Willems, Stephane De Cesco, and Fredrik Svensson. Computational Chemistry on a Budget: Supporting Drug Discovery with Limited Resources. Journal of Medicinal Chemistry. DOI: 10.1021/acs.jmedchem.9b02126