

腺相關病毒(AAV)載體作為一種首選的基因傳遞載體,在一些臨床適應癥中使治療性基因得以表達。佛羅里達大學Zolotukhin教授的一篇觀點類文章詳細介紹了AAV衣殼工程的最新趨勢,利用定向進化、序列分析和機器學習等技術可以開發新的衣殼突變體,以提高其靶向特異性、安全性和耐用度。
我們已有多模型基因傳遞載體了嗎?
重組AAV(rAAV)載體已被證明在幾種遺傳疾病中具有積極的治療效果,但rAAV載體由天然血清型構建,缺乏細胞、組織以及器官靶向特異性,容易被患者預先存在的免疫中和。研究人員為了改善這些缺點,通過天然分離、合理設計、組合衣殼突變或其組合,獲得了新一代的載體。但是發現或設計新衣殼在技術上具有一定的挑戰性,產生的臨床轉化載體很少。本文為研究人員提供有關衣殼工程趨勢的最新動態,特別是與計算方法有關的促進具有優化特性的新型衣殼突變設計。
基于結構的衣殼工程
截止文章撰寫時,AAV血清型(分配到所有抗原分支)的衣殼結構已經確定,剩余的AAV7、11、12和13也被添加到數據庫中。這些血清型的加入使得來自所有已建立分支的AAV血清型衣殼的結構圖譜和3D文庫變得完整,這是結構生物學界的一項重大成就。也使得基于結構的衣殼項目成為可能,這些項目從眾所周知的AAV2“主力”及其硫酸肝素受體開始。本文介紹了受體足跡模塊化的概念提出及其發展的過程,該概念在結構導向的正交方法中得到進一步的測試,可進化新的衣殼,躲避預先存在的抗AAV中和抗體(NAbs),而不影響效力、轉導效率或組織向性。

圖1. 野生型AAV9的3D模型。圖片來源:Trends Mol Med.
衣殼突起的突出通過利用其表面暴露loop環的靈活性,特別是可變區(VR)-IV和VR-VIII(圖1),以最合理的方式被使用。隨著想象力的不斷發展,科研人員使用所有野生型AAV血清型作為支架以及基因工程嵌合衣殼生成了大量的組合肽展示庫。這種方法產生了一些非常有效的衣殼突變體,如靶向光感受器的AAV2-7m8,靶向神經元的AAV-PHP.B,靶向骨骼肌、心臟和隔膜AAVMYO或MyOAAV。后三種突變體使用AAV9支架進行設計,其本身就是一個相當有效的衣殼。
組合肽展示雖然成功,但對緩解預先存在的AAV免疫沒有什么作用,這是臨床應用的一個主要問題。暴露在衣殼表面的肽插入物引入了一個新的表位,但在野生型AAV框架上存在的表位在結構上不會有太大的不同。例如,無論是AAV9VR-VIII中的PHP.B插入還是S肽插入,都不會影響VR-VIII之外的衣殼蛋白結構,包括空間上相鄰的VR-IV。此外,這些抗原表位似乎在許多血清型中保守??梢钥紤]首先獲得逃避中和抗體的衣殼(NAb-evading capsid),然后用先前確定的靶向肽裝飾它。然而,這一概念有待于實驗驗證,因為肽與靶向部分的相互作用顯然依賴于衣殼框架。
衣殼工程由功能的映射決定因素決定
作者隨后簡要介紹了AAV載體設計相關的受體去重靶向性和轉導效率。以AAV2血清型及其主要的聚糖受體硫酸肝素蛋白聚糖(HSPG)為例,簡述了受體去重靶向的歷史。AAV在突變的過程中可能會導致HSPG的高親和力,而如何降低HSPG親和力的同時不干擾衣殼使用HSPG進入細胞的能力,是需要解決的一大問題。在最近出現的新型人工智能算法如RoseTTAFold,AlphaFold和AlphaFolf-Multimer的加持下,通過計算設計衣殼來靶向特定的受體成為可能。
另外,與活細胞中的任何其他過程一樣,來自VP1、VP2和VP3單體的AAV衣殼的組裝是隨機的,由于離子的二十面體對稱性,預計約有1012種獨特的衣殼配置。三個單體的化學計量比“最優”值為1:1:10,適當的增加VP1和VP2的比例可以增加轉導效率,一旦VP1:VP2:VP3比率太遠離“最優”值,病毒的產量會急劇下降。
衣殼設計的計算方法
1. “singletons”序列和祖先序列重建
細小病毒,特別是Dependoparvoviruses屬(該屬成員含AVVs),感染了動物數千萬年,由于相對較高的突變率,它們進化出具有不同同源程度的血清型的大量分支。所有這些野生型AAV分離株都提供了寶貴的氨基酸(AA)序列數據集,可用于計算分析,以確定對其各自的藥理、免疫學和分子特性所必需的殘基。例如,一些對自然發生的AAV衣殼分離物的研究確定了衣殼位置的某些可變殘基,而這些殘基在許多其他血清型中是保守的。這些殘基被稱為“singletons”,Singletons為衣殼的適應度提供了結構上的見解,并為反向遺傳學實驗提供了一個工具。

圖2. 如何重建祖先序列。圖片來源:Free Radical Biology and Medicine.
有假設指出,在AAV衣殼上存在一個或多個singletons殘基會對載體的生產和/或基因轉移效率產生負面影響。當singletons被恢復到默認保守殘基,由此產生的衣殼提高了它們的產量和體外轉導率。在這些對自然現存AAV分離株的原始研究的邏輯擴展中,兩組研究者使用祖先序列重建(ASR)算法在計算中預測了假定的祖先AAV衣殼單體的AA序列。采用相似的方法,但將各自的ASR算法引導到不同的現存AAV分離株集,一組創建了一個211排列的概率序列空間,另一組創建了一個明顯更復雜的文庫,理論多樣性為2.5×1011。前者允許研究人員小批量合成、篩選和分析候選先導物,然后單獨分析,而后者只能將文庫作為一個單一的池進行篩選。
研究中的一個突變體(Anc80L65)形成了優秀的衣殼,具有更高的熱穩定性(比AAV2和AAV8高15°C-30°C的熱穩定)和中等產量(與AAV2相當)。在腦實質內注射,甚至靜脈注射后,該突變體在靶向肝臟、肌肉、視網膜、內耳毛細胞、腎間充質細胞和中樞神經系統方面非常有效。
基于此,得出幾條經驗教訓:1. AAV進化迅速,形成病毒準種(也稱為突變群或突變云),并通過獲得singletons來適應物種、特定的宿主、組織,甚至細胞類型;2. 已知的野生型衣殼分離物的池顯然只是可能作為訓練數據集的一小部分;3. 分析算法和輸入參數的選擇與序列數據集一樣重要。這就是為什么機器學習(ML)等創新的計算方法能為未來的衣殼工程打開新大門的原因。
2. 機器學習
對衣殼工程的探索仍未轉化為臨床相關的適應癥。最近出現的新的分子和計算工具可能提供了開發自定義向量的替代方法——ML——與組合優化的原理攜手并進(即,從有限的對象集(衣殼池)中找到滿足特定用戶定義目標的最優對象(衣殼))。
一般來說,在突變衣殼基因中有兩種經常重疊的方法:系統(無監督)和靶向(監督)。系統方法在AAV2衣殼的所有735個位置上以綜合系統的方式引入單一的AA殘基替換和插入。由于這種系統突變的結果,在計算中發現了另一種AAV編碼蛋白,從而使總數達到9個。它是一種新的+1移框ORF(開放閱讀框),位于AAV VP1/VP2基因中,被稱為“膜相關輔助蛋白”(MAAP,AAV2帽位置27-147)。這一發現來自于一種智能誘變方案,目的是通過比較在替代閱讀框中終止密碼子存在或不存在時同義帽突變體之間觀察到的適應度差異。MAAPs似乎也被其他血清型編碼,通過細胞外囊泡關聯途徑促進病毒運出。
靶向誘變方法可以徹底改變一個有限的序列或表面暴露的VRs的一個子集。后者顯然來源于關于表面VRs的相對可塑性的實驗數據,但很少考慮過擬合的ML概念。但隨后使用支持向量機算法或淺層人工神經網絡對數據集進行分析,能夠預測未知的衣殼變體是否可能組裝成可行的病毒樣結構。
為了使ML模型有用,一個訓練數據集必須包含一個相當數量的匹配突變體。生成它們的一種方法是使用一個疊合模型,通過評估每個突變位置,計算創建一個到目標的安全“路徑”,在多個突變體的短時間內評估附近突變的適應度。另一種提高訓練集適應度的方法是通過對裝配突變體進行逐步組裝和生物選擇,一次進行一個超突變的VR。

圖3. 機器學習引導的 AAV 衣殼設計優于隨機誘變。圖片來源:Science.
一旦生成了訓練數據集,就必須在最適合該數據集的模型類別中識別出特定的概率ML模型。對于AAV衣殼適應度預測,幾種模型架構被同時進行比較:邏輯回歸(LR)模型、卷積神經網絡(CNNs)、遞歸神經網絡(RNNs)和變分自編碼器,以及主成分分析的統計方法。通過測試所有模型的所有數據集組合發現所有模型都檢測到了與野生型框架顯著不同的可行序列變異。然而,CNN和RNN的設計策略在深度多樣化的所有精度水平和所有數據集上都比LR更成功。此外,在所有模型中,包含更多的訓練數據并不能保證更好的模型性能。
對于ML算法訓練數據集,并不是所有的組合庫都是相同的。例如,在VR-VIII的頂端有一個短AA序列的肽顯示,由于其對整體結構的影響有限,因此無法推導出整個衣殼適應度的有用預測算法。一個基于其他3D結構特征擾動的更多樣化的數據集將會更重要。因此,組合文庫包含了多個位置的暴露在外以及隱藏在內部的突變,這些應該對于3D建模更有用,可以識別上位性殘基和衣殼的交錯。
3. 技術局限
基于計算設計的局限性主要在于組合庫的復雜性和衣殼的產量。
組合庫的復雜性是ML算法的新突變體和數據集的主要來源。由于文庫通常首先構建在細菌質粒主鏈上,主要的瓶頸與細菌的轉化效率有關??梢酝ㄟ^切換到另一個替代連續酶反應的體外方案,累積產生一個封閉式雙鏈AAV基因組和多達1010個變異的復雜性,可以突破該上限。
病毒衣殼的產量的限制則是轉染方案和用于病毒包裝的HEK293細胞的數量。問題并不在于AAV組合衣殼庫的技術限制,而是達到高度復雜性的實用性,因為即使在109,所有突變體的深度序列覆蓋仍然是一個無法實現的目標。即使建立了這樣一個復雜的庫,由于目前的測序限制,它的純粹卷積也不會為ML訓練提供信息。初始ML訓練必須遵循一個逐步的方法,首先組裝可行的衣殼和各自的數據集,導出ML算法,然后應用于一個包含更高比例的可行衣殼的新庫,用于抗體躲避篩選。
結論
最近涉及重組AAV介導的基因傳遞的臨床試驗的成功和缺陷突出了該載體的安全性和有效性的重要性?,F在科學界的普遍共識是,天然分離株不會在人類患者中達到安全、有效和持久的GT的所有要求,因為顯然它們沒有進化到被用作傳遞治療基因的載體。當多個期望的屬性被合并到一個衣殼中時,不可避免地,每個屬性都最終成為最佳和價值之間的權衡,只要它們的總體性能通過了選擇標準,這是衣殼工程的挑戰。
參考文獻
Zolotukhin S, Vandenberghe LH. AAV capsid design: A Goldilocks challenge. Trends Mol Med. 2022 Mar;28(3):183-193. doi: 10.1016/j.molmed.2022.01.003. Epub 2022 Jan 29. PMID: 35093287.