

Hu-mAb工具可以對輸入序列進行人源化評分,同時提示可降低免疫原性并保持療效的人源化突變位點,以此加速人源化過程。
背景介紹
單克隆抗體(mAb)療法通常來自非人類來源(一般為小鼠),因此會在人體中產生免疫原性。人源化過程是為了降低抗體的免疫原性,保證其對人體的安全性,且不影響療效。常規的人源化是一個反復實驗的過程,周期長、且繁瑣。通過實驗方法進行的人源化更多的是一個試錯的過程,包括將CDR區轉移至完全人類序列的框架上,如果療效消失,則會進行任意的反向突變,試圖恢復其效果。
為了更快速的對抗體進行人源化,多種計算方法已被開發用于評估抗體的人源化程度。不過這些算法均存在著一些問題,包括需要手動輸入、解析或者模擬抗體結構、缺乏人源化過程以及足夠的訓練數據集。最近,一種利用雙向長短期記憶(LSTM)模型的深度學習方法在區分人類和小鼠序列方面表現很好,但也存在訓練數據集大小受限的問題。
觀察抗體空間數據庫(Observed Antibody Space database ,OAS)是一個來自80項研究的Ig-seq輸出數據庫,其中包含近20億個多余的抗體序列,跨越不同的免疫狀態和生物(盡管主要是人類和小鼠)。利用機器學習和廣泛的OAS序列數據,牛津大學統計系的Claire Marks等人構建了隨機森林(RF)分類器,可以準確區分每個人類V基因和非人類可變區序列。RF分類器產生的“人性”評分與觀察到的免疫原性水平呈負相關。作者使用這些模型構建了一個計算工具Hu-mAb,可以通過提示增加人性的突變,系統地使感興趣的VH和VL序列人源化。Hu-mAb以最優的方式使序列人源化,最大限度地減少序列產生的突變數,以限制對療效的影響。Hu-mAb人源化產生的突變與那些產生低免疫原性序列的實驗性治療人源化研究中產生的突變非常相似。Hu-mAb是試錯人源化實驗的有效替代品,可以在很短的時間內產生類似的結果。該算法是完全自動化的,無需輸入結構,且比任何現有的方法使用更多的序列進行模型訓練。
Hu-mAb在線網址
http://opig.stats.ox.ac.uk/webapps/newsabdab/sabpred/humab
網站首頁:

模型評價結果
1. RF模型對OAS序列的分類性能 ?
RF模型通過訓練OAS IgG數據集生成。每個模型被創建為一個二進制分類器——將特定V基因型的人抗體序列(VH、VL kappa或VL lambda)作為陽性組,將相應鏈型的所有非人類序列作為陰性組。作者為每個V基因構建了不同的分類器。RF模型的性能是通過確定其正確區分人類特定V基因型序列和其他物種序列的能力來評估的。作者使用驗證集來確定分類閾值,即讓YJS最大化的值。然后使用為每個模型選擇的閾值計算測試集的性能。結果顯示,所有模型的性能都非常高,AUCs (ROC曲線下的面積)接近1或等于1。在驗證集和測試集中也看到了類似的YJS值,所有模型得分為≥0.999。
2. RF模型與之前的LSTM模型比較
RF模型相比LSTM模型呈現出更好的結果。作者使用自己的序列數據集生成LSTM模型,并將其性能與RF模型進行了比較。在所有22個模型(每條鏈和每個V基因類型)中,RF模型在AUC和YJS得分上都優于LSTM模型。沒有一個LSTM模型能夠完全區分人類序列和陰性序列。
3. 治療方法分類
作者首先從Thera-SAbDab獲得了一套481種抗體治療方法(開發階段從Phase I至獲批均包含)。每個VH和VL序列分別由各自的RF分類器集(VH、VL kappa或VL lambda)進行評分,如果單個模型評分為人類(高于YJS閾值),則將其歸類為人類。對于VL序列,作者建立并使用了一個額外的RF模型,首先區分序列類型是kappa還是lambda。圖1顯示了分類為人類(按來源劃分),按鏈類型(VH或VL)和混合(要求VH和VL都分類為人)分類的治療比例。在176個人類序列中,除1個的序列輕鏈人源性得分(0.850)略低于對應的人源性閾值(0.856)外,其余均被準確分為人類,而小鼠序列均被分為非人類。隨著抗體序列的人源含量的增加, RF模型將更多的治療方法歸類為人類。LSTM方法雖然也可以觀察到這一趨勢,但并不那么清楚,且更多的人源性抗體被LSTM方法歸類為非人源性抗體。

圖1 由RF模型分類的人源性抗體比例。圖片來源:Bioinformatics
4. RF模型評分與免疫原性的關系
人源化的目的是提供安全且不引起免疫反應的治療方法。一個強的分類預測評分不足以產生一個人源化結果,因為它沒有明確解釋免疫原性。因此,作者通過ADA的測量結果,研究了模型評分與觀察到的免疫原性反應之間關系。
作者評估了在217種治療方法中,發生ADA的患者百分比與治療者的VH和VL鏈的最低人源化評分之間的相關性,因為最少的人源鏈有望決定免疫原性水平。研究發現,較高的最小模型評分往往與較低的免疫原性相關,盡管相關性較弱(R2=0.31),但明顯高于之前研究中觀察到的相關性(R2=0.18)。作者將217種療法按人性評分進行了分組(圖2),并證明了高人源性得分與低免疫原性有關。

圖2 RF模型產生的人性評分與實驗確定的免疫原性之間的關系。圖片來源:Bioinformatics
5. Hu-mAb:一種計算的人源化工具及其在以前的實驗人源化治療中的應用
由于高模型評分與較低水平的免疫原性相關,這表明最佳突變將增加輸入序列的模型評分,從而降低免疫原性,作者使用該評分構建了一個計算人源化工具:Hu-mAb。工具中CDR中的殘基不發生突變以維持抗原結合特性。理想情況下,人源化抗體應該產生盡可能少的突變,以減少治療的療效損失。為了研究Hu-mAb提示的突變與實驗衍生突變之間的相似性,作者收集了具有低免疫原性且前體序列可獲得的實驗的人源化序列。通過每個RF模型對每個治療方法的VH和VL序列進行評分,并通過選擇得分最高的模型來識別V基因。將前體序列作為人源化器的輸入序列,以及其目標人源性評分(通過實驗得到的人源化序列獲得的評分)和V基因類型。圖3顯示了Campath重鏈的一個結果示例。

圖3 Hu-mAb人源化程序使用Campath的重鏈序列結果。圖片來源:Bioinformatics
表1比較了25種治療方法的前體序列(非人源化)的實驗突變和Hu-mAb建議突變。這些治療方法在實驗人源化形式中都表現出低免疫原性。所有前體序列均來自小鼠、大鼠或兔,大多數模型評分接近0。
此外,Hu-mAb建議的突變比實驗獲得的突變更少,VH和VL的突變量分別為實驗突變量的59%和58%。Hu-mAb建議的突變中,平均有68%和77%(分別為VH和VL序列)也是實驗突變中的(重疊比,OR) 。包括類似殘基類型的突變,VH和VL的平均調整OR(AOR)分別為77%和85%。這表明Hu-mAb提出的突變與實驗中產生的突變非常相似。Hu-mAb正在利用抗體庫中發現的信息,更有效地使抗體序列人源化。
表1實驗人源化與計算工具Hu-mAb的比較。表格來源:Bioinformatics

6. Hu-mAb操作流程和RF模型分析
由于實驗人源化過程通常涉及將非人類CDR移植到人類框架上,因此預計框架區域比高變CDR區域對人類和非人類序列的分類更重要。對RF模型的特征重要性的分析發現,這是正確的;識別的關鍵殘基主要出現在框架區域(圖4)。然而,該模型利用了一些CDR位置來進行識別。

圖4. VH V3 RF模型的特征重要性及其十大特性。圖片來源:Bioinformatics
對Hu-mAb方案的分析顯示,RF模型并沒有獨立地考慮序列中的位置,而是包含了殘基之間的相互作用,以更現實地評估人源。與實驗中產生的突變相比,在殘基類型方面,Hu-mAb提出的突變也與實驗結果非常相似。
抗體結合位點的幾何形狀取決于VH和VL的方向,而VL反過來又受到兩個結構域界面上的殘基的影響。Hu-mAb提出的突變對關鍵VH-VL界面殘基的突變比例略低于實驗的比例,這些殘基的OR也高于平均值(VH/VL為74%/96%,而所有突變的平均比例為68%/77%)。Hu-mAb的平均突變也更少(為實驗突變數量的58-59%),每個序列的平均界面突變數大約是實驗突變的一半(重鏈0.8 vs 1.6,輕鏈0.8 vs 1.8)。在Vernier區也觀察到類似的模式——Hu-mAb提出這些被認為會影響到CDR的構象殘基的突變較少。這意味著使用Hu-mAb更能保留抗體的結合特性。
結論
本文介紹了一個全新的抗體人源化工具–Hu-Mab,可以同時人源化具有抗體治療潛力的VH和VL。該模型基于RF分類器,在以抗體來源進行分類的方面顯示出非常高的準確性。高效的Hu-mAb只選擇提供最高人性評分增加的突變,且只對負責人源的框架區域的關鍵殘基提出突變,盡可能減少突變;如有必要,它會逐步建議增加突變以降低免疫原性。與實驗人源化治療相比,Hu-mAb提示的突變數與實驗提示的突變數高度相似(平均AOR為77/85%)。Hu-mAb為實驗人源化方法提供了一個有希望的替代方案,允許以更系統和更有效的方式進行突變,并在很短的時間內實現類似的結果。
參考文獻
Marks C, Hummer AM, Chin M, Deane CM. Humanization of antibodies using a machine learning approach on large-scale repertoire data. Bioinformatics. 2021 Jun 10:btab434. doi: 10.1093/bioinformatics/btab434. Epub ahead of print. PMID: 34110413.