<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    AcsCentSci | 大規模G蛋白偶聯嗅覺受體配對數據及其建模

    AcsCentSci | 大規模G蛋白偶聯嗅覺受體配對數據及其建模
    AcsCentSci | 大規模G蛋白偶聯嗅覺受體配對數據及其建模

    嗅覺受體 (OR) 的氨基酸序列如何編碼對各種配體的多樣化反應?一個基于 OR 序列相似性和配體物理化學特征的蛋白質化學計量學 (PCM) 模型可以使用監督機器學習預測 ORs 對氣味的反應。命中率高達 58%,發現了 64 對新的 OR-氣味劑。

    背景介紹

    嗅覺受體(ORs)是G蛋白偶聯受體家族的一類成員,具有敏感的氣味辨別能力。但是受體序列中微小的差異可能表現出不同的功能,同時不同的序列也可能會表現出相似的功能。與OR結合的配體是各種各樣的氣體分子,OR 通過變構機制對配體作出反應。目前研究認為,配體親和力是由口袋殘基決定的,對相同氣味有反應的 OR 在口袋周圍具有更高的序列同源性。

    OR 可區分大量揮發性分子并編碼大腦中感知到的氣味。OR 和氣味之間的映射關系是理解氣味感知的關鍵。機器學習在預測 OR 對氣味的反應的研究中已經取得了巨大成功,但是稀疏的氣體數據限制了模型的效果。目前常用的策略是通過特征選擇來降維,從OR序列中篩選出重要殘基,可改善模型效果。本文作者使用 OR 序列比對、 PCM和機器學習來預測 OR 對各種氣味的反應。PCM 模型可提取 OR 序列相似性和氣味劑的化學特征。除此之外,作者還在體外評估了相關殘基的選擇和模型預測結果。

    主要內容

    OR-氣味配對數據集準備

    本文作者檢索了文獻中hORs(人嗅覺受體)和 mORs(鼠嗅覺受體)與氣體的樣本數據,包括 1293 個 OR-氣味劑對,由 390 種 OR受體和 244 種氣味劑組成,然后又納入了14400 對陰性氣味劑,陰性氣味劑在體外無反應。作者選用苯乙酮、香豆素、R-香芹酮和 4-色原酮作為目標氣味劑,隨后又加入了與 4 種目標氣味劑具有相似化學結構的氣味劑的數據。

    分子模型建模

    首先尋找正位配體結合口袋內的氣味結合殘基。小鼠OR作為原型,它對四種目標氣味劑中的三種有反應。分子動力學模擬建立了與氣味劑結合的3D同源模型。3D 模型是在保守氨基酸基序和覆蓋 TM 結構域近 50%(95 個殘基)的定點誘變數據的約束下構建的。在結合氣味劑分子的 5 ? 距離空間內含有 17 個殘基(以下稱為 poc17,圖 1B)。這些殘基中的 14 個已被證明對通過定點誘變對氣味的 OR 反應很重要。

    AcsCentSci | 大規模G蛋白偶聯嗅覺受體配對數據及其建模

    圖1. 機器學習流程與殘基選擇。圖片來源:AcsCentSci

    結合位點殘基突變

    作者在poc17 周圍誘導了 24 個點突變。體外劑量依賴性反應可以測定突變受體對五種配體的反應的影響。突變效應與文獻中報道的所有 OR 突變都標注到了3D 模型上(圖 1B)。其中包括 poc17 和 3 個外圍殘基在內的 20 個殘基,組成了一個更大的正構口袋 (poc20)。poc20 內的突變影響了受體對大多數氣味的反應。

    作者嘗試尋找最佳殘基子集。根據上述結果選擇了 5 個從小到大的殘基子集:poc17、poc20、poc27、poc60 和 TM191。其中poc27 和 poc60 是口袋的延伸,距離結合氣味劑周圍 6 和 8 ?,分別包含 27 和 60 個殘基(圖 1C)。TM191 包含由 191 個殘基組成的整個配體結合的區域。作者使用這些殘基子集構建機器學習模型。

    PCM與機器學習

    從hORs和mORs的序列比對中,作者提取了5個啟發式殘基子集。PCM 模型是使用表 1 中的數據和氣味劑的物理化學特征構建的。作者使用 5 折交叉驗證訓練和評估支持向量機 (SVM) 和 隨機森林模型(RF)。模型預測了每個 OR-氣味對的響應概率,概率 > 0.5 被歸類為響應。Matthew 相關系數 (MCC) 用于衡量模型效果。結果表明RF 的表現優于 SVM。五個 RF 分類器的預測性彼此之間沒有顯著差異。

    poc60 分類器平均表現最好。為了確定最佳殘基子集,使用表 1 中 100% 的數據構建了五個最終 RF 分類器(poc17、poc20、poc27、poc60 和 TM191)。然后使用每個分類器篩選4個目標氣味劑的新 OR 。每個分類器預測并給出OR對 4 種氣味中各自預測的概率。

    AcsCentSci | 大規模G蛋白偶聯嗅覺受體配對數據及其建模

    表1. 查詢的氣味劑(粗體)的化學結構、PubChem CID、訓練數據及其類似物的信息。表格來源:AcsCentSci

    ?

    相關殘基的體外評價

    作者在細胞功能實驗中測試了所有五個分類器的預測。對于每個模型,作者測試了響應類中的所有 OR(任何氣味的預測響應概率 >0.5)以及 60 個陰性對照 OR(異味劑的響應概率 <0.5)。這些 OR 已針對所有 4 種氣味劑進行了測試。例如,在 poc60 的情況下,作者測試了響應類中的所有 20 個 OR,并從非響應類中隨機挑選了 60 個陰性對照(圖 2)。

    對其他四個模型進行了類似的測試。當在 300 μM 觀察到顯著反應時才測量了劑量依賴性反應。否則,OR-氣味是無反應的。poc60 分類器在體外測試集上表現最好(圖 1C)。它對4 種氣味劑的命中率在0.39-0.60, MCC在0.43-0.48之間(表 2)。因此,poc60 是受體對氣味反應的最相關的殘基子集。這些殘基在 hORs 和 mORs 中表現出低保守型和高多樣性,適應各種氣體分子。這意味著 OR 序列中的氨基酸保守序列包含其功能的基本信息。因此,作者使用 TM 區域中的氨基酸保守性測試了另一個模型。事實證明,該模型幾乎與使用氨基酸物理化學特征一樣具有預測性(圖 1C)。這表明用于描述氨基酸的特征類型并不重要,只要特征足以將序列差異傳達給機器學習算法即可。

    AcsCentSci | 大規模G蛋白偶聯嗅覺受體配對數據及其建模

    表2. poc60模型在預測新OR-氣味劑的表現效果一覽。表格來源:AcsCentSci

    模型在其他氣味上的預測

    缺乏氣味數據是模型實用性的主要限制因素。為了探索這一限制,作者通過 poc60 模型在外部測試集上的預測與使用的訓練數據量的學習曲線,證明對于具有 15 個已知 OR 的氣味劑,模型可以獲得有意義的預測。在數據集的244 種氣味劑中,只有 17 種 (7%) 符合此標準,其中 11 種含有芳香或環狀結構。作者嘗試了另外三種含有烷基鏈的氣味劑:檸檬醛、壬醛和壬酸。按照相同的程序,作者在體外測試了所有 11 個預測對這三種氣味中的任何一種以及 8 個陰性對照 OR 有反應的 OR(圖 2B)。體外試驗表明,該模型在壬醛和壬酸上表現良好,但在檸檬醛上表現不佳。

    AcsCentSci | 大規模G蛋白偶聯嗅覺受體配對數據及其建模

    圖2. 機器學習模型預測的OR-氣味劑響應對的體外評價結果。圖片來源:AcsCentSci

    模型的泛化能力

    作者評估了 poc60 模型在所有外部測試集數據上的泛化效果。五折交叉驗證中,各折的命中率在 0.39-0.46之間,MCC 為 0.32-0.34。測試集中含有更加多樣的OR和大量陰性對照的OR,Hana3A 細胞的 OR-氣味篩選命中率低于 0.1。由于許多 OR 不能在異源細胞的膜上表達,因此作者難以估計ORs 對各種氣味劑的一般反應率。作者在這些測試中,發現了 63 個新的 OR-氣味劑對,涵蓋了29 個 OR(見圖 2C)。

    該模型的特點在于具有較好的泛化能力。雖然外部測試集中的 95 個 ORs 中有 56 個是“新的”,模型仍然顯示出良好的預測性。作者將 7 種氣味劑從訓練集中一一排除,重新訓練模型,并在僅包含排除氣味劑的測試集上計算性能指標,展示了對環狀氣味劑、苯乙酮、R-香芹酮和 4-色滿酮的預測性(表 S8)。新氣味劑的應用目前受到缺乏訓練數據的限制,但是該模型特別適用于沒有訓練數據的新 OR。

    AcsCentSci | 大規模G蛋白偶聯嗅覺受體配對數據及其建模

    表S8. Poc60模型在“新”氣味劑上的表現。表格來源:AcsCentSci

    ?

    AcsCentSci | 大規模G蛋白偶聯嗅覺受體配對數據及其建模

    圖3. 最佳響應模型中的殘基位置分布圖。圖片來源:AcsCentSci

    總結

    本文展示了如何從OR和氣味劑的配對樣本出發,結合口袋周圍的60個殘基,預測OR對氣味反應的變化。作者使用了不到20%的殘基序列即可完成預測反應。在這個過程中,作者發現了保守序列附近四個關鍵的殘基。建立的模型優于使用完整序列建立的模型。

    OR配體的分子建??梢栽黾优潴w的信息,降低PCM模型的難度。后期研究者可以添加新的OR-氣味劑樣本改善模型效果。作者提出的建模方案主要側重OR的結合區域序列的關鍵殘基分析,它可以繞過高分辨結構和全序列比對的難題?;谌斯ず蜋C器學習模型的特征選擇則可以增強模型在稀疏數據集上的表現。如果將模型與定點突變等手段相結合,科研人員有望分析出OR特定功能與序列的關系。

    參考文獻

    Xiaojing Cong, Wenwen Ren, Jody Pacalon, Rui Xu, Lun Xu, Xuewen Li, Claire A. de March, Hiroaki Matsunami, Hongmeng Yu, Yiqun Yu, and Jéro?me Golebiowski. Large-Scale G Protein-Coupled Olfactory Receptor?Ligand Pairing, ACS Cent. Sci., 2022, XXXX, XXX, XXX-XXX.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放