

通過掃描探針顯微鏡(SPM)來對手性分子納米結構成像的技術備受關注。本文采用的機器視覺模型能識別SPM圖中的手性模式并在兩個超分子組成的分子SPM圖中得到驗證。
背景介紹
掃描探針顯微鏡(SPM),包括掃描隧道顯微鏡(STM)和原子力顯微鏡(AFM),被廣泛用于表征納米材料及分子的結構和電子特性。利用SPM研究分子結構的手性是熱門的研究方向。然而,識別SPM圖中的大量分子手性通常事倍功半,費時易錯。用傳統機器視覺算法識別SPM圖的主要缺點是對不同的分子沒有通用性的模型和參數且獲得的SPM圖的質量和分辨率也可能存在顯著差異。新加坡國立大學的王笑楠和Jiong Lu團隊聯合開發的深度學習機器視覺算法,結合數據選擇方法和數據增強技術,通過基于區域的卷積神經網絡(Faster R-CNN)進行高度準確的分子檢測和分類,一個分子系統只需要一張SPM圖。
主要內容
數據集選用星形六二甲基苯基苯 (HPB)?和氟取代的六二甲基苯基苯 (F-HPB)?分子。由于二甲基苯環之間的空間位阻,HPB 和 F-HPB 分子均采用高度非平面構型。二甲基苯環吸附在 Ag(111)?上時,空間取向呈現L或R對映體構型。HPB 和 F-HPB 的手性不同。幾乎無法辨別的對比度變化和分子的模糊邊界使得單個分子的檢測和分類成為一大難題,因此 HPB 和 F-HPB 的手性識別是極好的測試自動化分子檢測模型效果的數據。
我們通過數據選擇、數據增強、模型訓練和專業知識四個模塊來識別兩個分子的手性(如圖1所示)。數據選擇采用t-SNE算法進行數據質量評級和可視化,選取高質量的圖像用于訓練。數據增強使用STM圖生成一個更大的數據集;模型訓練模塊則以FasterR-CNN作為核心模型(如圖2所示),包括了特征提取、分子檢測和分子分類三個階段。第四個模塊是專業知識,在低質量的STM圖上,利用條件隨機場增強模型性能,降低誤報率并提高識別率。完成模型訓練階段后,整個流程可以自動處理包含數百個手性分子不同分辨率的STM圖,每個分子都由其邊界框和相應的手性類別標記,如圖2所示。

圖1. 自動化手性分子識別與分類的總體流程圖。圖片來源:JACS

圖2. 模型訓練的各模塊的示意圖。圖片來源:JACS
Faster R-CNN 在一組1000張STM圖上訓練,這些圖由大約 50 個分子的高質量STM圖數據增強生成,如圖 3C、D 所示。圖 3A 顯示了訓練完成后 Faster R-CNN 模型指標,這些模型應用于分析 F-HPB 和 HPB 高分辨率 STM 圖。對于 F-HPB 系統,一張包含53個獨立分子的高質量 STM 圖生成的數據集,模型訓練可以實現85.3% 的平均精度 (AP) 和 84.8% 的平均召回率 (AR),如圖 3E-J 所示,其中識別出的分子被代表手性類型的圓圈覆蓋。圖 3E、F 顯示高分辨率 STM 圖的識別率異常高。作者發現在低分辨率的 STM 圖中,F-HPB 和 HPB 系統的識別率分別為 95.1% 和 97.6%。圖 3I、J中, Faster R-CNN 模型仍然可以準確解碼低分辨率圖像中的分子模式。圖 3B 中的敏感性測試結果表明 Faster R-CNN 模型的 AP 和 AR 準確性對不同的分子模式不敏感。作者還對稀疏堆積分子系統的 STM 圖進行了類似的測試。該系統的模型性能基于沒有手性分類步驟的分子檢測精度進行評估, AP 為 86.8%,AR 為 87.3%。

圖3. 模型表現與穩健性分析。圖片來源:JACS
STM 圖的質量對模型的訓練至關重要,模型在低質量的STM 圖中很難學習L和 R 的區別。作者從STM 圖中裁剪出感興趣的目標分子的圖像并用 t-SNE降維。如圖 4A、B 所示,F-HPB 和 HPB 系統的STM 圖可以分為兩個邊界清晰的簇,它們具有不同的手性。對于稀疏堆積的分子系統,圖 4C 的 t-SNE 結果表明目標分子與其他分子存在較大的差異,在該 STM 圖上訓練的 Faster RCNN 模型不可能實現分子手性分類任務。
作者用53 個分子的高質量 STM 圖生成四個數據集。對四個數據集應用的增強技術復雜性遞增,如圖 4E 所示,模型的效果隨著數據增強的復雜性增加而提高。在增強復雜度為1 的數據集上訓練的模型在低分辨率圖像上僅能識別 1.4% 的分子,但是在增強復雜度為 4 的訓練集上訓練時,識別率增加至 95.1%。
Faster R-CNN 的效果與STM 圖中獨立分子的數量密切相關(如圖 4D所示)。我們從6個含有不同分子數量的數據集上采用相同的數據增強技術生成新的數據集,并分別訓練模型。結果表明,模型的效果隨著訓練集中使用的獨立分子的數量的增加而提高。每個手性包含超過 20 個分子的STM 圖像就可以訓練所需的 Faster R-CNN 模型,AP為 82.8% ,AR為 84.9%。?

圖4. 訓練樣本的選取與數據增強的效果。圖片來源:JACS
類別平衡對模型具有顯著影響。如果每個類的分布差異很大,模型在對低比例樣本的特定目標分類時的準確率會很低。在不平衡數據集上訓練的模型指標如圖 4F 所示。從圖中可以看出,如果 (R) F-HPB 分子在訓練集中較少存在,則該模型無法高精度地檢測和分類 STM 圖中的 (R) F-HPB 分子。
作者還對文獻報道過的兩個同類模型NCC和Mask R-CNN用F-HPB 數據集與Faster R-CNN做了比較。Faster R-CNN 方法在高分辨率和低分辨率 STM 圖像上分別實現了 100% 和 95.1% 的識別率,但 NCC 方法在這兩個 STM 圖像中僅檢測到 72.7% 和 49.7% 的分子。圖 5A 的結果表明,Faster R-CNN 在該實驗中比Mask R-CNN30取得了更好的效果,具有更高的識別率。

圖5. 三種檢測識別的算法比較。圖片來源:JACS
CRF 濾波器能重新評估具有缺陷的“非理想”STM 圖,能進一步提高整體模型性能。過濾器接收來自 Faster R-CNN 模型的預測,并為每個分子生成一組分布概率,當觀察到它的鄰近分子處于特定條件時它具有相應的手性。CRF 過濾器能夠學習圖像內局部分子的手性,隨后將用于識別由 Faster R-CNN 模型給出的不確定的預測,并根據它們的相鄰分子的手性校正,以匹配圖像上顯示的分子模式。圖 6C、D 提供了 HPB 系統的低分辨率 STM 圖像的預測結果,其中包含應用 CRF 前后對比。圖 6I 提供了本研究中在兩個系統上應用 CRF過濾器前后的平均識別率和誤報率。這些結果表明在對缺陷圖像應用 CRF 過濾器后,識別率增加,誤報降低。

圖6. CRF過濾器。圖片來源:JACS
小結
在 STM 實驗中,深度學習框架支持高效自動化分析工具,單個 STM 圖像的識別率可以超過 90%,但應用時仍然需要為不同的任務和分子系統訓練單獨的模型。如果具有大量通用的訓練數據,有望訓練出一個可以應用于 SPM 成像的不同任務和分子系統的通用模型。
參考文獻
Jiali Li, Mykola Telychko, Jun Yin, Yixin Zhu, Guangwu Li, Shaotang Song, Haitao Yang, Jing Li, Jishan Wu, Jiong Lu, and Xiaonan Wang, Machine Vision Automated Chiral Molecule Detection and Classification in Molecular Imaging, Journal of the American Chemical Society, 2021, 143, 10177-10188.