北大深圳研究生院新材料學院潘鋒/李舜寧AI4S進展:基于人工智能的物質結構解析算法和模型構建


背景介紹

使用人工智能(AI)技術實現材料結構解析的自動化是物質結構和新材料研究的一種新范式。北京大學深圳研究生院新材料學院潘鋒教授團隊基于圖論數學工具,開發了一套以結構基元及其連接關系與相互作用為要素的材料基因挖掘方法,成功構建了包含60萬余種獨立晶體結構的材料學數據庫(Sci China Chem, 2019, 8, 982; Natl Sci Rev, 2022, 9, nwac028)。根據該數據庫可以生成材料的各類模擬圖譜,包括X射線衍射(XRD)圖案、中子衍射圖案、紅外/拉曼光譜等等。這些數據為推動材料表征領域的AI輔助科學(AI4S)研究提供了重要基礎。

對于無機化合物,X射線衍射(XRD)分析在物質結構解析的過程中起到了重要作用。傳統的XRD分析流程中,研究人員在面對未知材料時如果無法從數據庫中找到其物相的晶體結構,則需要借用相近的結構模型,通過對該模型進行調整以獲得實測物質的晶體結構。該過程中所借用的結構模型對應了未知材料的一種可能的結構類型。對未知材料結構類型的判別一般依賴于專家知識,因而采用機器學習方法實現該過程的自動化仍十分困難。其關鍵在于無機材料的結構類型種類繁多,導致了訓練得到的深度學習分類模型往往難以獲得較高精度。

 

成果掠影

近日,北京大學深圳研究生院新材料學院潘鋒/李舜寧團隊基于所構建的材料數據庫,設計了一個基于殘差神經網絡的深度學習模型CrySTINet該模型能夠從實驗表征得到的XRD數據中準確識別出未知材料的結構類型,為自動化XRD分析提供了新的途徑。相關研究成果以“Crystal Structure Assignment for Unknown Compounds from X?ray Diffraction Patterns with Deep Learning”為題,發表于《Journal of the American Chemical Society》(J. Am. Chem. Soc. 2024,?DOI: 10.1021/jacs.3c11852)。

 

該工作中,研究團隊設計了一個由多個子模型組合而成的模型框架,每個子模型通過殘差神經網絡對特定數量的結構類型進行判別,通過聯合多個子模型的判別結果可以給出未知材料的最可能結構類型。在該框架下,CrySTINet可以擴展至新的結構類型而無需對已有子模型進行重新訓練,從而使模型能夠廣泛應用到各類無機材料的研究之中。

研究團隊選用了100種最常見的結構類型的模擬XRD數據來訓練CrySTINet的初始子模型。這一共包含了63963種無機化合物,覆蓋了元素周期表中的幾乎所有元素。模型在模擬數據集上的準確率達到了80.0%,并且在實驗數據集中也擁有同樣高的準確率。研究團隊進一步使用了梯度加權類激活映射(Grad-CAM)來解釋CrySTINet的分類決策。其結果表明,在每個子模型中,神經網絡會將注意力集中至特定衍射角區間以提升子模型中相應結構類型的分類準確率,但這會導致子模型在面對某些分布外數據時容易給出過高的置信度值。因此,在只依靠神經網絡輸出的置信度值作為結構類型判定依據時,CrySTINet的準確度較低,只有65.7%。而在判定依據中引入與相應結構類型平均XRD圖譜對比得到的余弦相似度值后,則可以補充XRD數據的全局特征信息,從而避免模型陷入對特征峰的過度依賴而導致的誤判。以該置信度值與余弦相似度值組合構造的參數作為判定依據,可使CrySTINet的準確度最終提升至80.0%。

圖1?基于AI的XRD結構解析方法。

圖2?模型在不同材料結構類型上的準確率。

圖3?使用Grad-CAM解釋模型的分類決策。

 

成果啟示

本工作提出了一種由多個子模型聯合判別材料結構類型的深度學習框架,能夠使該XRD解析工具方便地拓展至新的結構類型且同時保持針對已有類型的預測精度。該工具不受材料成分的限制,且可以分析無序的固溶體材料,因而有望在金屬材料、鈣鈦礦材料、鋰電池材料等多個領域中進行應用。本研究所提出的框架可以拓展至中子衍射和紅外/拉曼等圖譜的自動化分析工具的開發中,從而為實現自驅動實驗室(self-driving laboratories)提供關鍵的研究基礎。

全文鏈接:https://pubs.acs.org/doi/10.1021/jacs.3c11852

分享到