Sci.Adv.:晶體圖注意力網絡用于預測穩定材料
一、導讀
機器學習方法在材料科學和固態物理中發揮了越來越大的作用。與密度泛函理論(DFT)等傳統方法相比,機器學習方法所需的計算時間要少幾個數量級,預測材料性質的精確性可以以與從頭計算法相媲美。在過去的幾年里,人們開發了各種機器來預測帶隙,硬度,磁轉變溫度等各種物理性質。其中一個性質是決定給定物質穩定性的能量。因此,預測能量值對于尋找新的穩定化合物這一任務至關重要。
尋找新材料的現代理論方法包括掃描晶體結構的整個組成空間,用DFT優化每個晶體,然后將DFT能量與所有可能的分解通道進行比較。二元組合空間很容易用DFT進行預測,且技術已經成熟。然而,有大約105種三元組合,需要大量的化學計算。四元甚至更高的組合用DFT難以解決,但是機器學習卻有希望解決相關問題。高通量搜索的主要和最有效的方法是計算單個原型的所有熱力學穩定性凸包的距離,這一步可以通過訓練特定的機器學習模型大大加快,只需要為每個原型提供單獨的訓練數據。另一種選擇是開發基于組合的模型,這種模型與原型無關,可以確定潛在的穩定成分。然而,它們無法提供任何關于材料晶體結構的信息。
此外,還有大量的信息傳遞網絡(MPNs),它們基于原子位置和組成來預測結構組成和絕對能量。這些網絡通常可以達到很高的精度,但不幸的是,它們需要先驗的晶體結構知識(包括晶格向量和原子位置),而這些知識在搜索新材料時通常是不可用的。
二、成果掠影
德國耶拿弗里德里希-席勒大學和歐洲理論光譜研究所Silvana Botti教授團隊開發了一個超越上述所有方法的用于預測穩定材料的模型,該模型基于組合物和通用結構原型來預測到凸包的距離,而不需要精確的晶體結構知識。
全文從開發的模型和積累的數據集開始描述,通過詳細研究鈣鈦礦的第四系族來展示模型的強度,得到結果,并在材料和方法中討論了工作的細節。
相關研究工作以“Crystal graph attention networks for the prediction of stable materials
”為題發表在國際頂級期刊Sci.Adv.上。
三、核心創新
用于研究晶體結構的圖神經網絡通常使用原子位置和原子種類作為輸入。但由于在預測新材料時這些信息是不可用(因為精確的幾何信息是未知的)。作者通過用圖距離的嵌入代替精確的鍵距離來規避這個問題,使得文章中的網絡可以直接應用于基于成分和晶體結構原型的高通量研究,而無需使用松弛結構作為輸入。作者積累了一個超過200萬密度泛函計算的晶體數據集,具有一致的計算參數,并且將得到的模型應用于1500萬個成分為ABCD2的四方鈣鈦礦的高通量搜索。結果確定了數千種潛在的穩定化合物,并證明用遷移學習改進后可以將所需的訓練數據減少50%。
四、數據概覽
圖1 晶體結構轉化為圖形。? 2023 AAAS
晶體結構是混合鈣鈦礦,考慮五個最近的鄰居。其中藍色邊代表第一鄰居,黑色邊代表第二鄰居,綠色邊代表第三鄰居。在消息傳遞步驟中,每個單獨的邊和頂點嵌入都基于其鄰域進行更新。
圖2 描述創建數據集的工作流和產生的能量分布的模式。? 2023 AAAS
AFLOW計算270萬次,材料項目計算14萬次,組內積累計算130萬次,最終得到209萬個數據點(其中AFLOW計算96萬次,材料項目計算0.10萬次,組內數據計算102萬次)。右邊顯示了最終數據集的凸包的距離的直方圖。
圖3 到凸包的距離分布。? 2023 AAAS
橙色表示大部分穩定或接近穩定的化合物,這些化合物是由化學性質相似的元素取代而成的穩定結構。具有所有成分的高通量研究顯示為藍色/紅色。機器學習(ML)引導的高通量研究顯示綠色。
圖4 正確預測多態性之間相對穩定性的百分比與比較多態性之間能量的最小差異。? 2023 AAAS
主圖顯示了正確預測的多態性之間的相對穩定性的百分比,作為比較多態性之間能量的最小差異的函數。插圖:顯示了具有一定數量的多晶型的化學成分的分布。該數據包括在測試集中至少出現兩次的所有組合。
圖5 測試MAE與訓練集中系統數量的關系。? 2023 AAAS
顯示了混合鈣鈦礦測試集的MAE,依賴于晶體圖注意網絡和3D ElemNet模型的混合鈣鈦礦數量。
圖6 包含每個元素結構的MAE。? 2023 AAAS
在包含每種化學元素的測試集中混合鈣鈦礦的MAE。
五、成果啟示
作者開發了一個新的機器學習模型,以組成和結構原型為基礎預測材料的能量。與以前的方法相比,該模型輸入特征不需要精確的幾何知識,因此可以用于基于DFT的高通量方法,加速新材料的發現。我們的機器依賴于晶體圖注意力神經網絡,在消息傳遞步驟中,每個獨立的邊和頂點嵌入都基于其鄰域進行更新。為了訓練這臺機器,作者編譯并管理了一個超過200萬密度泛函計算的大型數據集。這些數據包括來自在線數據庫的數據點和自己的計算。盡管這個數據集的規模很大,但由于許多計算都是針對相對較少的不同晶體原型,因此這個數據集略有偏向。
為了避免這個問題,作者還提出了一種遷移學習方法,通用目標模型被重新訓練為特定的晶體結構。通過對第四系鈣鈦礦進行實驗,表明遷移學習可以將模型的訓練速度提高兩倍。通過從訓練中忽略含釩化合物,作者還表明該網絡可以可靠地外推到周期表的未知區域。
最后,用該訓練模型來預測穩定的第四系鈣鈦礦,然后用DFT驗證了預測。事實證明,有超過2萬種材料有很好的機會被實驗合成。這些大多是倒置的鈣鈦礦,在八面體的中心有氫、碳或氮,在八面體的頂點有兩種金屬合金化。綜上所述,這種模型結合遷移學習技術將使人們在尋找新的穩定晶體化合物方向探索更廣闊的化學空間。
原文鏈接:https://www.science.org/doi/10.1126/sciadv.abi7948
本文由霧起供稿。
小編,這不是SCIENCE ADVANCES嗎?