麻省理工JACS Au: 機器學習校正DFT計算數據


【研究背景】

材料計算模擬已經成為材料研究的重要組成部分。然而,現有的材料計算模擬方法很難兼顧計算速度與準確度:計算速度較快的方法得到的結果往往與實驗測量有較大的誤差,而計算誤差較小的方法往往速度較慢,以至于無法大規模應用。因此,現有的大型計算材料數據庫中的數據,經常與實驗測量數據之間存在不可忽視的誤差。為了緩解這一問題,近年來許多學者提出了各種不同的對于計算數據的校正方案,但是這些現有的校正方案一方面仍存在較大誤差,另一方面往往只能用于特定材料體系,很難作用于所有材料。

【成果簡介】

為了克服這一問題,美國麻省理工學院材料科學與工程系Jeffrey Grossman課題組提出使用機器學習方法來校正密度泛函理論(DFT)的計算數據。在這項工作中,作者以材料形成焓為例,研究遷移學習(transfer learning)和多精度機器學習(multifidelity learning)對于校正材料形成焓預測的效果。作者發現,機器學習方法校正后的形成焓預測數據(基于PBE泛函)與實驗數據的誤差僅為~0.06 eV/atom, 顯著低于傳統修正方法修正后的GGA(PBE)泛函的計算數據(~0.1 eV/atom)和meta-GGA泛函的計算數據(0.08 ~ 0.1 eV/atom)。以此為基礎,作者使用機器學習方法校正了Materials Project(MP)數據庫中所有基于PBE泛函的形成焓預測,重新審視了MP數據庫中記錄的材料的穩定性預測,并發現了一系列在MP 數據庫中穩定性可能被低估了的材料。此外,利用機器學習的方法,作者也揭示了DFT(PBE泛函)預測形成焓時誤差出現的規律。此工作以標題“Calibrating DFT formation enthalpy calculations by multifidelity machine learning”發表在JACS Au上,并入選ACS Editors’ Choice. (https://pubs.acs.org/doi/10.1021/jacsau.2c00235)

【圖文導讀】

圖一:本文中使用的機器學習策略,即遷移學習和多精度機器學習。

本文研究兩種機器學習策略,遷移學習(圖一a)和多精度機器學習(圖一b),對于校正DFT (PBE)形成焓預測的效果。對于遷移學習,作者首先用DFT數據集訓練神經網絡,再把訓練好的神經網絡遷移以初始化一個新的神經網絡,并用實驗數據集訓練被遷移的神經網絡,最后用最終的神經網絡預測材料的“實驗“形成焓。對于多精度機器學習,作者首先建立實驗與DFT計算之間的差值數據集,用差值來訓練機器學習模型。在訓練中,DFT計算數據亦可作為輸入特征之一參與訓練。訓練完成后,機器學模型可以預測材料形成焓的實驗與DFT計算數據之間的差值,進而實現對DFT計算數據的校正。本文用到了大約1000個實驗形成焓數據,更多有關數據集的信息請參考原文。

圖二:不同機器學習模型之間的比較。

本文主要使用三種模型來實現遷移學習與多精度機器學習:隨機森林(RF),ROOST和CGCNN。隨機森林是基于材料描述符的經典機器學習方法,ROOST是基于材料的成分的深度學習方法,而CGCNN是基于材料成分與結構的深度學習方法。基于這三種模型,作者測試了一系列策略:直接學習實驗值(exp.),學習差值(diff.),把DFT數據作為特征輸入模型(dft.),以及遷移學習(trans.)。根據圖二,作者發現,對于現有的形成焓數據集而言,最優的模型與策略是使用隨機森林模型來學習實驗與DFT之間的差值,同時把DFT數據作為輸入特征。與MP數據庫提供的形成焓預測值相比(基于PBE泛函的線性修正),本文中的最優模型可降低大約40%誤差。(0.06 eV/atom vs. 0.10 eV/atom)。更多有關機器學習方法的討論請參見原文。

圖三:重新評估材料穩定性。

基于更精確的形成焓預測,作者希望重新評估材料的穩定性。首先,作者需要驗證,更精確的形成焓預測是否能夠更準確地判斷材料的相對穩定性。如圖三a所示,作者比較機器學習校正的形成焓與MP數據庫中的形成焓,對于計算材料之間的相對形成焓的誤差。作者發現,機器學習校正的形成焓能夠更加準確地比較兩個材料之間的相對穩定性。基于此,作者利用機器學習校正的形成焓重新計算了MP數據庫中所有材料的energy above hull。如圖三b左上角所示,作者發現有約800個材料在MP提供的energy above hull下不穩定,而在機器學習校正的形成焓導出的energy above hull下穩定。在這800個材料中,有將近100個材料已經被實驗所合成。一個典型的例子是Mn-Sn合金體系。在MP數據庫中,Mn-Sn之間沒有穩定的金屬間化合物,而實驗上有一系列的穩定金屬間化合物,例如Mn3Sn, Mn3Sn2 和 MnSn2。根據本文提供的機器學習模型,這些金屬間化合物是穩定的,從而體現了本文的應用價值之一,既更準確的形成焓預測可以更好地判斷材料穩定性。

圖四:材料特征對于校正結果的影響。

在校正形成焓的同時,機器學習模型也可以用來揭示DFT(PBE) 計算數值偏離實驗測量值的規律。如圖四所示,作者發現,材料中S, O, N含量越高,DFT傾向于低估(more negative,more stable)材料的形成焓,而材料中Sn, Mn, P, I, Te, Ba, Al的含量越高,DFT傾向于高估材料的形成焓。對于元素周期表右側的非金屬元素而言,右上角的元素往往使DFT低估材料的形成焓,而左下角的元素往往使DFT高估材料的形成焓。更多關于DFT偏離實驗值的趨勢的討論請參考原文。

分享到