Nature系列串講:機器學習 —— 研究材料科學的新興利器


2016-2017年,AlphaGo橫掃全世界圍棋高手,充分讓人們領略到人工智能技術的巨大發展潛力。目前,機器學習已廣泛應用于計算機視覺、自然語言處理、數據挖掘、機器人應用等諸多領域,感受到機器學習的強大魅力,材料學家自然也不能錯過這個高端大氣上檔次的神兵利器。事實上,目前機器學習已被研究人員用來進行材料的研究和設計。本文梳理了近幾年Nature系列期刊上機器學習與材料科學的聯姻,且看機器學習如何在材料領域大顯身手!

1.機器學習篩選電催化劑

僅依靠人力在巨大的材料體系中篩選高效二氧化碳還原反應(CO2RR)和析氫反應(HER)電催化劑極為困難,卡內基梅隆大學的Kevin Tran和Zachary W. Ulissi設計了全自動化的篩選方法,結合機器學習和DFT計算,自動搜索金屬間化合物的各種表面活性位點對CO及H的吸附能,從而預測具備高反應活性的雙金屬電催化劑。他們在31種元素中(包括50%的d區元素和33%的p區元素),篩選出54種合金及相應131種表面位點適用于CO2還原,102種合金及相應258種表面位點適用于HER。(1)

圖 1?機器學習篩選電催化劑流程示意圖

???

作者采用圖1所示的工作流程,使用機器學習模型從無限大的設計空間中預測具有最優活性的金屬間化合物及相應表面活性位點,并通過自動化的DFT算法計算這些位點對CO和H的吸附能(具有最佳吸附能的位點催化活性更高,CO2還原電催化劑最佳CO吸附能為-0.67eV,HER電催化劑最佳H吸附能為-0.27eV),計算所得的數據存入數據集后繼續用于訓練機器學習模型,形成機器學習篩選催化劑-自動DFT計算驗證-機器學習模型再訓練的閉合反饋循環過程,產生的數據庫可以自動連續增長,無需人工干涉。

圖 2?吸附位點“指紋”

該流程的實現依靠以下步驟,其一要生成吸附位點的搜索空間,作者從一個材料數據庫(Material Project)中獲得了1499種金屬間化合物材料,采用pymatgen(Python Materials Genomic,一個穩定的、開源的用于材料分析的Python庫)枚舉每種材料的表面,進一步用三角剖分算法枚舉每個表面上的吸附位點,從而獲得了吸附位點的搜索空間;其二是吸附位點的數值化描述,吸附位點實際是指該位點處的原子排列狀況,因此,作者用吸附位點處原子的原子序數(Z),電負性(c),原子數(CN),該元素與吸附物的中間吸附能(DE)等信息,構建了描述吸附位點的數字“指紋”,用于訓練機器學習模型及預測位點的吸附能。其三是學習模型的選擇和訓練,作者采用TPOT工具(一個python機器學習工具,能夠自動選擇最優模型和參數)來選擇模型,并對該模型預測的最優結合能的表面進行DFT計算驗證,完成了共42785次DFT運算。作者在兩年內不斷訓練該模型,優化了模型預測的準確率,還將模型搜索空間從20種元素增加到31種元素,預測得到了一系列金屬間化合物對CO和H的吸附能,包括19644個位點的CO吸附能及23414個位點的H吸附能,如圖3所示。

圖 3?機器學習優選的雙金屬電催化劑

2.機器學習輔助設計高效有機發光二極管

OLED利用綠、紅和藍色子像素制造所有屏幕上肉眼可見的顏色。但OLED的低穩定性和藍光材料不足等缺點,使得要生產能夠發出藍光的OLED相當困難,目前OLED的制造商主要依靠制造有機金屬錯合物分子,利用銥等貴金屬的磷光加強分子來達成藍光效果。哈佛大學的Aspuru-Guzik團隊希望能夠完全使用有機分子制造OLED,它們開發出機器學習算法,在16億個潛在分子的數據庫中,預測可用于OLED的有機分子,并用預測的分子成功制備性能優異的OLED器件。這種結合理論計算,機器學習,化學制備的研發流程,能夠顯著降低研究成本。(2)

圖 4?機器學習篩選流程圖(左)及量子化學計算依賴樹(右)

作者首先結合機器學習技術和量子化學計算來篩選有機分子,如圖4所示。機器學習方面,先從預先生成的16億個分子中隨機挑選出4萬個候選者,通過TD-DFT模擬計算了它們的kTADF,并以這些計算數據作為訓練集,采用神經網絡模型來訓練機器學習模型,預測所有分子的kTADF。量子化學計算方面,通過計算候選f和DEST來確定最優性能的分子,其中f >0.1且EST< 0.15 eV的分子約有900種, f > 0.05且EST <0.175 eV約有3000種。

結合機器學習和量子化學計算的結果,可以得到將近2500種候選分子,研究人員們在考慮性能、新穎性、合成難度的基礎上投票決定最終用于設計器件的分子。最終合成了如圖5所示的幾種分子,并構筑了相應的器件測試其性能,所得器件EQE最高可達22%。

圖 5?候選分子及構筑地光學器件性能表征

3.機器學習輔助探索晶界結構

晶界結構對功能材料和結構材料的性能有較大影響,在研究晶界處的復雜行為的同時,晶界處的原子結構卻仍是個謎,傳統的HR-TEM實驗觀察很難提供足夠的晶界原子結構信息,而通過理論計算進行原子模擬缺乏穩定優異的建模方法和計算工具,并且只適用于固定原子數和超晶格的體系。美國內華達州立大學、拉斯維加斯大學、斯托尼布魯克大學和加州大學戴維斯分校的研究人員設計出一種基于進化算法和機器學習的方法,可以自動搜索可變原子數和可變單元大小的晶界結構。在機器學習算法幫助下,研究人員揭示了新的晶界結構。(3)

常規的g-surface構建晶界的方法建立在固定原子數的基礎上,因而不能呈現許多具有不同原子密度的低能量結構,無法充分預測真實的界面狀態。而機器學習中的進化搜索算法可通過重排晶核內原子,在邊界處添加和移除原子及改變晶界區域尺度等手段,獲得一些不同的晶界結構配置。以Cu的Σ5(210)[001]晶界為例,采用進化搜索算法可以計算不同(210)晶面原子比例時對應的晶面能,計算結果表明隨(210)原子比例變化,晶界能存在三個最低點,分別對應Kites, Split Kites 及Filled Kites三種晶界結構。此外,對于算法預測的某些晶界結構,存在空穴、間隙原子等缺陷使得預測的晶界能與其理想結構的晶界能差異較大,但實際上這些結構仍對應同一類晶界(上述三種或其他未確定的晶界相),因此,作者計算了這些生成的晶界結構間的相似度,對其進行分類,并通過分類結果揭示了兩類新的晶界結構類別(Split Kite及Extended Kite)。

圖 6?機器學習預測的晶界結構及其分類

???

圖 7 確認的新晶界結構

4.機器學習輔助預測無極材料性能

傳統的材料研發由緩慢且艱難的實驗試錯過程驅動,因此材料科學的重大進展是緩慢而偶然的,且理論上存在10100種材料,也不可能完全通過人工實踐探索所有材料的性能。但如今,材料科學的發展帶來的巨大信息使得結合材料數據庫和機器學習方法驅動材料發現和材料設計并預測材料性能成為可能。北卡羅來納大學的Alexander Tropsha團隊介紹了一種通用的無機晶體材料結構descriptors,可用于機器學習預測材料性能,包括金屬/絕緣體分類,帶隙能量,體積和剪切模量,德拜溫度,熱容量和熱膨脹系數等。(4)

descriptors在機器學習算法中作用至關重大,是影響模型精確性的重要因素之一,但常規的descriptor只用到相關原子的元素符號特征,這樣的descriptor包含的信息有限,應對與材料中復雜化學反應有關的問題時不足以建立足夠準確的模型。而利用原子的物理化學性能信息構建descriptor,包含多方面的原子性能特征,因此能夠較好的應對復雜模型和預測材料獨特的性能。作者構建了一種PLMF (Property-lablled materials fragment) descriptor,包含描述晶體晶胞內原子拓撲特征的“碎片”、標準原子/元素性能特征(如周期表位置、價電子數、電負性、極性等)及晶體形狀、尺寸及對稱性信息,上述信息組合起來,能夠描述每一種獨特的材料。作者用上述descriptor和機器學習方法,成功生成了8個預測模型,包括1個用于判別材料的金屬/絕緣體類別的分類模型,以及可用于預測絕緣體帶隙,體積模量,剪切模量,德拜溫度,恒壓熱容,恒定體積熱容和熱膨脹系數的7個回歸模型,這些模型在預測相應性能時表現優異。

圖 8?PLMF descriptor構造示意圖

圖 9?對8個預測模型的5折交叉驗證

5.利用“失敗實驗”數據預測新材料

新材料的研發是一個充滿挑戰的過程,伴隨著無數次的失敗,但正所謂“失敗是成功之母”,每一次的失敗,也讓研究人員離成功更近一步。哈佛大學的Alexander J. Norquist團隊利用實驗室未成功的水熱反應的數據訓練機器學習模型,并用得到的模型來預測新的反應,所得的模型能夠成功預測新的有機-無機材料的合成條件,合成成功率達89%。(5)

化學領域研究人員發表的文獻通常只包括反應成功的例子,但實際上大量未被報道的失敗實驗同樣包含合成條件相關信息,這些失敗實驗包含的信息對預測反應成功和失敗的邊界條件也有重大價值。作者收集了大量實驗室失敗反應的數據,以反應物物理化學性能(如分子質量,元素周期表位置等)及反應條件(如反應物配比、反應溫度、環境pH等)為特征,訓練了一個SVM模型,該模型預測其測試集的反應結果時,準確率可達78%,對釩-亞硒酸鹽體系反應的預測準確率達79%。通過將該SVM模型轉換為方便人類理解的決策樹模型,還能進一步認識反應相關機理,從而指導新的合成反應。

圖 10模板化釩 - 亞硒酸鹽晶體的合成實驗結果

在已有的實驗數據和理論基礎支撐下,結合機器學習技術,利用人工智能輔助材料設計,合成,表征及應用研究將極大促進材料領域科學家的研究效率,幫助材料科學快速發展。

參考文獻

1.Tran K, Ulissi ZW. Active learning across intermetallics to guide discovery of electrocatalysts for CO2reduction and H2evolution. Nature Catalysis. 2018;1(9):696-703.

2.Gomez-Bombarelli R, Aguilera-Iparraguirre J, Hirzel TD, Duvenaud D, Maclaurin D, Blood-Forsythe MA, et al. Design of efficient molecular organic light-emitting diodes by a high-throughput virtual screening and experimental approach. Nat Mater. 2016;15(10):1120-7.

3.Zhu Q, Samanta A, Li B, E.Rudd R, Frolov T. Predicting phase behavior of grain boundaries with evolutionary search and machine learning. Nature Communications. 2018;9.

4.Isayev O, Oses C, Toher C, Gossett E, Curtarolo S, Tropsha A. Universal fragment descriptors for predicting properties of inorganic crystals. Nat Commun. 2017;8:15679.

5.Raccuglia P, Elbert KC, Adler PD, Falk C, Wenny MB, Mollo A, et al. Machine-learning-assisted materials discovery using failed experiments. Nature. 2016;533(7601):73-6.

本文系 Nano_RC 供稿。

歡迎大家到材料人宣傳科技成果并對文獻進行深入解讀,投稿郵箱: tougao@cailiaoren.com.

投稿以及內容合作可加編輯微信:cailiaorenVIP.

分享到