AI指導材料開發時代來臨——南京大學劉建國教授JMCA封面:標準化機器學習研究范式加速氫燃料電池膜電極優化???


論文相關信息

第一作者(或者共同第一作者):????丁睿??????????

通訊作者(或者共同通訊作者):?????李佳博士;劉建國教授?????????

通訊單位:????南京大學?????????????

論文DOI:??10.1039/D0TA12571G??

全文速覽

結合人工智能(AI)開展研發現已成為如今材料研究領域的新興趨勢,因為機器學習能夠基于大數據進行準確的決策和預測從而顯著縮短材料開發周期。但是,這一交叉領域的研究仍處于起步階段,缺乏標準的研究范式將不利于未來的發展。因此,提出了標準的機器學習工作流程,其模塊包括數據庫構建,特征篩選,決策建模,回歸建模和極值優化并與研究人員在AI指導下進行的實驗探索構成了完整的新型材料研發循環。以在質子交換膜燃料電池(PEMFC)中應用的膜電極組件(MEA)能的優化為例,成功地開創了可數字化的勞動密集性研究領域如何從機器學習中受益的先例。

背景介紹

為了將PEMFC作為新一代的清潔能源裝置普及,提高其核心部件MEA的輸出功率是至關重要的。然而MEA的性能與許多因素有關:從催化劑的原始制備方法和化學組成到MEA的器件合成工藝,最后到燃料電池的實際工作條件。整個系統在優化時需要同時考慮到多個層面的物理化學過程,例如表面催化,材料傳輸和熱電耦合。因此,研究人員不僅要面臨優化實驗中中需要考慮的參數過于龐雜,通過量子力學或有限元方法對局部過程進行粗糙模擬獲得的模型準確性和適用范圍也十分有限。另一方面,正是由于對MEA評估的參數非常復雜,導致即使是最有經驗的研究者也難以基于寶貴的實驗數據來建立準確的數據驅動的高維模型以有效地關聯諸多變量以提出下一步優化的參數建議。因此,停留在傳統的試錯(trail-and-error)范式使得MEA的性能優化成本高昂且低效,該領域迫切需要引入一種革命性的新范式提升效率。

本文亮點

AI機器學習由于其卓絕的大數據挖掘以及在部分任務上能夠超出領域專家潛力已經而在近年廣受關注。將AI引入材料工程的科學問題上已有少部分材料學者進行交叉的先例,然而這些研究普遍面臨訓練數據過少,計算資源有限,參數信息于范圍以及訓練數據可靠程度差,最終導致獲得的機器學習模型適用性和可靠性并不令人滿意。除此之外,大部分迄今為止將機器學習引入材料研發的研究工作通常僅向讀者展示使用少于10種機器學習算法構建的大數據模型。這導致其應用算法的數量非常有限,從而遺漏了許多可能性。實際上,對于不同的數據集與任務類型,最適宜算法的種類和超參數設置往往是不一樣的。因此,使用機器學習算法優化目標任務時,應該從多種候選算法中進行建模結果比較從而選擇最合適的方法。實際上,在AI領域,這種針對算法的評估和比較是長期以來用來解決問題的通用做法,例如著名的Kaggle競賽。實驗科學可能會受益于AI,同時也是它的基石。但是目前已有的相關研究仍然缺乏合理的統一標準化方法將AI進行指導實驗設計的潛力充分開發。

因此,南京大學劉建國教授團隊創建了一套標準的機器學習工作流,其中包含四個處理模塊與多達35種機器學習算法和三種高級優化算法。同時以質子交換膜燃料電池膜電極為應用領域,構建了迄今為止該領域最大的基于實際實驗的訓練數據庫,包含了過去17年間發表的295篇相關研究論文中的918條實驗數據,每條實驗數據囊括了從制備方法,理化性質到實驗條件等66個實驗參數以及其對應的性能數據。特征篩選模塊首先通過特征排序方法篩選出了27個核心特征作為后續決策與回歸建模輸入參數,決策樹與apriori關聯規則挖掘算法則提供了設計高性能膜電極的可視化路徑。回歸建模中,人工神經網絡從33種算法中優勝并能夠達成對測試集中極化曲線和最大功率密度的精準預測(R2=0.9482)。最后,以回歸建模中獲得的高精度預測模型作為目標優化函數,機制優化模塊能夠直接根據已有實驗條件為研究者提供可能獲得最優性能的參數建議,從而構成完整的AI輔助研發循環。

相關成果以“Applying machine learning to boost the development of high-performance membrane electrode assembly for proton exchange membrane fuel cells”為題,于2021年2月8日在《材料化學學報A》(Journal of Materials Chemistry A)上作為封面文章(inside cover)發表。本文第一作者為南京大學現代工程與應用科學學院博士生丁睿,通訊作者為李佳副研究員與劉建國教授,南京大學為唯一通訊單位,機器學習計算任務受南京大學人工微結構科學與技術協同創新中心高性能計算中心支持。

圖1 標準化機器學習工作流程示意圖

圖文解析

模塊一:特征篩選

圖2 a) XGboost 算法對66個初始實驗參數的特征排序結果示意圖;b)篩選并保留前27個核心特征后的特征排序結果示意圖; c)使用隨機森林(RF)與XGboost 進行特征篩選后的測試集預測性能表現變化柱狀示意圖

為了減少過擬合風險同時減少計算量和模型部署成本,首先對記錄的復雜的特征進行初步篩選清洗是必要的。為此,特征篩選模塊利用XGboost算法構建分類模型并對超參數優化后的模型進行特征排序(分類輸出指標為最大功率密度,以美國能源部DOE設定的2020指標為參考進行正例/負例標注)。由圖2a可見,陰極鉑載量,催化劑質量活性、催化劑金屬百分比與施加的背壓被列為最重要的五個實驗參數,這與長久以來同領域專家達成的見解非常吻合。除此之外,通過對實驗變量進行分類,可以發現以紅色(膜電極工程參數)與黑色(氧還原催化劑理化性質)標注的特征相對于藍色(氧還原催化劑合成參數)標注的特征普遍更加重要,這一排序結果可以為研究人員提供基于大數據的的研發重點參考。除此之外,將重要性程度較低的特征摒除后保留的前27個重要特征再次進行XGboost訓練后,獲得的模型特征排序如圖2b所示,可以發現AI對這27個特征的重要性排名認知基本沒有發生變化,同時如圖2c所示,改圖展示了對應于圖2a的使用全部66個特征信息進行建模和對應于圖2b的僅使用前27名重要的核心特征信息進行建模在測試集上的僅僅在分類預測準確率和召回率上下降了1個百分點(96%至95%)。同時當將算法更改為另一種常見的集成算法隨機森林來測試這一特征工程的有效性,也得到了類似的良好結果,這證明了模塊一中的特征篩選在極大減少后續建模計算量時,保留了有效信息。

模塊二:決策建模

圖3 a) 使用核心特征進行決策樹建模針對如何獲得高最大功率密度的可視化決策路徑示意圖;b)與c)不同頻繁項集(輸入特征與的高性能同時出現)的提升值與頻率隨著分類標準(輸出判定為高性能正例)變化的示意圖

在模塊一篩選出核心特征后,可通過決策建模為研發人員直接提供如何獲得目標高性能基于大數據的決策建議。如圖3a所示,決策樹是最為高效與精確的模型之一,在高測試集分類準確率(88%)的前提下,決策樹模型智能地提出了將質子交換膜厚度作為根節點,同時在后續節點中針對不同質量分數與質量活性的催化劑以及不同膜電極載量要求等各種情況下如何進行個性化優化提供了決策邊界和建議。例如,決策樹在沒有人工干涉的情況,基于大數據訓練提出了239.95mA mg-1?與 436.5 mA mg-1 的質量活性決策邊界,分別與常見市售的商業碳載鉑氧還原催化劑和DOE指定的性能指標不謀而合。此外,從一些次要節點中,也可以看到決策樹推薦高電化學活性面積(>107.5m2?g-1)與高金屬載量的催化劑(>42.25 wt. %)的研發。在運用另一種可視化決策方法,apriori關聯規則挖掘方法時,則可以獲得一些其他建議,如圖3b圖3c所示,除類似的質子交換膜膜厚獲得了最高的提升值以外(代表對獲得高最大功率的概率起到更大正面影響),較新的催化劑直接涂覆于質子交換膜(CCM)方法也被認為起到了重要作用。同時其他諸如熱壓時長壓力和溫度等一般依靠經驗進行優化的工藝變量,也通過關聯規則挖掘算法獲得了最佳值參考范圍。這也意味著一些難以納入理論建模的實驗參數變量可以通過數據驅動機器學習建模的方式進行優化。

模塊三:決策建模

圖4 a) 34種不同機器學習算法在進行超參數網格優化后預測最大功率密度建模在測試集上的性能表現(均方誤差RMSE與相關系數R2); b)最優人工神經網絡預測最大功率密度在測試集上的預測性能(橫坐標)與實際性能(縱坐標)的模型計算結果散點示意圖

作為擁有復雜參數與高成本實驗的膜電極體系,使用大數據直接構建數據驅動模型來預測實驗輸入的性能輸出能夠為研發者提供參考,并極大精簡研發所需試錯成本。通過廣泛考察從基礎線性回歸(圖4a中綠色菱形)到傳統機器學習算法(圖4a中橙色倒三角),集成算法(圖4a中藍色方塊)再到深度學習(圖4a中紅色五角星)的34種不同機器學習算法在測試集上的性能極限(這一過程通過網格化超參數優化實現,遍歷并訓練了超過20萬個超參數組合),可以發現在這一回歸任務中,集成算法與深度學習的均方誤差較低,相關系數更大,因此最表現最為優異。這是由于集成算法優異的魯棒性與深度學習強大的高維擬合能力導致的。如圖4b所示,通過超參數優化后的最佳人工神經網絡(ANN)在測試集上的相關系數高達R2=0.9482,均方誤差僅為148.302 mW cm-2。有70%的預測點成功落在±150 mW cm-2的誤差容許范圍內(綠色邊界內的灰色區域),證明這一大數據驅動的預測模型能夠有效并快速地為實驗人員直接提供實驗輸入的可靠性能預測參考。除此之外進一步將訓練模型的輸出變為整條極化曲線,并再次使用32種機器學習算法進行多維回歸訓練與網格超參優化,如圖5所示,ANN再次取得最佳表現,其預測的極化曲線能夠很好地復現測試集中的真實實驗數值。

模塊四:極值優化

在模塊三獲得的精準預測模型的基礎上,可以進一步使用其來優化極值,從而模仿并部分取代真實實驗探索優化最佳實驗參數的過程,為用戶提供及時的在線優化參數指導。三種先進的啟發式優化算法:遺傳算法(GA),粒子群算法(PSA),以及差分進化(DE)算法,將圖4b描述的最佳ANN預測模型作為優化函數并進行搜索以獲得最大值對應的實驗輸入參數組合。首先,在6個變量的較小范圍內尋求極值,通過比較計算的迭代次數以及時間成本及其找到的局域極值大小,可以發現PSA為最佳算法(圖6a)。因此,將最佳算法PSA應用更大的13個自變量的優化空間。假設研究人員已經通過表征獲得了部分信息,優化算法在短短的40秒內,膜電極的最大功率與對應工藝的個性化參數建議值就可被計算出來(圖6b)。同時,因為在模塊三中獲得的代替實驗的AI預測模型可以處理多達27個輸入變量,因此模塊四可以根據需要靈活地調整參數和優化參數空間。該模塊可以廣泛在不同的研究領域基于不同已知信息為不同應用場合提供個性化實驗參考。同時,實驗科學家依據AI優化提出的參數建議能夠在優化復雜特征空間中的目標性能時,需要耗費的嘗試次數更少,效率更高。而獲得的實驗數據可以反哺更新數據庫,增加訓練數據庫的體量與質量以重新訓練機器學習算法,構成一個完整的AI加速研發循環。隨著循環進行,AI預測的結果會更精準,實驗獲得的性能也會更好。

圖5 a)-f)超參數優化后的人工神經網絡對測試集中依據實驗輸入預測的不同極化曲線和功率密度曲線進行預測(紅色與綠色點)與真實實驗曲線(橙色與藍色線)對照圖

圖6 a)應用于6個自變量任務時,三種優化算法的性能表現;b)隨PSA迭代代數變化找到的局域極值變化曲線與對應的實驗輸入參數組合

總結與展望

在這項研究中,研究者克服了過往機器學習與材料研發結合的研究的缺點并提出了全面的標準機器學習輔助研究和開發過程。設立了四個模塊:特征篩選模塊作為預處理步驟,可以研發人員提供研發側重點建議同時也對數據進行了清洗并且減少了模型部署成本。決策建模模塊采用可視化機器學習算法建立分類模型的以為研究人員提供獲得高性能的決策節點和相應邊界作為參考。回歸建模模塊中,多達34個不同的被廣泛認可的機器學習算法被采納并進行了算法競賽。并獲得了能夠脫離實驗精準預測最大功率密度乃至整個極化曲線的數據驅動模型。在最后的極值優化模塊中,PSA可以快速根據研究者的已知參數和現有條件推斷要在線優化的最佳參數,從而大大減少了用于正交試驗的試錯時間和成本。同時,AI模型與實驗可以互相攜手進步,AI對實驗操作的建議可以使得科學家更高效地獲得高性能材料配方,同時更多的實驗數據能夠返回并補充訓練數據庫從而使AI更加精準,構成了完整的閉合研發循環。除此之外,這一標準機器學習工作流程可以廣泛推廣到其他化學材料領域,乃至生物學,醫學,工程學和可以將傳統實驗數據進行數字化的勞動密集性研究領域。因此,這項研究展示了未來基于大數據和AI機器學習算法進行高效科學研究的范例,可以說具有劃時代的意義。

心得與體會

本工作的完成首先感謝導師劉建國教授對本人從事的機器學習與材料研發尤其是氫能領域交叉探索的大力支持,劉老師高瞻遠矚,提供許多硬件資源與學習機會的支持。同時感謝李佳老師基于豐富的燃料電池領域經驗,對機器學習建模計算結果進行科學解釋分析部分做出的精彩指導。最后感謝課題組中協助構建數據庫的同學,與成熟的計算機視覺或自然語言處理不同,目前機器學習與自然科學的交叉領域,可用的數據集非常有限,因此數據集的獲得很大程度上需要人工收集、清洗、標注。基于機器學習方法的普適性,我們希望推廣并歡迎有興趣的尤其是來自清潔能源領域的研究者與我們合作從而探索更多的可能性。

課題組介紹

丁睿(第一作者)

南京大學現代工程與應用科學學院2014級畢業生,新能源科學與工程專業;

2018年以直博生指標加入本院劉建國教授課題組攻讀博士學位;

2020年獲得南京大學博士生國家獎學金;

研究領域為將大數據機器學習與清潔能源材料設計及理論計算(第一性原理、量子化學、有限元模擬)三者的交叉結合探索,同時在燃料電池低鉑、非貴金屬氧還原催化劑開發發,單原子催化劑設計,新型結構功能納米材料設計上具有研究經驗和濃厚興趣。

以第一作者身份發表的論文:

[1] Rui Ding, Yiqin Ding, Hongyu Zhang, Wenjuan Yin, Ran Wang, Zihan Xu, Yide Liu, Jiankang Wang,Jia Li*, Jianguo Liu*, Applying machine learning to boost the development of high-performance membrane electrode assembly for proton exchange membrane fuel cells, Journal of Materials Chemistry A, 2021,?Advanced Article.?(inside cover)

[2] Rui Ding, Ran Wang, Yiqin Ding, Wenjuan Yin, Yide Liu, Jia Li*, Jianguo Liu*, Designing AI-aided analysis and prediction models for nonprecious metal electrocatalyst-based proton exchange membrane fuel cells, Angewandte Chemie International Edition, 2020, 59, 19175-19183.

[3] Rui Ding, Yide Liu, Zhiyan Rui, Jia Li*, Jianguo Liu*, Zhigang Zou, Facile Grafting strategy synthesis of single-atom electrocatalyst with enhanced ORR performance, Nano Research, 2020, 13, 1519-1526. (back cover)

郵箱:dz1834014@smail.nju.edu.cn

李佳(通訊作者)

2020年8月至今,特任副研究員,南京大學

2017年11月-2020年7月,博士后,南京大學

2012年9月-2017年9月,博士研究生,大連理工大學

2008年9月-2011年7月,碩士研究生,內蒙古大學

2004年9月-2008年7月,本科,內蒙古大學

研究方向:燃料電池低鉑及非貴金屬電催化劑

代表性論文:

[1] Rui Ding, Yiqin Ding, Hongyu Zhang, Wenjuan Yin, Ran Wang, Zihan Xu, Yide Liu, Jiankang Wang,Jia Li*, Jianguo Liu*, Applying machine learning to boost the development of high-performance membrane electrode assembly for proton exchange membrane fuel cells, Journal of Materials Chemistry A, 2021,?Advanced Article.?(inside cover)

[2] Rui Ding, Ran Wang, Yiqin Ding, Wenjuan Yin, Yide Liu, Jia Li*, Jianguo Liu*, Designing AI-aided analysis and prediction models for nonprecious metal electrocatalyst-based proton exchange membrane fuel cells, Angewandte Chemie International Edition, 2020, 59, 19175-19183.

[3] Rui Ding, Yide Liu, Zhiyan Rui, Jia Li*, Jianguo Liu*, Zhigang Zou, Facile Grafting strategy synthesis of single-atom electrocatalyst with enhanced ORR performance, Nano Research, 2020, 13, 1519-1526. (back cover)

[4] Jia Li, Xiang Zhu, Jianyu Wang, Zhiyan Rui, Shiqiao Zhang, Yuxin Li, Rui Ding, Wenxiang He, Jianguo Liu*, Zhigang Zou, Iron-containing porphyrins self-assembled on ZnO nanoparticles as electrocatalytic materials for oxygen reduction, ACS Applied Nano Materials, 2020, 3, 742-751.

[5] Jia Li, Jin-Xun Liu, Xueqiang Gao, Bryan R. Goldsmith, Yuanyuan Cong, Zihui Zhai,Shu Miao, Qike Jiang, Yong Dou, Junhu Wang, Quan Shi, Xinwen Guo, Donghai Wang,?Hongmei Yu, Wei-Xue Li*, Yujiang Song*, Nitrogen-doped graphene layers for electrochemical oxygen reduction reaction boosted by lattice strain, Journal of Catalysis, 2019, 378, 113-120.

[6] Jia Li, Yujiang Song*, Gaixia Zhang, Huiyuan Liu, Yiren Wang, Shuhui Sun*, Xinwen Guo, Pyrolysis of self-assembled iron porphyrin on carbon black as core/shell structured electrocatalysts for highly efficient oxygen reduction in both alkaline and acidic medium, Advanced Functional Materials, 2017, 27, 1604356. (front cover)

[7] Jia Li, Huiyuan Liu, Yang Lv, Xinwen Guo, Yujiang Song*, Influence of counter electrode material during accelerated durability test of non-precious metal electrocatalysts in acidicmedium, Chinese Journal of Catalysis, 2016, 37, 1109-1118.

[8] Jia Li, Yan Xie, Shushuang Li, Yangzhi Bai, Xinwen Guo*, Baolian Yi, Yujiang Song*, Graphene supported foam-like platinum electrocatalyst for oxygen reduction reaction, Materials Research Express, 2014, 1, 025045.

[9] Weifeng Si?, Jia Li? (?Co-first authors), Huanqiao Li, Shushuang Li, Jie Yin, Huan Xu, Xinwen Guo, Tao Zhang, Yujiang Song*, Light-controlled synthesis of uniform platinum nanodendrites with markedly enhanced electrocatalytic activity, Nano Research, 2013, 6, 720-725.

郵箱:lijia0226@nju.edu.cn

劉建國(通訊作者,課題組負責人)

南京大學現代工程與應用科學學院教授,博士生導師。入選國家級高層次人才,科技部中青年科技創新領軍人才,國家自然科學科學二等獎獲得者。中國工程院戰略咨詢中心氫能特聘專家,中國內燃機學會燃料電池分會副主任委員,中國電器工業協會燃料電池分會副理事長。入選“江蘇省333工程第二層次人才”、“江蘇省青藍工程中青年學術帶頭人”、江蘇省“六大人才高峰高層次人才”。發表SCI論文110余篇,引用超過5000次,H因子40。擔任PNSMI(SCI期刊),《電化學》雜志編委,出版2部專著。承擔多項國家重點專項課題、國家自然科學基金以及江蘇省杰出青年基金等項目。作為執筆人完成了包括山東,廣東,江蘇等多個省市氫能規劃和戰略研究報告。

課題組網站鏈接:https://fuelcell.nju.edu.cn/

郵箱:jianguoliu@nju.edu.cn

課題組介紹:

課題組主要從事氫能產業鏈和氫能規劃研究,以及燃料電池材料和關鍵技術的基礎研究。基礎研究包括燃料電池新型電催化劑設計與制備、高性能膜電極設計與制備、燃料電池電堆和系統集成、燃料電池制造技術、燃料電池長期壽命衰減機理、高性能新型化學電源以及機器學習在電化學能源中的應用等方面。歡迎報考碩士和博士,以及合作博士后加入課題組共同發展氫能事業。

?本文由南京大學現代工程與應用科學學院丁睿撰稿。

分享到