南開大學胡獻剛團隊在機器學習-納米環境生物效應領域取得進展


當前,納米材料在電子機械、醫療化工、能源環境等諸多領域的研究、應用迅速發展,但納米材料的環境效應預測存在高內涵數據庫缺乏、環境轉化情景遺漏、模型普適性弱等問題,嚴重制約了國家對危害性納米材料的風險防控。

近日,南開大學環境科學與工程學院胡獻剛教授團隊在拓展機器學習算法預測納米材料的生物效應,以及通過增強機器學習的可解釋性,從而探索納米材料生物效應的機理方面取得了突破,為上述問題的解決提供了新的研究思路。5月26日,介紹該科研成果的論文“Deep exploration of random forest model boosts the interpretability of machine learning studies of complicated immune responses and lung burden of nanoparticles”發表在國際知名期刊《Science Advances》上。

論文截圖

目前,在對納米材料的環境生物效應預測中,機器學習模型已廣泛應用,但是受限于機器學習的可解釋性,利用機器學習模型揭示復雜納米毒理的機制仍具有很大的難度。

胡獻剛教授團隊在前期工作基礎上(PNAS,2020, 117,?10492-10499;ES&T, 2018, 52, 9666-9676)創建了納米材料—生物效應數據庫,構建了納米材料—生物效應回歸模型,并提出了一個基于樹的隨機森林特征重要性和特征網絡交互分析框架(TBRFA),該框架通過多指標重要性分析方法,克服了小型數據集導致的特征重要性分析偏差,并利用隨機森林的工作機制建立了特征交互網絡,揭示了潛在的影響納米材料生物效應的交互因素。

圖1. TBRFA框架示意圖

TBRFA分析框架包含重要性分析與特征交互網絡分析。TBRFA重要性分析采用多個重要性指標,以平衡傳統的單一指標帶來的偏見,并識別出暴露恢復時間、材料比表面積以及材料尺寸是影響納米材料誘導生物效應的重要因素。TBRFA特征交互網絡分析通過解析隨機森林的樹結構,計算出兩兩特征之間的交互作用系數,并識別出材料的比表面積與表面電荷、比表面積與長度、長度與直徑之間在誘導生物效應過程中起著相互制約與影響的作用。

胡獻剛教授表示,這項研究對研發環境友好型納米材料具有一定的指導作用,將為納米材料的生態環境安全性評估提供新的策略;該機器學習算法除了適用于納米材料環境效應分析,也可用于重金屬、有機物污染等環境生物效應的預測、評估。

南開大學為該成果論文獨立完成單位,南開大學博士研究生于福波為第一作者,胡獻剛教授為論文通訊作者。該研究得到了國家自然科學基金委優秀青年基金、國家重點研發計劃、天津市科技局杰出青年基金等項目資助。

Yu, F.; Wei, C.; Deng, P.; Peng, T.; Hu, X.G.* Deep Exploration of random forest model boosts the interpretability of machine learning studies of complicated immune responses and lung burden of nanoparticles. Science Advances 2021,7,22,4130.

論文鏈接:https://advances.sciencemag.org/content/7/22/eabf4130

本文由作者投稿。

分享到