武漢大學郭宇錚&劍橋大學張召富等MRE封面文章: 機器學習加速理論計算指導復雜體系催化劑的設計
基于第一性原理的理論計算對于指導催化劑的設計有著重要的意義。然而第一性原理計算有著十分昂貴的計算成本,阻礙了許多復雜體系催化劑的進一步探索。有鑒于此,武漢大學郭宇錚教授和劍橋大學張召富博士等人介紹了一種利用機器學習算法,大大減少計算成本以進行更廣泛研究的策略,并開發了相應的程序包DMCP并將其開源(https://github.com/XuhaoWan/DMCP)。近日,相關論文以題為“A Density-functional-theory-based and Machine-learning-accelerated Hybrid Method for Intricate System Catalysis”發表于Materials Reports: Energy。本文第一作者為武漢大學碩士研究生萬旭昊。
本工作被收錄在Materials Reports: Energy期刊,作為“能源材料中的機器學習與人工智能專刊”的封面文章發表。MRE致力于發表與能源和環境等與當代社會重大挑戰相關的重要成果,旨在促進與能源相關的新材料、新技術、新器件、新系統研究。本專刊旨在推動能源材料領域機器學習和人工智能方向的最新進展。
【研究背景】
密度泛函理論 (DFT)是研究和預測材料的幾何結構、機械性質、電子結構和反應能量時最常用的計算化學手段。過去幾十年中,研究者們已經開發了許多基于DFT的量子化學模擬程序并應用,例如VASP、CASTEP、QE等。這些第一性原理程序在探索材料的眾多物理和化學特性時表現出很高的準確性和可靠性。然而,這些基于 DFT 的程序的計算成本非常昂貴,并且一旦所研究的系統大到一定程度,算力限制將使得其幾乎不可能實現。
催化是工業社會的重要組成部分,因為它提供與我們日常生活密切相關的大量工業產品,如肥料、藥物和燃料。而理論計算可以獲得在實驗中很難得到的重要信息,如分子的過渡態、反應的化學趨勢和變化,幫助研究人員設計新的高活性催化劑。
但目前,許多復雜化學體系如雙原子催化劑,高熵合金和復雜晶體的研究也受到計算能力的限制。有兩種思路解決這些重大挑戰,一是提高進一步提高CPU的計算能力以突破限制,另一個是開發新的算法減少總的計算需求。本文嘗試用第二種思路解決這一問題。
【研究簡述】
圖 1. 機器學習中的 (a) 線性模型、(b) 核回歸模型、(c) 決策樹模型和 (d) 神經網絡模型的示意圖。
本文首先介紹了機器學習的通常流程,從確定需要解決的問題開始,然后獲取數據,對數據進行特征化,最后建立機器學習模型。解決問題可以通過預測關鍵值、模型的深入分析,甚至是對問題底層機制的理解。此外,在催化領域,機器學習過程經常使用特定的物理或化學特性,例如極限電位、吸附能、選擇性、d帶中心等。催化研究中通常將這些特征映射到數據集的標簽來建立機器學習模型因此常用的是有監督的機器學習算法而不是無監督算法。隨后簡要概述了最流行的幾種機器學習算法類型,并討論了它們對不同目標的適用性,如圖1所示。
圖 2. 基于 DFT 和 ML 加速方法在復雜系統中催化應用的示意圖。 藍色虛線框表示該步驟是可選的。
在本文的理論方法部分,我們簡單介紹了十種常用的機器學習算法例如GBR, KNR, FNN等,同時介紹了常常用來評估模型準確性的兩個參數均方根誤差RMSE和確定性分數R2。如圖2所示,具體介紹了機器學習模型建立的過程。首先,應用特征工程從任一 DFT 計算生成的或者從材料數據庫(如 Materials Project、C2DB等。)獲取的數據中確定輸入數據的特征然后應用得到的數據集進行模型訓練。模型精度可以通過數據預處理、數據集拆分、重復試驗和交叉驗證來提高,通過不斷的模型訓練和測試,可以建立和選擇出優秀的模型。性能最佳的模型可用于預測未包含在訓練數據中的其他材料的相應催化性能。最后,結果分析有助于確定反應的主要描述符并幫助理解機器學習模型。
圖 3. 簡單介紹了應用于催化領域的機器學習模型中的特征工程。原子特征如原子序數、原子半徑、相對原子質量和鍵長等;電子特征如d和p軌道的電子數,d帶中心,氧化物形成焓和泡利電負性等; 系統特征如系統中某一部分的電荷轉移、吸收能和有效配位數等都可以被選定為機器學習模型的特征并進行進一步的研究。
在構建機器學習模型時,特征工程是最重要的步驟,因為它很大程度上決定了模型的最終表現。在催化領域,特征工程應滿足幾個要求:特征應該能夠獨立地描述系統的部分電子結構或原子結構,也應該有效描述活性位點周圍的化學配位環境,同時應該可以通過很少的DFT計算或直接從可用的數據庫查詢中獲得,此外它們應該在物理上直觀以保證模型的魯棒性。因此,通常將以三個類別來建立不同化學系統的輸入特征,如圖3所示。
隨后,以雙原子過渡金屬酞菁(Pc)催化劑為例,文章介紹了我們的新型DFT-ML方法具體應用。如圖4(a)所示,由于酞菁的特殊中空結構可以提供完美的位點來容納具有高化學穩定性的TM原子,雙原子過渡金屬酞菁也因此成為天然的雙原子催化劑。圖4(b)展示了雙原子過渡金屬酞菁催化劑的數百種組合可能性,這表明機器學習方法的必要性。
圖 4. (a) 雙原子過渡金屬酞菁催化劑的結構。(b) 研究的所有過渡金屬元素。(c) 使用雙原子過渡金屬酞菁催化劑作為電催化劑的CO2RR反應途徑示意圖。
圖5的直方圖中描述了機器學習模型的平均R2得分和RMSE,可用于直接比較模型性能,以便為后續工作選擇性能最好的模型。由于越低的RMSE和越高的R2意味著越好的性能,可以看出,GBR模型的性能非常出色,訓練過程中 RMSE 僅為0.08 eV,R2得分為 0.96,而這兩個值在測試過程中略有變化,分別為0.12 eV和 0.8。因此,我們在后續的研究中采用整體性能最佳的GBR算法進行活性預測與機理分析。
圖 5. 分別來自訓練集和測試集的 GBR、KRR 和 RFR 模型的(a)RMSE和(b)R2得分。
圖6(a)表明GBR模型的預測結果與DFT計算得到的實際值非常接近,再一次驗證了GBR模型的出色性能。通過文章的SI內容可知,GBR預測得到的擁有最佳活性的銀鈷雙原子酞菁,實際活性也非常優異。通過Pearson相關系數圖與特征重要性餅圖分析可知,兩種過渡金屬原子的電負性是雙原子過渡金屬酞菁CO2RR電催化劑最重要的描述符。
圖 6. (a) DFT 計算值與GBR 模型預測值的散點對比圖。 (b) 20個選定特征的 Pearson 相關系數圖。(c) 20 個特征的特征重要性。
【程序介紹】
我們開發了相應的軟件包DMCP(https://github.com/XuhaoWan/DMCP)來為實現上述基于DFT理論和機器學習加速的DFT-ML方案,用于解決一系列更加復雜的材料設計與性能預測問題。 DMCP軟件包可以預測復雜系統(如雙原子催化劑,高熵合金)的催化性能,并通過適當的算法選擇和數據特征揭示確定其潛在催化活性的內在描述符。
主要特性
1.十種機器學習算法:GBR、KNR、SVR、GPR、FNN、RFR、ETR、KRR、LASSO和ENR。
2.多種提高模型準確性的方法:數據集拆分、交叉驗證、重復試驗。
3.可用于進一步研究的可視化模塊。
【流程框架】
上圖清楚地列出了DMCP的詳細流程。首先通過特征工程選定全面的、恰當的、準確的模型輸入特征。隨后按照選定特征,通過第一性原理計算與已有數據庫建立整個數據集并轉化為csv格式。對原始數據集進行預處理并拆分為訓練集與測試集后,首先在訓練集上建立選定的算法對應的機器學習模型,隨后參考測試集上的表現,通過重復試驗、交叉驗證、參數調節等方式進一步優化模型表現。
訓練完成之后,選定幾種算法中模型性能最佳的一種以進行進一步研究,如活性預測與機理分析。DMCP集成了多種可視化方法,包括模型表現對比條形圖、R2得分小提琴圖(重復試驗)、訓練數據集和測試數據集散點圖(模型選定后)、Pearson相關系數圖和特征重要性圖。可視化模塊對于整個工作流程的許多部分是可選的,對于模型選擇和結果分析很有用。最后程序將輸出結果,包括csv格式的數據以及與可視化模塊相應的圖片。
【程序應用及推廣】
DMCP具體的輸入文件格式與各參數的詳細意義可查閱說明文件(https://github.com/XuhaoWan/DMCP/manual)。軟件的下載、安裝、流程的實現以及幾個功能應用的簡單例子可參考具體教程(https://github.com/XuhaoWan/DMCP/tutorial)。軟件本身及其對應的使用手冊、教程仍在持續更新,歡迎大家關注。
實際上,DMCP構建了從原始數據到機器學習模型的整個流程框架,因此并不僅僅限于應用在復雜系統催化這一領域。通過適當的算法選擇與特征工程,DMCP可應用在更廣的學科交叉領域,例如凝聚態物理、納米藥物開發與物質空間探索等。
【文獻信息】
Wan, Z. Zhang*, W. Yu, and Y. Guo*, A density-functional-theory-based and machine-learning-accelerated hybrid method for intricate system catalysis. Materials Reports: Energy. doi.org/10.1016/j.matre.2021.100046.https://www.sciencedirect.com/science/article/pii/S2666935821000811
【補充】
郭宇錚教授課題組長期招收計算材料學、新型半導體材料與器件、光催化新能源器件等方向的博士后等研究人員,和碩士/博士研究生,詳情請查詢招聘的歷史鏈接: 武漢大學郭宇錚教授課題組招聘博士后與重點資助博士后https://mp.weixin.qq.com/s/e7GT-O4HBneQypgVJE6jKQ和武漢大學郭宇錚教授課題組招收碩博研究生與招聘博士后https://mp.weixin.qq.com/s/L2ZZ6GWaiTJBFC3qucRA2A
郭宇錚教授課題組近期文章匯總:
[1] (Cover paper) X. Wan, Z. Zhang*, W. Yu, and Y. Guo*, A Density-functional-theory-based and Machine-learning-accelerated Hybrid Method for Intricate System Catalysis, Materials Reports: Energy 25, 100046 (2021) https://doi.org/10.1016/j.matre.2021.100046
[2] X. Wan, Z. Zhang*, H. Niu, Y. Yin, C. Shao, and Y. Guo*, Machine-Learning-Accelerated Catalytic Activity Predictions of Transition Metal Phthalocyanine Dual-Metal-Sites Catalysts for CO2 Reduction, J. Phys. Chem. Lett. 12, 6111 (2021)
[3] H. Niu#, Zhaofu Zhang#, X. Wang, X. Wan, C. Kuai*, and Y. Guo*, A feasible strategy for identifying single-atom catalysts towards electrochemical NO-to-NH3 conversion, Small (2021) DOI: 10.1002/smll.202102396
[4] Z. Wang#, Z. Zhang#, S. Liu, J. Robertson, and Y. Guo*, Electronic properties and tunability of the hexagonal SiGe alloys, Appl. Phys. Lett. 118, 172101 (2021)
[5] H. Niu#, X. Wan#, X. Wang, C. Shao, J. Robertson, Z. Zhang*, and Y. Guo*, Single-Atom Rhodium on Defective g-C3N4: A Promising Bifunctional Oxygen Electrocatalyst, ACS Sustainable Chem. Eng. 9, 3590, (2021)
[6] Y. Yin, Z. Zhang*, H. Zhong, C. Shao, C. Zhang, J. Robertson, and Y. Guo*, Sub 5 nm Tellurium Nanowire Gate–All–Around MOSFETs from First Principles, ACS Appl. Mater. Interfaces, 13, 3387 (2020)
[7] H. Niu, Z. Zhang*, X. Wang, X. Wan, C. Shao, and Y. Guo*, Theoretical Insights into the Mechanism of Selective Nitrate-to-Ammonia Electroreduction on Single-Atom Catalyst, Adv. Funct. Mater. 31, 2008533 (2020)
[8] Z. Wang, Z Zhang, C. Shao, J. Robertson, S. Liu*, and Y. Guo*, Defects and Passivation of the Sub-oxide Layers at SiO2/4H-SiC(0001) Interface by First-Principles Calculation, IEEE Trans. Electron Devices 68, 288 (2020)
[9] X. Wang, H. Niu, Y. Liu, C. Shao, J. Robertson, Z. Zhang*, and Y. Guo*, Single-Atom Catalysis for CO2 Electroreduction on Graphene: A First-Principles Study, Catal. Sci. Technol. 10, 8465 (2020)
[10] X. Wan, H. Niu, Y. Yin, X. Wang, C. Shao, Z. Zhang*, and Y. Guo*, Enhanced Electrochemical Oxygen Evolution Reaction Activity on Natural Single-atom Catalyst Transition Metal Phthalocyanine: The Substrate Effect, Catal. Sci. Technol. 10, 8339 (2020)
[11] S. Xu, Y. Yin, H. Niu, X. Wang, C. Shao, K. Xi, Z. Zhang*, Y. Guo*, Adsorption and diffusion of alkali atoms on FeX2 (X=Se, S) surfaces for potassium-ion battery applications, Appl. Surf. Sci. 536, 147774 (2020)
[12] H. Niu, X. Wang, C. Shao, Z. Zhang*, and Y. Guo*, Computational Screening Single-Atom Catalysts Supported on g-CN for N2 Reduction: High Activity and Selectivity, ACS Sustainable Chem. Eng. 8, 13749 (2020)
[13] Z. Wang#, Z. Zhang#, C. Shao, J. Robertson, S. Liu*, and Y. Guo*, Tuning the high-κ oxide (HfO2, ZrO2)/4H-SiC interface properties with a SiO2 interlayer for power device applications, Appl. Surf. Sci. 527, 146843 (2020)
[14] Y. Yin, C. Shao, C. Zhang, Z. Zhang*, X. Zhang, J. Robertson and Y. Guo*, The Anisotropic Transportation Property of Antimonene MOSFET, ACS Appl. Mater. Interfaces, 12, 22378 (2020)
[15] (Hot paper) H. Niu, X. Wang, C. Shao, Y. Liu, Z. Zhang*, and Y. Guo*, Revealing the oxygen reduction reaction activity origin of single atoms supported on g-C3N4 monolayers: a first-principles study, J. Mater. Chem. A 8, 6555 (2020)
[16] J. Lyu#, J. Pei#, Y. Guo#, J. Gong, H. Li*, A New Opportunity for 2D van der Waals Heterostructures: Making Steep‐Slope Transistors, Adv. Mater. 32, 1906000 (2019)
本文由作者團隊供稿。
文章評論(0)