機器學習預測分子結構,Nature Reviews Chemistry最新綜述!
【導讀】
化學作為在原子、分子水平上研究物質的組成、結構、性質、轉化及其應用的基礎自然科學,其源自生活和生產實踐,并隨著人類社會的進步而不斷發展。其中,化學知識是多方面的,在分析化學結構的特定性質時,有必要考慮各種尺度,比如特定的片段、鍵以及原子,并且這些局部屬性能夠為結構的全局屬性和功能提供重要見解。原子尺度上的局部性質(如原子電荷和雜化)和分子尺度上的全局性質(如偶極矩、基態和激發態能)已成為化學思維和描述基本概念和設計應用的實用詞匯的核心。隨后,這些性質成為實驗和理論研究的主要目標。所有這些性質都可以從計算求解薛定諤方程的第一性原理電子結構計算中推斷出來。然而,在實踐中,很少提出精確的解決方案。因此,之前的研究已經開發出一系列具有不同保真度的方法,從非常精確的波函數方法(如耦合簇技術)到實用和廣泛使用的密度泛函理論(DFT),再到精度較低的半經驗方法。即使經過幾十年的發展,傳統電子結構理論的適用性仍然受到基礎數值方法的基本尺度的限制。如今,機器學習(ML)已經成為復雜化學過程和材料建模的首選策略,其提供了一個在參考數據集上訓練的替代模型,可用于構建分子結構與其化學性質之間的相關性,可以為大規模系統提供快速解決方案。化學ML的進步清楚地表明,原子和分子特性可以被機器“學習”,從而有可能克服上述傳統的限制和數字障礙。
【成果掠影】
在此,美國洛斯阿拉莫斯國家實驗室Sergei?Tretiak教授(通訊作者)全面總結了基于ML評估化學性質的發展,例如部分原子電荷、偶極矩、自旋、電子密度、化學鍵以及獲得簡化的量子力學描述。同時,作者概述了幾種現代神經網絡架構,以及它們的預測能力,通用性和可轉移性,并說明了它們對各種化學性質的適用性。此外,作者還強調了學習的分子表示類似于量子力學類似物,證明了模型捕獲基礎物理學的能力,以及討論了ML模型如何描述非局部量子效應。最后,作者編制了一份可用的ML工具箱列表,總結了未解決的挑戰和展望了未來的發展。總結的趨勢表明,本領域的發展正在向由ML增強的基于物理的模型發展,其伴隨著新方法的開發以及用戶友好的ML化學框架正在快速增長。
相關研究成果以“Extending machine learning beyond interatomic potentials for predicting molecular properties”為題發表在Nature Reviews Chemistry上。
【核心創新點】
1.本文概述了一組快速出現的簡化量子化學方法,例如密度功能緊密結合(DFTB),并指出了ML如何直接改善電子結構計算;
2.作者編制了一份可用的ML工具箱列表,總結了未解決的挑戰和展望了未來的發展,證明了本領域的發展正在向由ML增強的基于物理的模型發展。
【數據概覽】
圖1從化學家的角度看物質的原子尺度?2022 Springer Nature
局部性質與原子、鍵或碎片等基本的結構元素有關,而全局性質則歸屬于整個系統。二維(2D)和三維(3D)結構通常被視為具有周期性,因此蛋白質作為一個整體非周期的例子,其復雜性規模在不斷增加。
圖2從局部和整體角度看化學結構與性質的關系?2022 Springer Nature
相互關系性是直觀的,但不是嚴格限定的。例如,電荷和偶極子是由量子力學波函數來定義,這些系統的動力學反映在可測量的光譜中,并支持理想的特性,如光子的發射。
圖3用于學習局部和全局屬性的神經網絡的現代體系架構?2022 Springer Nature
(a)高維神經網絡(HDNN)的分子能量(E)預測;
(b)層次結構相互作用的粒子神經網絡(HIP-NN)體系結構;
(c)HIP-NN變體用于學習不同的原子和分子性質;
(d)分子中原子網絡(AIMNet)體系結構的變體;
圖4原子電荷、振動譜、偶極子和四極子的機器學習預測?2022 Springer Nature
(a)使用測試集(ANI-1x)訓練以重現各種電荷分配方案的部分原子電荷時,分層相互作用粒子神經網絡(HIP-NN)電荷預測的平均絕對誤差(MAE)和均方根誤差(RMSE);
(b)與密度泛函理論(DFT)參考文獻相比,當僅在ANI-1x偶極子上進行訓練時,HIP-NN平價電荷分配(ACA)模型在三肽集上的性能;
(c)ACA模型的訓練和擴展性集中按大小分布的分子。頂部面板計算每個分子的原子總數(C,H,N,O),而底部面板計算每個分子的非氫原子(C,N,O)的數量;
(d)選定生物活性分子的紅外光譜的ACA模擬;
(e)機器學習(ML)預測了不同鏈長的α-螺旋構象中聚甘氨酸的偶極矩,并與DFT參考文獻進行了比較;
(f)在二聚體中,水分子中O-H鍵旋轉時向x軸投射的偶極矩的動力學;圖5自旋極化電荷和總電子密度的機器學習預測?2022 Springer Nature
(a)一系列取代的硫代醛中硫原子上的原子電荷,正如在 ANI-1x 數據集上訓練的分子中原子網絡(AIMNet)所預測的那樣,該網絡由氟、硫和氯原子的分子增強;
(b)在AIMNet神經自旋平衡(AIMNet-NSE)中的迭代更新使同時學習α和β的電子密度成為可能;
(c)第四代(4G)高維神經網絡(HDNN)電位在模擬非局部電荷傳輸中的性能。圖6自旋密度、鍵序和有效哈密頓模型的機器學習預測?2022 Springer Nature
(a)比較所選分子的密度泛函理論(DFT)自旋密度和可視化分層相互作用粒子定位(HIP-loc)定位權重;
(b)掃描多環芳烴分子中C-C二面角時參與率(PR)的變化;
(c)在ANI-1x集的一部分上訓練并應用于Drugbank集的HIP-NN模型的性能;
(d)1,3-丁二烯順反異構化過程中的前沿分子軌道(MOs)交換;
(e)在訓練集中具有不同鍵拓撲的聚類,用于擬合密度泛函緊密結合(DFTB)框架中的鍵特異性排斥勢;
(f)質子轉移在丙二醛中作為分子動力學模擬的一系列快照。圖7通過機器學習實現的大規模分子模擬?2022 Springer Nature
(a)密度泛函理論(DFT)與機器學習(ML)的比例比較;
(b)在應用元素鋁(ANI-Al)電位后,在24.5ps的沖擊下,使用ANI模擬了鋁體相的位錯結構。
【成果啟示】
綜上所述,受益于高質量的數據,數據驅動的主動學習?技術為原子間勢數據集的最佳收集提供了有前途的策略,而不會失去其可轉移性。目前,許多架構要么在一個目標屬性上訓練,要么調用單獨的網絡,每個網絡負責自己的標簽。總而言之,計算成本僅是分子力學的十倍。一個趨勢是明確的:ML方法正在成為計算科學家工作臺上不可或缺的工具。ML正在成為經過時間驗證代碼的重要組成部分。例如,最新版本的ORCA 5.0引入了ML優化的DFT集成網格。此外,基準測試明確展示了熱化學、反應勢壘、非共價相互作用和振動頻率評估方面的改進,體現了純電子結構計算如何從數據科學中受益。
文獻鏈接:“Extending machine learning beyond?interatomic potentials for?predicting molecular properties”(Nature Reviews Chemistry,2022,10.1038/s41570-022-00416-3)
本文由材料人CYM編譯供稿。
文章評論(0)