突破!!!Nat. Mach. Intell:機器智能學習方法助力化學家精準預測有機反應結果
突破!!!Nat. Mach. Intell:機器智能學習方法助力化學家精準預測有機反應結果
01、導讀
在化學界一個公認的事實就是,準確預測化學反應結果對于化學研究至關重要。現有實驗研究雖然已經合成了諸多新分子,且人類在其應用領域的探索熱情高漲,但這往往需要專業的化學家來準確預測化學反應的結果。基于數字信息時代自動化研究的飛速發展,采用機器學習的方法來預測有機反應結果引起了科研界的關注,這不僅能夠輔助化學家預測反應結果,還大大推動了設計新分子的研究。
盡管現有的反應預測模型(基于序列的模型或基于圖的模型)在公共反應數據集上表現出不錯的準確性,但它們仍然以機械方式預測有機反應結果,要么翻譯化學語言,要么按順序編輯分子圖。而與之形成對比的化學家們則是通過識別反應中心和分析電子轉移以及構型變化來預測反應產物。
02、成果掠影
在此,韓國國際科學技術院化學與生物分子工程系Yousung Jung教授團隊設計了一種廣義反應模板(generalized reaction template, GRT),這是一種僅通過原子映射法描述反應前后原子構型局部變化,而沒有特定原子類型或官能團信息的反應模板。基于該模板,研究設計了一種化學驅動的圖神經網絡機器智能平臺來預測反應產物,研究人員將其命名為LocalTransform。與專業化學家相似的是,LocalTransform能夠通過識別反應中心來預測反應結果,并根據局部化學環境變化然后通過全局注意機制的選擇性來識別反應原子。最終反應結果由模板分類器進行預測,該分類器可為化學反應中心提出最可能的構型變化,然后實現精準的結果預測。此外,研究人員還總結了LocalTransform在預測有機反應結果方面的三個重要突破:
1、研究提出的基于GRT構建的機器學習平臺能夠準確描述測試反應中99.7%的實驗結果,而這之前最受歡迎的前100個模板僅能描述94.6%,從而證明該研究在解決傳統模板覆蓋率低、可擴展性差等問題方面走出了關鍵一步。
2、LocalTransform對于Top-K產品的預測精度相比之前基于圖的方法有了顯著的提升,Top-K準確率是用來計算預測結果中概率最大的前K個結果包含正確標簽的占比。
3、該模型是一種基于分類的方法,它具有很強的分數-準確度相關性,因此用戶能夠理解不確定性并信任該機器預測。
相關研究成果以“A generalized-template-based graph neural network for accurate organic reactivity prediction”為題發表在國際著名期刊Nature Machine Intelligence上。
03、核心創新點
1、研究提供了一種廣義反應模板(generalized reaction template, GRT),基于該模板,研究設計了一種化學驅動的圖神經網絡機器智能平臺(LocalTransform)來預測反應產物。
2、LocalTransform能夠通過識別化學反應中心來預測反應結果,并根據局部化學環境變化然后通過全局注意機制的選擇性來識別反應原子,通過精準的構型預測分析,準確描述了測試反應中99.7%的實驗結果。
3、在USPTO-480k數據集上訓練和評估的LocalTransform產生了良好的Top-1和Top-2精確匹配準確度值,分別為90.8%和94.8%,優于專家預測。
04、數據概覽
圖1 GRT的提取工藝及實例?? 2022 Springer Nature
(a)GRT提取的整個過程,反應中心首先是通過比較反應前后每個原子電子構型的變化來確定的;
(b)酮基轉化為仲醇基的羰基還原反應;
(c)由A1原子負電荷引發的還原反應;
圖2?Localtransform的整體預測綜合解決方案?? 2022 Springer Nature
(a)Localtransform模型的體系結構;
(b)步驟7的更詳細方案,即收集預測的鍵和AoTs以描述反應中心和GRTs;
圖3 Top-1的精確匹配準確率和反應百分比作為預測值的函數?? 2022 Springer Nature
(a,b)0和1之間(a),0.9和1之間(b);
圖4 模型預測分數大于0.99但匹配失敗的例子?? 2022 Springer Nature
圖5 在人類基準數據集上進行Localtransform預測 ? 2022 Springer Nature
(a)與WLDN、Molecular Ttransformer和制定人類基準數據集的人類專家相比,Localtransforme的Top-1精確匹配準確度最高,該數據集由80個反應和各種罕見的反應模板庫組成;
(b)與a中相同的數據分析,但基于本工作中提取的GRT進行了分組;
(c-g)在?80 個反應中,Localtransforme 的 5 個“不正確”預測,反應編號后顯示了Ground-truth GRTs 的受歡迎程度,顯示了Localtransforme(藍色)預測的反應中心、真實產物(橙色)以及預測的反應中心是否與真實反應中心相同(紅色);
05、成果啟示
綜上所述,該研究提出了一種新的機器智能方法LocalTransform,它通過識別反應中心并應用數據驅動的一般反應規則來預測有機反應結果。在USPTO-480k數據集上訓練和評估的LocalTransform產生了良好的Top-1和Top-2精確匹配準確度值,分別為90.8%和94.8%。在人類基準集上, LocalTransform要優于人類專家預測。盡管該研究模型的預測分數很高,但對幾個“錯誤”預測的例子的案例研究表明,該系統仍有很大的改進空間。此外,該研究方法的準確性在很大程度上受到反應映射質量以及數據集中反應多樣性和豐富性的限制。因此,該研究有望在未來通過使用更大的數據集和高質量的原子映射方法(如Mappte或RXNMapper)來進一步改進。憑借出色的實驗結果和LocalTransform的優點,研究人員設想,如果數據集中提供了相應的元數據,該模型甚至有望用于預測有機反應副產物和反應產率,如果成功,這將是一個極大的突破,希望未來能有持續的報道產生。
文獻鏈接:A generalized-template-based graph neural network for accurate organic reactivity predictio,2022,https:/ / doi.org/10.1038/ s42256-022-00526-z)
?
本文由LEB供稿。
文章評論(0)