大數據時代如何抓住機遇并應對挑戰


2010年,《經濟學人》發表了一篇長達14頁的關于大數據應用的前瞻性研究,作者是被譽為“大數據時代的預言家”維克托·邁爾·舍恩伯格,他指出:大數據帶來的信息風暴正在變革著我們的生活、工作和思維,將開啟一次包括思維變革、商業變革和管理變革的時代轉型。作為材料科研工作者,如何在大數據時代抓住機遇并應對挑戰呢?或許我們可以在新興的并在迅速發展的材料信息學中找到答案。

梅特卡夫定律(Metcalfe’s law)是一個關于網絡價值和網絡技術發展的定律,其表述為:V=K*N2,其中,V是網絡價值,K為價值系數,N為網絡節點/用戶數量。借助計算機運算能力的提高,采用高通量技術、組合實驗和表征方法等在現代材料研發中的應用,材料數據將呈幾何級數的爆發式增長,如圖1所示,從大量的數據中發現知識是未來材料研發的主要方法。

圖1 梅特卡夫定律下的材料基因工程

1999年,John R Rodgers教授首先提出材料信息學(Materials Informatics)這一概念,認為是計算科學在材料數據的解析、管理和分析上的應用,以加快和促進新材料開發和設計,同時推動材料研究從傳統的經驗、理論和計算模擬階段進入由大數據驅動的研發時代[1]

圖2為利用材料信息學進行知識發現的流程示意圖。材料信息學的含義可歸納為材料科學與工程領域的大數據分析,通過計算機技術對海量的材料數據進行數據挖掘和可視化分析,并從中提取、總結出材料的成分、工藝、結構和性能的關系,以實現知識共享,有力促進新材料新工藝的研發設計。

圖2 利用材料信息學進行知識發現的流程[2]

目前,國內外科研機構包括大學、科研院所,以及GE、THE等部分商用企業都處于制造數據的階段。例如,哈佛大學的清潔能源計劃,以太陽能電池的分子材料作為研究重點,建立Molecular Space數據庫,借助密度泛函理論收集數據庫,通過機器學習來預測模擬物質模型的實際屬性;麻省理工學院Materials Project的數據庫保存了約10萬種材料信息,通過人工篩選、機器學習的方式來探究各種材料規律;哈佛大學和IBM公司聯合免費公布了最大的太陽能電池材料數據庫,包含230多萬個備選材料,為太陽能電池的研究提供數據支持;肯特州立大學Laura M. Bartolo教授等人建立了材料信息學實驗室,研究金屬材料、生物材料、聚合物材料及其構效關系;美國通用電氣公司GE應用高通量實驗技術,尋找符合性能要求的高溫合計,并提出建立ICME-NET應用于陶瓷基復合材料、合金的開發和轉子的材料應用改造[3-5]

材料信息學的理論架構如圖3所示,大致包括從信息獲取、存儲和顯示、信息傳遞、信息和知識管理,以及信息應用等涉及的七個部分,分別為用戶層、應用層、功能層、網絡層、存儲層、數據層和設備層。

圖3 材料信息學的理論框架[6]

材料信息學的研究領域分為:數據產生、數據管理和知識發現,其實質是材料集成設計和材料數據庫平臺的搭建,以及材料領域的大數據分析。

一、數據標準

統一的數據標準是數據庫之間實現數據共享的基礎。國際標準化組織(ISO)制定了一系列“產品模型數據交互規范”(STEP, Standard for the Exchange of Product Model Data, ISO10303)標準,用以描述整個產品生命周期內的產品信息,旨在實現產品數據的交換和共享。美國國家標準和技術研究院(NIST)基于XML開發的MatML,是專門為材料數據信息管理和交換的可擴展標識語言。

二、材料信息數據庫

材料信息包括:分類(大、小類)、結構(晶體結構、化學成分、相圖、相結構)、外觀(形狀、尺寸、光澤、顏色)、性能(物理、力學和使用性能)、加工(制備方法、加工工藝)、使用(使用條件、變形、斷裂、失效和破壞形式)、文獻(圖書、期刊、專利、論文等)、行業(專家、設備、產品、機構)和實驗信息(實驗模型、測試信息、實驗裝置、結果)。

按信息內容可劃分為材料基礎性能數據庫和材料信息數據庫;其中,材料基礎性能數據庫主要包括材料的機械性能、晶體結構、熱力學動力學數據和物理性能,為材料設計提供基礎數據;材料信息數據庫則利用先進的信息技術,從文獻、互聯網等各個渠道中提取和管理材料數據,包括材料的生產工藝數據、性能數據和服役性能等。

Granta開發的CMS和ASM開發的Mat.DB是離散數值型數據庫,隨著Web技術的發展,美國的MatWeb和日本的MatNavi都是著名的在線材料數據庫。

MatWeb擁有超過115000種材料的性能數據,涵蓋金屬、塑料、陶瓷和化合物,數據主要源自制造商產品檢驗,其余來源于數據手冊或專業協會,還具備ANSYS、Solid Works等CAD / CAM軟件的數據輸出的功能。MatNavi由日本國立材料科學研究院(NIMS) 組建,擁有9個基礎性能數據庫( 計算相圖、計算電子結構、中子嬗變、擴散數據庫等) 、5個結構材料數據庫( 蠕變、疲勞、腐蝕等) 、4個工程應用數據庫( 金屬材料、CCT曲線、材料風險信息平臺) 和5個數據應用系統,目前已經有超過149個國家的11萬用戶注冊使用。

目前中國較為系統的在線數據庫為國家材料科學數據共享網,該數據庫以北京科技大學為中心,匯集了全國30余家科研單位的數據,整合了超過60萬條各類材料科學數據。

隨著信息技術的發展,新的材料信息數據庫將涵蓋材料基礎性能數據庫,并整合工藝數據、文獻專利、各國標準、專業圖書和行業信息統一管理,利用數據挖掘技術對材料數據庫中的大量數據進行分析和預測,快速發現新的知識和規律,是未來數據驅動材料研發的主要研究領域。

三、集成材料設計平臺

材料集成設計平臺是以MGI為指導,集成材料數據庫、高通量材料計算、材料測試與表征,材料數據管理和分析系統為一體的現代材料研發設計平臺。

目前在建的材料集成設計平臺有美國的Automatic Flow(AFLOW)和中國科學院計算機網絡信息中心組建的Mat-cloud。

四、材料數據挖掘技術的內容和應用

(1)材料數據可視化

可視化是將數據和信息通過一定的方法轉化為大腦易于分析和理解的視覺形式。基于材料數據的材料結構可視化信息的構建可以助力研究人員從不同視覺維度進行分析和解釋材料性能和材料結構之間的關系。

圖4 利用數據挖掘方法進行知識發現的流程[7]

(2)材料數據挖掘

數據挖掘(Knowledge-Discovery in Databases,KDD)是使用特定的算法對大數據集進行搜索,提取數據庫中的知識的過程。圖4為利用數據挖掘進行知識發現的流程示意圖,可以看出,該過程主要包括數據輸入、數據預處理(數據匯合、數據清洗、特征選擇等)、數據挖掘和后處理(模式過濾、可視化等),最終得到有用的信息 (知識)。

傳統的數據挖掘技術主要有線性和非線性分析、回歸分析、因素分析和聚類分析,隨著數據挖掘技術的飛速發展,決策樹理論(Decision Trees)、人工神經網絡(Artificial Neural Network,ANN)等新的技術不斷應用于材料研究中。

決策樹是通過概率論的直觀運用建立的樹形結構,其中每個內部節點代表一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別。決策樹是分類模型的非參數方法,不需要昂貴的計算,非常容易理解。

人工神經網絡(ANN)是模擬生物神經系統,由一組相互連接的節點和有向鏈組成網絡,每個節點代表一種特定的輸出函數,即激勵函數(Activation Function),每兩個節點間的連接代表一個對于通過該連接信號的加權值(權重)。人工神經網絡(ANN)的特點是:可用來近似任何目標函數,但需要選擇合適的拓撲防止模型的過擬合;可以處理冗余特征,冗余權值非常小;對訓練數集的噪聲非常敏感;當隱藏節點數量巨大時,ANN 的訓練相當耗時,但測試分類非常快。

數據挖掘方法以數據輸入并分析預測產生模型輸出,可以利用其對材料大數據分析建模發現潛在的組織性能影響規律,特別是在晶體結構方面的研究,因為晶體結構數據是離散非連續的,因此采用數據挖掘方法進行分析和預測會很方便快捷。

(3)數據分析和圖像處理

掃描/透射電鏡(Scanning/Transmission Electron Microscopy,S/TEM)、掃描探針顯微鏡(Scanning Probe Microscopy)和micro-Raman、ToF-SIMS(time-of-flight secondary-ion mass spectrometry)等化學成像方法(Chemical Imaging Method)開辟了材料結構和功能的高分辨率成像道路,產生了大量的2D結構、功能和光譜數據,這就為數據存儲、輸出轉化和物理提取等方面帶來了更多的挑戰和機遇。例如,利用電子顯微鏡得到的一個分辨率為(2048*2048)的大約1000幀的動態變化視頻(或高光譜數據集)對應于18GB的數據集;在(1024*1024)*(1024*1024)像素分辨率下獲得的每個樣品區域的局部衍射圖案對應的4D STEM數據集約為4.4TB。

Zhan等人利用廣義線性回歸(GLR,generalized linear regression)、高斯過程回歸(GPR,Gaussian process regression)和支持向量回歸(SVR,support vector regression)三種不同的機器學習算法預測了熱傳輸過程中的熱阻值,并與傳統的聲學不匹配模型(AMM,acoustic mismatch model)和彌散不匹配模型(DMM,diffuse mismatch model)進行了比較,結果如圖5所示,從相關系數R可以看出這三種方法具有更高的準確性[8]

圖5 通過AMM、DMM、GLR、GPR和SVR預測的界面熱阻值與實驗值之間的相關性

目前,自動編碼器、卷積神經網絡和生成對抗網絡等三種機器學習算法已經廣泛用于圖像識別和數據生成。

變分自動編碼器(Variational Auto Encoder,VAE)是一種人工神經網絡,以完全無監督的方式學習相變和順序參數等數據編碼。

生成對抗網絡(Generative Adversarial Networks,GAN)是一類機器學習系統,其中兩個神經網絡相互競爭,一個零和游戲框架。

卷積神經網絡(Convolutional Neural Network,CNN)是一類深度神經網絡,在圖像的模式識別任務中表現優異,可有效的偵測出目標圖像中存在的模式,通過對模型中的探測器(filters)進行提取,可以有效揭開模型內部的一些運行機制,若能夠將材料表征為合適的數據結構,使用卷積神經網絡建立出材料性能預測模型并有針對性的對模型中識別出的模式進行分析,則可有效發現影響材料性能的因素及其規律。

圖6為將材料信息學應用于熱傳輸問題的示意圖,Yang等人利用線性回歸、多項式回歸、決策樹、隨機森林和人工神經網絡等機器學習方法通過已知的系統溫度、耦合強度和拉伸應變預測出石墨烯和氮化物(h-BN)之間的界面熱導率(Interfacial?Thermal Conductance,ITC),并與分子動力學模擬進行了比較,最后發現人工神經網絡得到了更好的預測結果[9]

圖6 應用材料信息學方法研究熱傳輸問題的示意圖

五、原子分辨成像的未來機遇

近年來,R. Melko、Carrasquila等人在理論領域已經證明了物體提取的可行性,同時,機器學習技術在相變檢測等方面取得了巨大的突破。例如,人工神經網絡已成功應用于2D Ising、Potts模型、3D Hubbard Fermi模型、晶格規范理論和Chern絕緣體等經典和量子系統中的相位和相變檢測;在不明確標記和配置的情況下,使用成像數據作為輸入,通過混淆學習進行故意錯誤標記數據來“學習”相變,這種方法已證明了Kitaev鏈中的拓撲相變和經典Ising模型中的熱相變,同時擴展到使用一對判別合作網絡從完全未標記的數據中檢測相變,例如超流體等多體相的相變。

我們發現,綜合利用數據挖掘和機器學習可以從介觀和原子解析的定量測量數據中提取出物理信息,但同時也存在一些問題。例如,STEM實際上限于3D原子序列的2D投影,并且這種限制可能影響機器學習方法的適用性;對于掃描探針顯微鏡,亞表面層對表面原子行為的影響是不確定的;對于分層材料,雖然通常所有原子單元都是可見的,但有一些數據點也可能丟失,并且來自局部傾斜的信息可能也會丟失[10]

對于一些宏觀有序參數未知,受強相互作用的缺陷所約束;或存在具有分層排序、競爭基態和相關無序等情況,人們仍必須進一步確定機器學習是否能提供必要的工具來提取相關的物理信息[11,12]

最后,還有一些問題也值得我們關注和思考:

  • 數據所有權和共享

如果考慮到數據所有,如何促進數據共享?誰負責數據維護?

  • 元數據管理

元數據本質上是一組描述另一組數據的數據,它描述了一種數字資源,可以準確有效地恢復信息并檢驗其完整性。那么,什么是適當的元數據架構?元數據最佳的保存和管理方法是什么?

  • 多數據管理

如何有效地處理從多個來源獲得的異構數據,例如,數據序列、圖形、顯微照片、模型等?如何使異構數據能對不同領域的人員有價值?

參考文獻

[1] Raccuglia, K. C. Elbert, P. D. F. Adler, et al. Machine-learning-assisted materialsdiscovery using failed experiments?[J]. Nature, 2016, 533(7601): 73-76

[2] Agrawal A, Choudhary A. Apl Materials [J], 2016, 4 (5): 1-17

[3] Sparks T D, Gaultois M W, Oliynyk A, et al. Scripta Materialia [J], 2016, 111: 10-15

[4] Wang Zhuo, Cui Yuwen, Materials Informatics and Its Application in Materials Research [J], Materials China, 2017, 36(2):132-140

[5] M. Rickman, H.M. Chan, Materials informatics for the screeningof multi-principal elements and high-entropy alloys?[J], Nature?Communications, 2019, 10:?2618

[6] Rajan, P. F. Mendez. Materials Informatics[J],?Statistical Analysis & Data Mining, 2013,?1(4): 470

[7] Doreswamy,Hemanth K S. International Journal of Database Management Systems[J],2012,3 ( 1) : 512-522.

[8] Zhan, T.; Fang, L.; Xu, Y. Sci. Rep. 2017, 7 (1), 7109

[9] Wiao Wan, Wentao Feng, et al. Materials Discovery and Properties Prediction in Thermal Transportvia Materials Informatics: A Mini Review?[J]. Nano Lett. 2019, 19, 3387?3395

[10] M. Rickman, T. Lookman, S.V. Kalinin, Materials informatics: From the atomic-level to the continuum[J]. Acta Materialia 168 (2019):?473-510

[11] Seeram Ramakrishna, Materials informatics[J], Journal of Intelligent Manufacturing, 2019, 30:?2307-2326

[12] Gentoku Nakada, Yasuhiko Igarashi,Materials-Informatics-Assisted High-Yield Synthesis of 2D?Nanomaterials through Exfoliation?[J], Theory Simul. 2019, 2, 1800180

本文由胡凡供稿。

歡迎大家到材料人宣傳科技成果并對文獻進行深入解讀,投稿郵箱: tougao@cailiaoren.com.

投稿以及內容合作可加編輯微信:cailiaorenVIP.

分享到