AI+材料科学:人工智能提速新材料发现

传统的材料研发模式主要依赖“试错”的实验方案或偶然性的发现,其研发过程一般长达10-20年,在很大程度上已经无法满足21世纪工业发展对新材料的需求。随着信息科技的逐渐成熟,人类通过计算系统或人工智能发现新材料成为可能。人工智能和材料科学的结合充满前景,但依然存在挑战。

主持嘉宾:

·周华,美国阿贡国家实验室物理学家

主讲嘉宾:

·汪洪,上海交通大学材料基因组联合研究中心主任,“致远”讲席教授,中国材料试验标准委员会(CSTM)材料基因工程领域委员会主任委员

·刘宜晋,美国SLAC国家加速器实验室斯坦福同步辐射光源LeadScientist

·胡嘉冕,美国威斯康星大学麦迪逊分校材料科学与工程系助理教授

·刘淼,中国科学院物理研究所特聘研究员,博士生导师,atomly.net创始人

讨论嘉宾:

·尹万健,苏州大学能源与材料创新研究院教授,博士生导师

人物介绍:获美国伊利诺伊大学材料科学与工程博士,曾在美国任职于SONY、松下、GuardianIndustries等跨国公司,研究薄膜材料及其在半导体、平面显示与建筑节能中的应用。2010年起在中国建筑材料科学研究总院开展建筑节能镀膜玻璃、智能玻璃与太阳能光热材料及产业化技术研发。曾担任中国工程院、中国科学院材料基因组重大咨询项目专家。当前研究集中在材料基因工程理论,高通量材料制备与表征技术及机器学习在材料中的应用。

这次的演讲题目是《数据驱动的材料创新基础设施》,材料创新一直处在各种颠覆性技术革命的核心,常用作时代的标志。

新材料发现的传统过程有几个特点:

一是偶遇,即材料的用处是无意中想到的,偶遇最早期发现新材料的方式;

二是科学直觉,当有一定经验以后,人们便开始形成科学、系统理论;

三是实验试错,直觉产生以后,测试材料是否有效则取决于大量的实验试错的过程,这过程非常耗时、费力且昂贵。

当今社会对我们提出了新的要求,因此材料发现的模式也要向可预测、可设计进行转变。

研发模式的理想状态是按需设计,任何材料从理论上计算即可获得。但现实是,今天的模式基本依靠尝试。

如何找到这个关系呢?首先,向其他领域学习,例如生物学里有生物基因的概念,了解基因即可了解家族病史、病因,然后采取治疗措施。同样,如果我们掌握材料中的“性质基因”,那么也就掌握了按需设计的钥匙。

其实,物质世界比生物世界更复杂,生物基因只是物质的一种,而且是相对简单的一种。而关于材料基因,行业一直有质疑,因为,在经过了若干年的探讨后,我们仍不知道如何去定义材料的基因。

但当前达成共识的是:存在材料基因组或材料基因工程,即预测型高效获得成份-组织-工艺性能之间关系的方法论。因此,当前并没有材料基因的定义。

美国曾在2011年提出了一个名为“材料基因组”的科学计划。具体的材料基因组计划的主要任务是建立一个新型材料创新的基础设施,目标是将材料从研发到应用的速度加速至少加快一倍,成本降低一半。里面也提出了一个新的材料创新逻辑,具体包括:

1、发展计算工具,通过计算逐步替代耗时费力的实验过程、发展高通量材料实验工具:

2、发展高通量材料实验工具,更快地进行材料验证和筛选;

3、发展材料数据库/信息学工具,有效管理从研发到应用全过程材料数据链。

基于上述,我把材料基因工程工作模式总结为三点。第一点,实验驱动,本质上还是靠尝试,是基于高通量的合成与表征的实验。可以直接优化和筛选材料,从一个一个试到一批一批试,量变引起质变。

实验驱动的典型技术是1970年提出的组合材料芯片制备,基于此技术后来进行了很多组合化学、组合生物的实验;1990年代中期,美国劳伦斯伯克利国家实验室(LawrenceBerkeleyNationalLaboratory)的向晓东等科学家,受到电路芯片和基因芯片的启发开展了通过组合薄膜方法构建相图的工作。

第二种模式叫做计算驱动。通过理论计算模拟,预测有希望的候选材料,缩小实验范围,从而便于直接用实验验证。目前,这种办法已经应用广泛,而且在各个不同尺度上,衍生除了连续体方法、介观方法、分子动力学、第一性原理方法。

这里特别讲一个热电材料的案例,通过用一批已有数据然后筛选,通过计算去预测其它可能的优化效果,最后用实验验证。

这种模式的案例如上图所示—热点材料。通过用一批已有数据进行筛选,通过计算去预测它可能的优化效果,最后用实验验证。

现在回过头来看研发路径的两种思维。研发程序中往往会有起点和目标的设置。传统研发路径围绕目标逐步趋近;而在大数据的环境下或者数据驱动的环境下的研发路径,先利用在研发过程中获得的大数据,然后通过机器学习形成模型,最后通过模型进行预测。

这两种研发思维的根本区别与人类对世界认识的演化有关。几千年前,人类认识世界的方式都是通过实验观测,积累了一定实验观测经验后,开始理论推演,用数学语言描述世界上发生的现象;然后,在上世纪中叶,计算机出现了,于是开始有能力进行计算仿真;现在随着数据量和计算能力爆炸性增长,科学研究开始进入大数据+人工智能的第四范式。

回顾前面三种模式,实验驱动和计算驱动是基于事实判断或者物理规律的推演,并没有根本上改变原有的思维模式,数据驱动则是具有革命性的,因为人工智能方法擅长建立数据间的关联关系,是传统认识模式的补充和延伸。就像一个工具箱里增加了一项新工具,新工具可以做原来做不了的一些事情,因此具有颠覆性的效果。

材料科学很可能就成为人工智能新应用热点。DeepMind创始人、AlphaGo之父DemisHassabis,在围棋上获得巨大成功后,在一个访谈曾经提到:下一步若将AI技术应用到材料当中,或许可以从中可以得到想要的结果。

因此,数据驱动是材料科学未来重要的发展方向。数据驱动是一个新工作模式,需要全新基础设施的支持才能发挥充分效力。数据驱动所需要围绕数据协同和数据交叉来开展工作,也就是需要建立以数据为核心的集“高通量实验”、“高通量计算”和“材料数据平台”三位一体的综合性创新平台。

上图是材料基因工程基础设施框架,这个基础设施包含数据生产、数据分析、数据应用。其中,数据生产是实验平台和计算平台;分析部分需要数据库和人工智能工具库。

值得一提的是,刚才提到的科学第四范式,其基本前提是:材料的数据,没有数据一切是“空谈”。首先要解决数据够用、好用的问题。客观上,尽管现在材料数据已经积累了一两百年,但材料数据仍然高度匮乏。下表中可以看出,二元数据还较多,三元及其以上比较少。

因此,高通量实验和高通量计算在数据驱动环境下可以看作为获取大量数据的有效途径。我提出的方案是建立数据工厂,批量产生高质量的基础数据。这里需要一个专注的、聚焦于数据生产的环节。

建立数据工厂的思维是数据产生环节的革命性变化,这意味着:

1、全面的材料数据将被大规模地有意识地产生,不再作为分散的具有特定目的的实验或计算的副产物;

2、数据产生由个体活动转变为有组织的社会活动;

3、数据的社会属性从私有财产转变为公共资源;

4、数据的质量、一致性和全面性将得到提高,数据共享变得更加简单,社会总成本也将降低。

什么叫数据工厂?分为两个部分:计算数据工厂、实验数据工厂。其中,计算数据工厂叫做高通量计算平台;实验数据工厂可以看做高通量制备与表征平台。

有了数据工厂,也就有了足够数据,接着就需要解决数据好用问题。数据好用要符合科学界提出的FAIR四原则,即可发现、可获取、可互操作、可再利用。换句话说,就是数据看得见、拿得到、听得懂、用得着。

最后,总结一下,整个内容有两点:

第一,数据驱动模式是材料基因工程发展的核心问题。

第二,要开展数据驱动模式,需要新型的基础设施来适应,通过这个过程满足大量对数据需求和数据质量的需求。

这次演讲的题目是《X射线大科学装置与人工智能在先进材料表征中的应用》,整个报告涉及四个方面的内容:物(Material)、务(Research)、悟(Insights)、骛(Perspective)。

先来介绍物,它是我们复杂的研究对象。研究“物”需要先进的大科学装置提供强有力的工具。而在研究的过程中难免产生大量数据,这时便需要先进计算方法,从数据中获取知识。

我们以电动汽车为例,一台特斯拉汽车有7000多个结构单元18650的电池,虽然通过结构图看似很简单,但在充电和放电的过程中,液态电解液里的正极、负极,电子和离子通过外面的通路和里面的电解液来回传导,其实是非常复杂的结构。

每个18650的电池都像山楂卷一样,结构是一圈一圈的。如果把正极材料拿出来观察,可以看到里面有千千万万的颗粒,这些颗粒有大有小,以不同方式组合在一起;如果看每个单个颗粒,还有很复杂的内部结构;继续放大看到原子尺度,可以看到有不同的晶格象。因此,这样复杂的体系给我们的研究工作造成了一定困难。

研究对象的复杂性,不仅在于我们预先设计好的结构复杂性,更在于材料在工作环境下的动态变化。举个石油化工领域中的例子,原油开采出来之后经过催化裂化反应,会产生各种各样有不同用途的产物。这一过程伴随着毒性金属在催化材料上的逐步堆积,降低催化性能。这个现象导致了全球每天将消耗掉两千吨的催化材料。我们可以对这个复杂体系做很细致的表征,采集非常高分辨的三维结构,从中找到有化学活性的区域。但问题在于这个材料在其工作环境下发生的动态变化是很复杂的,这给我们进一步造成研究的困难。

解决这个问题需要先进的实验装置(务)。下面介绍SLAC国家实验室拥有的两个大科学装置:SSRL同步辐射和LCLS自由电子激光。这两个装置的原理是相通的:电子在高速运动的过程中,当运动方向发生改变,会辐射出高质量的X-ray,利用X-ray我们就可以做各种各样的实验。

举例而言,如上图所示,研究钇钡铜氧的工作,研究者是我的同事Jun-SikLee和Chi-changKao,钇钡铜氧作为一种经典的超导材料,对强磁场脉冲的响应。在研究过程中,我们需要把非常强的磁场脉冲打在样品上,同时用X-ray的脉冲去探测这一瞬间的信号。

经过努力,研究者找到了一个微弱的衍射信号,能够代表了材料内部在强磁场的作用下发生的一些改变。又因为现在自由电子激光装置重复频率较低,所以一个磁场脉冲只采到一个数据点,但正在进行中的LCLS-II改造将从120赫兹升级到1兆赫兹,即在一个红色的磁场脉冲里可以采集到一系列的X-ray脉冲数据,将数据量提高好几个数量级,从而大大提高实验效率,从根本上改变现在的研究方式。

关于“悟”,我举一个例子,对于复杂的电磁材料,传统的同步辐射谱学方法可以用一个较大的光斑采集吸收谱,大光斑覆盖了千千万万的颗粒,得到的信息是大量颗粒的平均现象,并无法得知颗粒和颗粒间是否有不一样或者每个颗粒内部会发生怎样的不均匀性。利用谱学成像的方法能有效解决这一问题,也能给我们带来了更多科研机会。

谱学成像虽然很高效,但数据处理的流程需要有一些假设,就假定对研究的材料体系有一定了解。因为,如果知道这个材料体系中可能出现什么样的化学态,那么就可以用标准谱对数据进行拟合,进行表征,最后得到三维结果。但是问题在于:如果所研究的材料体系里面发生了一些没有遇见到的现象或者反映,所得效果就不会太好。

怎么办?这就需要借助更加有效的科学计算方法。例如可以对数据进行聚类运算。聚类方法有很多,如何才能把现有的方法整合到工作流程中去?

如上图所示的工作,从正常情况下循环的电磁材料中得出了一系列的数据,然后用数据进行聚类分析得到聚类结果。聚类所得的不同类,代表反应有不均匀性。基于以前的经验,我们得知:化学成份的存在并没有对电磁的宏观性能产生非常重大的影响。因此,可以把另外一个电磁的数据(即在比较极端条件下循环采集的数据)和之前得到的数据进行对比,然后得出一些化学离群值。最后,发现正是这些化学离群值可能会造成一些性能的降低。

在上图这个例子中,我们把大量数据进行降维处理,包括对数据的聚类,最后可以赋予一些科学解读。具体而言,我们在长循环之后的锂钴氧的正极材料中找到了四种不同化学态,其各自又有自己空间分布。得到这些信息之后,一个对X射线谱学很了解的科学家,配合电池材料、电池化学方面的资深科学家,两者合作可以对数据结果进行科学的解读,赋予其科学含义。

除吸收谱外,对图像的处理也可以利用人工智能的方法。例如我们对正极材料做了三维的高分辨的成像,会看到这里面有千千万万的颗粒,每个颗粒的形状与破损程度都不同,在40微米厚的电极片顶部和底部所发送的化学反应程度是不一样的,如果想对每个颗粒都进行细致的研究,显然用人工去完成执行过程是非常低效,也会带来很多人为的误差。因此就需要借助机器学习的方法。

对于数据,当前有很多传统方法可以对数据进行分割。但有时候,传统数据分割方法失效。具体例子如上图所示,从中间图可以得知,不少正极颗粒在多次循环后已经破裂的不成样子,传统的数据分割很容易把部分碎片识别为不同的小颗粒,但是这些碎片其实属于同一个颗粒。因此,最好的算法需要具备这样的智能:能够把这些碎片组合进同一个颗粒里,然后对此数据开展后续的统计分析。

其实,在三维照片里识别颗粒和拿手机拍照片是大同小异的。类比用手机拍摄集体照,它可以自动的帮助识别视场里的人脸。无论何种手机,何种操作系统,总是有一定的成功率,但也并不能够把所有人脸都准确识别出来。如上图,如果把一张照片里,把坐在正中间的爱因斯坦漏掉,像我这种物理系毕业的人会表示“不可理解”。于是,我们不满足于这种成功率,就需要对这些算法进行改进。

由于存在三维数据,那么就可以把三维数据在不同方向、不同的深度进行切割,然后用现成算法对每个方向、每个深度做二维颗粒识别,最后进行数据聚合,从而帮我们识别数据颗粒。可以想象,因为缺乏聚合步骤,所以二维数据识别中可能存在“断层”,从而导致准确率降低。因此,颗粒识别方法比手机识别人脸准确率更高。

整个工作思路是:首先,原始数据通过机器学习进行颗粒识别,每个颗粒都提取出来一些特征,然后把特征作为输入,用另一个机器学习的模型预测它损坏的点。

最后讲讲我的理解和展望。大科学装置的最新发展给我们提供了很多强有力的实验工具,带来了科研的机遇。但大科学装置本身是很复杂的,如果你去SLAC中央控制室,会发现控制室里到处都是电脑屏幕。想要控制好、优化好不是那么容易的事情,毕竟,如果简单调整一些参数,也可能会有一系列的连锁反应。如何优化、如何帮助我们真正用好大科学装置,人工智能大有可为。

由于研究对象非常复杂,且是多尺度、多维度的,很多成份间还会相互影响、动态演化。应对这种研究对象,理想实验流程应该是:先有理论预测;然后在理论预测的指导下设计复杂实验,目的是对样品环境进行调控,让其能够反映真实样品行为;随后需要实时进行数据筛选和数据处理;最后对数据进行有效数据挖掘,从数据中总结一些规律,并用这些规律指导理论模型,而这些理论模型能够作为下一个流程的基础。上述流程需要各种各样不同的科学家共同参与,包括但不限于实验科学家、X-ray科学家、数据科学家、理论科学家。

胡嘉冕:材料显微结构及性能关联的机器学习

今天的演讲题目是《材料显微结构及性能关联的机器学习》,材料显微结构及性能关联在自然科学领域是属于非常古老的问题,在材料科学领域里也属于核心问题之一。但对于数据科学领域来说,还比较新颖,存在很多机遇和挑战。

首先用一个例子说明材料显微结构的重要性。上图展示了用于喷气式飞机的三种不同涡轮叶片,它的显微结构从左到右分别为等轴晶、柱状晶、单晶。其中,单晶是里面原子排布方向全部一致,全部朝一个方向排布;柱状晶里面的原子排布方向并非单一,同时它经历的形状会具有很强的各向异性,和柱子的形状非常相似;等轴晶里面的原子排布呈多样化,它上面微小的区域,名为晶粒,每个区域里原子排布都具有特定取向。

以上三种涡轮叶片,单晶涡轮叶片高温逆损性最好,它可以更加耐疲劳、耐高温。这是非常重要的性质,意味着叶片可以转的更快、更久,从而为飞机提供更强、更持久的助力。这说明材料的性能是可以通过优化材料的微观结构、显微结构实现显著提升。

这次报告也集中在材料的显微结构(Microstructure),以及与它的材料性能的关联。主要回答三个方面的问题:第一,我们为什么用机器学习的方法研究材料科学的核心问题;第二,对于关联,显微结构和性能关联目前有哪些主要的方法,以及它们各自的优缺点是什么;第三,材料领域目前的新工作是什么,其工作特色是什么,最后会展望未来发展。

下面开始第一个问题,机器学习现在炙手可热,但是我们为什么一定要用机器学习来研究材料显微结构和性能的关联。换句话说,在什么情况下适合使用机器学习?

个人认为有两种情况:

第一,物理模型的计算速度太慢时,可以用机器学习进行加速。

如果采用用机器学习,那么可以绕过这些复杂的物理过程,不用关心材料里面的科学机理,直接对输入的材料晶体结构和输出的材料性能建立统计关联。通俗一些解释就是:机器模型是基于统计规律的模型,而物理模型是基于物理规律的模型。而统计规律的模型的预测速度通常可以是物理模型的成千上万倍。

第二,问题太复杂,传统物理模型无法准确建模。举个例子,电绝缘材料的计算场强:存在一个绝缘材料,给予很高的电压,电压强度直到能把它打穿为止。问题来了:能通过不进行实验,完全通过计算机预测材料的高电压承受度么?这个问题看似简单,其实很复杂,其中不仅涉及到电学,如果是固体材料,还会涉及力学、热学等多个过程的耦合。

所以,真正通过完全不依赖于任何经验预测,单纯通过计算进行预测电压是非常困难的。任何材料在极端条件的性能预测都是非常大的挑战。例如用作宇宙飞船的金属,会暴露在外太空超低温、超高温、电极辐射环境下,那么预测这种金属就会变得非常困难。

那么,有没有解决办法?答案是:收集数据,直接忽略中间的物理过程,直接从输入到输出,建立统计关联。这相当于考试的时候,绕过很多过程,快速直接告诉你答案。

具体而言,如果要用机器学习进行做材料显微结构以及性能关联研究,有哪几个步骤?现在的模型基本可以分为两个关键步骤:首先转化材料原始数据,找出一个向量或者矩阵,能够包含这个微结构的所有关键信息;然后,将此向量关联到目标性能上。假设一个微结构用X表示,性能用Y表示,机器学习做的事情就是根据已有数据,训练出函数F:X->Y,有了函数之后,对于一个未知的新材料和结构,就可以预测出它所对应的性能。

难点在于第一步,即在面对很复杂结构的时候,如何找到表和包含所有的关键信息的向量或者矩阵。

解决难点的模型大概有三种,第一种描述或者代表显微结构的方法,起源于经典的连续介质理论,常见的方式是叫做Two-PointCorrelationFunction,能够描述两种空间上的相互关联。具体做法是:引一个函数代表它的物理性质,然后引入两点关联函数,目的是找到任意两种性质间的关联。换句话说,对于特定的物理结构,对任意空间上的一个点,有多少概率能够找到对应的物理态。

虽然这是比较成熟的模型,但也存在问题:即使能够做出两点配分图,其维度也会非常高。而包含物理参数的原始数据是三维(XYZ),进行变换之后,它的数据维度可能比原始数据还高,而且包含很多我们人类完全无法理解的“数”。

这种情况下需要对数据进行降维处理,最常用的降维方式叫做PrincipleComponentsAnalysis(PCA),通过对数据做正交变换,来筛选并保留数据差异较大的维度,舍弃数据差异较小的维度,将高维的数据转化至低维空间,最后用回归分析预测材料性能。这种方式的优点是非常快,但在计算Two-pointCorrelationFunction和做数据降维时,材料微结构信息的损失难以避免,从而影响预测准确性。

第二种描述材料显微结构的方式是基于图像,这种方式的优点是能够直接读取原始数据。可以把原始数据直接读到卷积神经网络(ConvolutionalNeuralNetwork,CNN)里,自动根据图像找到一系列的特征图,能够包含这个结构最重要的信息,然后进一步把数据做简化,关联到目标性能。

这种方法的好处有两点,第一是前面提到的可以直接读取原始数据;第二,可以直接得到你所需要的特征图,而且是没有任何偏见,完全自动取得。当然,用CNN处理多晶结构会存在两点问题:首先是不够高效,因为实际材料有成千上万个晶粒,要区分一个晶粒,至少用一个三维像素点表示,成千上万个晶粒,需要很多像素点,逐个读取速度太慢,失去了机器学习的优势;其次,由于卷积神经网络本身的特性,无法考虑两个晶粒间的物理相互作用,由于微观结构的物理相互作用对最后性能影响非常大,所以也会影响预测的准确性。

上图右,是人和人、人和城市的关系图。图中有两种独立的个体,人和城市,图上的两种不同颜色点代表两类不同个体。而人与人之间、人与城市之间有四种不同关系,于是,我们用4种不同颜色代表这4种关系。

用这样的简单矩阵就可以描述谁是谁的邻居,从而方便后面描述它们的相互关系,例如10和1并没有近邻,但是能通过共同邻居8实现信息传递,从而让各个晶粒之间的物理相互作用得到考虑。

显然,图的方式在处理多晶结构时表现非常自然,每个晶粒对应一个节点,晶粒间的相互作用能通过相互的线进行描述。这种方法与基于图像的处理方式相比,天然上就更加高效,因为图像是一个个像素,而一个晶粒至少包含很多三维像素。

上图是我们自己搭建的图神经网络结构。同样考虑10个晶粒,数据流过了第一层MPL,每个节点都可以从近邻获取信息,但节点10的信息没办法传到节点1(因为不是近邻),但节点8和节点是近邻。所以,在“过”第二层的时候,把节点8的信息传递到节点1的时候,就等效于把节点10的信息传到节点1。

如此操作,就可以保证“过两层之后”所有晶粒的信息都能相互传递,每个结点都可以和剩下所有节点建立联系,根据总晶粒多少,可以选择相应层数来控制想要得到“多少个邻居”的信息。最后会得到一个“很大”的向量,这个向量不仅包含了每个晶粒的特征和物理特性,也包含了它们的相互作用。

使用上述模型,我们团队使用少于500个多晶微结构作为模型的训练数据,在测试数据集(testingdataset)上实现了大于90%的预测正确率,这是远远超过目前其他模型水平的。微结构信息学(MicrostructureInformatics)的挑战之一是数据量不够。我们这个方法由于在小数据集训练上的优异表现,应对这一挑战是有一定优势的。

第二点,对机器学习算法的改进。怎样才能更好的对数据不确定性进行定量分析,怎样才能对机器学习模型本身的不确定性进行分析,怎样理解深度学习网络的学习过程和所获得的预测函数,这些都是当前的研究热点。

第三点,机器学习为人人。机器学习包括其他的人工智能方法,在材料领域的应用属于较初级阶段。怎样才能让更多的研究人员把机器学习作为一个工具来辅助研究?做出一个成熟的,易于使用的,专门针对微结构信息学的机器学习软件/平台或有帮助。

刘淼:数据驱动的材料研究

人物介绍:本科就读于中国科学技术大学物理系,后赴美国犹他大学材料系攻读博士学位,2013-2018年进入美国劳伦斯伯克利国家实验室从事博士后研究,2018年初加入中国科学院物理研究所,主攻材料数据科学。他也是松山湖材料试验室、怀柔材料基因平台的兼聘教授。他创建的atomly材料数据库将14万+个无机材料的高质量数据带到科研人员触手可得之处。

刘淼:这次的演讲题目是《数据驱动的材料研究》,整体内容分为四个部分:重要性和必要性、国际趋势、Atomly进展、未来目标。

随着材料合成工艺的进步,总的趋势是从自然材料到人工合成材料,从无机材料、金属材料到现在的材料种类多元化,例如有机、半导体等材料。

为什么材料研发过程这么慢?这和材料研发模式有关。爱迪生实验了上千次,才找到竹炭做灯丝,即使爱迪生上千次的试错,也并没有找到最好的材料,直到60年之后,科学家才发现钨可以用作灯丝。

从方法论角度观察材料研发过程。工业革命前,基本的材料研发模式是试错;当建立起近代的数理化理论框架后,才可以从理论上对材料发明发现做指导;近代有了计算机,用数值方法求解理论模型的数值解成为现实,从而研发效率大幅提升。

我们现在正处在技术革命中,基于数据科学,现在的信息化技术可以带来更广泛材料的创新。

信息化时代,除了大量材料科学的数据积累,还需要一些人工智能的方式处理这些数据,提取数据间的隐含变量,从而用这些变量指导材料科学的发现。

总的来看,材料科学的发展过程是从试错模式到理论预测模式的转变,本质是从弱信息化、弱信息积累的模式向强信息化、强信息积累、信息耦合模式的变迁。核心推动力就是和信息科学的交叉。

用数据科学的方法,已经证明材料发现的过程会更快。例如,过去70年人类平均每年发现3.3个氮化物材料,加州大学伯克利分校的Ceder组通过高通量计算等材料大数据方法,一年内发现92种有可能材料,并用实验合成7种。

更进一步,我们用计算和数据的方法,筛选了镁电池的正极材料。镁电池材料概念的验证在大概20年前就提出来过,但是受限于材料科学的发展,一直没有找到合适的镁电池正极材料。我们从数据角度出发,用了MaterialsProject的数据,加上一些计算的数据,筛选了所有可能的多价态化合物,之后通过多步的筛选找到若干个有可能合成的材料体系。把这些材料体系交给了实验科学家,他们的后续合成和测试后,最终找了硫化钛尖晶石结构镁离子电池正极材料,把储能性能提高了一倍以上。整个工作,从计算到最后实验验证,仅耗时一年半。

最早MaterialsProject(美国劳伦斯国家实验室)发现可以用这样的方式来积累大量的材料数据。并且,他们在2010年构建了数据库,目前已积累了12万条的高质量材料数据。类似的数据库还有AFLOW,NIST,OQMD、NOMAD等。值得一提的是,我们国家并没有世界级材料数据库。

中国是访问MaterialsProject最多的国家,但在学术环境变化如此之快的今天,如果真有“材料封禁令”的那天,将会对我国的科研产生非常大的伤害。因此,我国的材料科学发展急需此类数据库。在“十三五”规划期间,科技部、中科院和中科院物理所也提前布局了这一领域的发展规划。

基于物理所的布局,我们近期构建了材料数据库Atomly.net。基于Atomly材料数据库,可以反复进行DFT计算。同时,我们有一个强大的计算集群,可以高通量计算无机材料、晶体材料数据。Atomly里的数据和信息包括:基本信息&能量&对称性、可视化晶体结构、能带结构&态密度、热力学相图/稳定性、X射线衍射谱。

后端工作流软件体系包含四个部分,首先是高通量计算,计算机无时无刻不休息的在帮我们做计算,一旦计算机有空闲资源,它会自动提交一个作业,自动做计算排队;其次是大数据分析,当作业结束之后,会进行结果的分析,并将分析结果自动提取,存到数据库里;再者是数据库整合,将结果的分析通过数据库的整合模块,整合到大的数据库中,然后通过网站的前端—Atomly网站前端的架构,查看数据。目前,正在完善的一个步骤是大数据分析的模块,所以,当前已经建立了一套比较初步的,但比较比较完善的用DFT、用密度泛函理论做计算,并不断积累数据的方式。

Atomly积累了大量数据,这里举三个数据使用例子。第一,物性预测。通过分析大量材料数据,通过机器学习归纳出材料形成能预测模型,可用迅速判断新材料的形成能和结构稳定性,从而指导新材料设计、稳定性预测等。第二,人工智能拟合势能面。通过人工智能拟合大量DFT数据,得到可以精确原子间相互作用的势函数,从而可以带给业界可以兼顾DFT精度和分子动力学速度的材料模拟新方法。第三,新材料发现。批量计算和分析一系列的材料,系统的分析材料演化规律,从而预测材料研发方向。

▍跨学科讨论

周华:如何整合和充分利用已有的但分布式布局(特别是地域空间分离的)的各种基础设施,使之成为一个新的以数据为中心的材料基因组集成平台?

汪洪:现在各个国家都建立了很多可以称为平台的机构,这与我们的长远目标是完全一致的,这些平台本身都具有产生数据的能力,不同之处是:过去我们习惯的数据形式、内容和未来略有差别。

我们制定的材料基因工程的数据通则,充分考虑了未来的需要。过去的数据库,建立了成份、结构和某种性能之间的关联。为了适应未来更加开放、共享和能反复使用数据的需求,我们要把样品、原始数据、由原始数据推导出的或者经过处理的数据打散了包括在数据库当中。

制定通则的时候,其核心问题是要建立相应的标准,只要按照一定规则进行,整个社会的机构可以形成一个大的网络,分布式便不再是问题。至于具体如何建立交换机制,我们也在探究中。一个想法是利用区块链技术,既保证数据的真实性和可追溯性,也保证了原本拥有权。在这个基础上数据有足够能力自由流通,这个机构建在什么地方也就不那么关键了。

机器学习的策略与优势

周华:高通量实验表征的设计与实施应该如何选取和优化它的挑战和应对策略分别是什么?

周华:从机器学习角度和提速材料设计角度来看,“性能需求反溯微结构设计”和“微结构设计优化预测性能”这两种导向,哪种更能发挥AI、机器学习的优势?

胡嘉冕:两个问题并不矛盾,材料设计应以优化性能为导向,以找到合适的原材料和材料制备工艺为目的。但对微结构的预测和设计优化不可或缺,从工艺到微结构再到性能(Processing-Microstructure-Property)是一个完整的链。首先,预测不同工艺条件(比如温度、成分、压强等)下的微结构,然后再预测与此微结构对应的性能。接下来,需要做实验来验证在给定的工艺条件下是否能获得相应的性能。如果实验表明预测的性能未达到预期,则需要重新选择其他工艺条件,再重复上述过程直至性能满足预期。关键在于怎样让工艺条件的再选择变得更高效,而不是没有目的地试。在这方面,贝叶斯优化(Bayesianoptimization)或可发挥一定的作用。

周华:数据库和MaterialsProject之间有什么样的区别和联系?

刘淼:我们更想建立的是一套流程方法。对于高通量计算这种方法来说,它不仅仅只是数据库,国外已经有此类的程序包、工作流和基础设施,给我们很多启发。在建立Atomly以后,我们也可以针对某一类材料做高通量计算,拥有这样的工作模式。

我们对MaterialsProject的方式比较认同,现阶段的成品比较相似。但我们现在的数据量和数据质量,在某种意义已经超越了MaterialsProject,例如Atomly.net有14万个晶体结构的,MaterialsProject只有7万个。目前Atomly.net数据库已经完成了几乎所有人类已发现的实验结构的计算,现在正在增加的都是人造结构,随着数据积累再过三五年之后大家就可以逐渐体会出差别。

周华:从数据驱动推进的角度,例如材料制备和实现过程,产生的庞杂的内容,能否整合到数据库里,帮助材料计算、预测?

刘淼:材料科研的第四范式就是用材料数据的积累改变从前个人经验积累的模式。把群体的智慧不断结晶、积累下去,才是根本方式的变化。另外,生产数据的模式不仅仅限于计算,所有可以批量生产高度一致性数据的方法,都有可能有益于材料数据科学,只不过现阶段通过高通量计算获得大批量的数据是比较容易。

前面也提到,数据产生过程的数据标准化非常重要,这并非人为规定的数据标准,而是保证在数据库内每个数据之间具有相同标准,具有可比较性,才能让这个数据集扩充下去。

我们正在实践这样的事情,第一批的计划是做DFT计算数据库,未来还会有实验数据库,包括各种组合材料方法,各种批量制造材料、批量表征材料的方式产生的数据。

周华:尹万健老师的报告中提到,通过数据挖掘可以精炼出简洁的描述符,也叫描述子。因此,描述子的构建如何能反映材料构效更本质的规律?

尹万健:要做机器学习,数据质量非常关键。描述子其实是一个化学语言,就是定量描述一个复杂现象的简单标度,一个好的描述子需要两个条件:一是准确,二是简单,太复杂不容易被公众接受。以衡量综合国力为例,大多数国家使用的指标是GDP,虽然它并不算比较好的描述,但却非常直观。

先谈谈我们研究催化描述子的原因,因为催化描述子D-bandtheory已经非常成功了,我们为什么还要做?从做计算角度来看,D-bandtheory没有那么简单,至少还需要DFT计算。

所以,如果数据库中有十几万种材料的话,就必须把十几万种材料的D-band位置都计算出来,其实,这非常复杂的。于是,我们思考,能否构建更简单的描述子?从而将催化和材料结构、元素联系起来。这时,采用domainknowledge(领域知识)很难建立联系,因此我们采用机器学习进行尝试。可能是钙钛矿体系比较“优秀”,我们找到了一个比D-bandtheory更简单的描述子,这个描述子不需要DFT计算,它只和离子半径有关系。

所以,网盘们通过自己的研究发现:AI确实能发现好的描述子,指导我们发现新材料,但AI发现的新描述子到底有什么物理意义,很多情况下并不清楚。如果能够进一步挖掘简单描述子背后的物理意义,就能得到新知识。这样的话,AI不仅帮助发现新材料,还可以教我们新知识,这可能是更重要的意义。

周华:材料科研界和工业界的合作目前还比较松散,这种紧密合作目前的最大挑战和难度是什么材料科学家在推动这一进程中能做些什么?

汪洪:我们研究材料基因组的最终目标就是要应用,因此我们和很多的企业建立了联系,进行了很多沟通。但是往往涉及到具体案例的时候,还是会出现问题。企业共有的担心的是数据的保密性,因为有些数据是他们的生命线。在这个问题没有解决之前,作为外单位的人与他们合作是有门槛和困难的。

刘淼:这是业界的共同问题,并不仅仅限于材料领域或者AI领域。大家在回答问题“我们如何和产业结合,从而解决生产中实际问题”的时候,确实有代沟和分歧。基础科研和应用研发在过去是脱节的,应用研发解决的是企业材料具体应用的问题。但我们国家整体的方向,正在步入从基础科研逐渐向应用转化的过程,意味着我们的基础科研实力逐渐增强的时候,大家会慢慢延伸到应用领域。

刘宜晋:在这个问题上,我认为学术界的研究人员可以有所作为。比如我们做的工作可以努力朝着OpenSource、OpenData方向努力,这能够从我们这一端把这个事情往前推,经过我们的努力来争取工业界的正向回应。

周华:在学术界或科研界内部,如何能有效的实现AI+材料研究的数据共享?

汪洪:料界有一个共识,急需要有一个交换机制。如果数据是由国家资助生产的,它的归属自然是国家,但若通过自身资源生产出来的数据,肯定也需要一定回报的,所以交换机制非常重要。

周华:人工智能或机器学习能否对材料合成方法和路径做一定的预测或规划?

刘淼:比如伯克利的Ceder团队试图用机器学习读文献,他们的数据库里已经有300万个文献,将300万个材料合成方法范例之后和计算数据做吻合,机器学习可以提取出一些材料的合成方式,那么其他的新材料就可以用这个模型去预测,我认为这是业界最领先的方式。一切皆有可能,大家只要善于思考,才有可能产生这样具有开创性的方案。另外我们可以用高通量合成、高通量表征这样的方式积累数据,当数据量到达一定程度,我们也能得到相应的知识。

周华:器学习能否对亚稳状态的材料合成有所帮助?

刘淼:这需要具体问题具体分析,总体就是如果有足够多的数据,数据质量足够高,多少会给出一些洞察。大家不要被已有的方式局限思路,我们其实在做一个信息化的方式,信息化是一种技术革命,带给我们很多可以做的方向,并不仅限于我们展示给大家的这些,有开创性的思维可能会更重要。

周华:用数据驱动来进行研究可能解释性比较差,甚至要改写材料科学的基础理论,我们该如何推进材料科学理论的进步?

尹万健:我们的物理定律是人类几百年来慢慢总结和发现的规律,这些规律是不是能够代表全部?这是一个根本性问题。用我们做计算的语言来说,人类现有的知识结构(domainknowledge)是否有可能只是处于整个知识结构(knowledgelandscape)的一个局域波谷处(localminimum),因此而出现“一叶障目,不见泰山“。就像下围棋一样,算法可以不按照人类千年来总结出来“定势”来走,最后还是把你给打败了,说明所谓的“定势”本身就不是最优的。现在机器学习有一个方向叫做“可解释的机器学习”,我们不仅要知道这个材料比其他材料好,还要知道为什么,它背后的规律在哪儿。所以有没有更好的方法让我们应用到材料科学上,更好理解背后的物理规律,这方面现在可能刚刚起步,这需要不同科学领域的人相互交流。胡嘉冕:举一个机器学习预测有机分子性能的例子。研究人员通过机器学习定量分析了分子中每一个原子对最后结果的贡献度。他们发现,机器筛选出来的具有最大贡献度的原子正巧是该分子的催化活性中心。有时候,如果数据量太大,可以通过机器学习先筛选出统计意义上最重要的数据,然后我们再对该部分的数据进行重点分析,这样更为高效,或对新科学现象的发现起到促进作用。

刘宜晋:机器学习可以帮助我们捕捉到大量数据里面的蛛丝马迹,从而了解一些原来没有预想到的化学反应。这些信息可以反过来帮助我们理解整个流程,从而可以提供一些信息让我们进一步改进材料设计。

周华:针对材料物质科学的年轻学生和刚加入这个领域的新生力量的,他(她)们需要有怎样的准备,训练和积累来迎接材料探索开发新时代的到来

汪洪:现在的同学们随着计算机一起成长,对于未来要进入材料科学的同学来说,计算机技术是非常重要的一环,今后的学生,除了要打牢物理、数学、材料的基础,学习计算机、学习编程对于未来会有极大的帮助。所谓培养下一代的材料学家,就是要培养他们从思想上要认识到数据驱动是必由之路,能够掌握数据驱动这些基本工具。刘宜晋:我们做研究必须得从自己的专业出发,一开始不要追求很复杂先进的算法,从小问题逐步开始,一切皆有可能,但是要明确自己的未来发展方向。

尹万健:我经常和我的学生说,千万不要追求大而全,也许我们做的工作,方式不是最完美,算法不是最好,但是一定要想我们是要解决什么科学问题,你把自己定位成什么很重要。如果定位成做材料的,首先要想清楚到底要解决材料里的什么问题、设计什么材料、如何改进材料性能,作为年轻科研工作者提出合适的问题非常关键,然后再想怎么样利用好机器学习这个工具。

刘淼:我建议比较年轻的同学或者从业者尽早规划自己的职业,只要找到自己的热爱,剩下的问题迎刃而解了。

THE END
1.美国开发机器学习的方法,用于实时检测金属增材制造的热量积累原位监测的重要性:原位监测对于确保金属增材制造过程的质量和可靠性至关重要。它可以帮助实现缺陷监控、自动反馈控制、过程参数映射和减少材料浪费。计算框架的开发:卡耐基梅隆大学的研究人员开发了采用机器学习的计算框架,以实时识别局部热量积累的区域。这种方法的有效性已在具有各种几何特征的构建上得到了验证。通过上述https://baijiahao.baidu.com/s?id=1799203677359353546&wfr=spider&for=pc
2.如何利用机器学习推动智能材料的发展本文探讨了机器学习如何在智能材料领域发挥作用,包括材料设计、性能预测和制造优化。文章介绍了核心概念,如机器学习算法(如线性回归、SVM、决策树等)及其在智能材料中的应用,并讨论了未来发展趋势和面临的挑战,如数据质量和隐私保护。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/universsky2015/article/details/135807839
3.机器学习在材料信息学中的应用综述机器学习在材料信息学中的应用综述 随着科技的不断发展,和机器学习已经深入影响了许多领域。其中, 材料信息学作为一个跨学科的领域,结合了材料科学、物理学、化学 和计算机科学的知识,对理解材料的性质和设计新的材料具有重要意 义。近年来,机器学习在材料信息学中的应用已经取得了显著的进步, 本文将对此进行综述。 https://www.docin.com/touch_new/preview_new.do?id=4562864718
4.如何在智能信息化时代加速材料科学的研发与创新如图4所示,材料科学中常用的机器学习算法可以分为四类:概率估计、回归、聚类和分类。具体而言,概率估计算法主要用于新材料发现,而回归、聚类和分类算法用于宏观和微观层面的材料特性预测。此外,机器学习方法通常与各种智能优化算法相结合,例如GA,SAA或PSO算法,主要用于优化模型参数。此外,这些优化算法也可用于执行其他困难https://cloud.tencent.com/developer/news/333018
5.机器学习顶刊汇总:Science子刊AMAFMAdv.Sci.npjComput在此,美国伊利诺伊大学陈倩教授等人通过耦合定量3D成像、机器学习(ML)和理论建模,研究了聚酰胺薄膜模型系统中的纳米形态发生及其对渗透性和机械异质性的影响。聚酰胺膜是用于高效分子分离的大多数薄膜复合材料中的活性层,一般通过界面聚合合成。该薄膜在宏观上是平坦的,但其特征是包含纳米级内部空隙的复杂3D不均匀褶皱,https://www.shangyexinzhi.com/article/4707079.html
6.机器学习在钢铁材料研究中的应用综述机器学习技术已广泛 应用于指导材料设计中, 成为材料研究的新兴方法和热门领域. 对机器学习在钢铁材料研究中的应用进展进行综述, 介绍了 机器学习的工作流程和常用模型与算法, 阐述了机器学习在钢铁材料特征选择, 成分-工艺-性能预测, 服役行为预测以及逆 向设计方面的研究进展. 最后, 分析了机器学习技术在钢铁材料http://www.mat-china.com/oa/pdfdow.aspx?Sid=202112020
7.描述符与机器学习实现固体氧化物燃料电池阴极活性有效预测—论文—科该研究将机器学习、理论计算与陶瓷固体氧化物开发相结合,开发了一个经过实验验证的阴极材料机器学习筛选技术,实现了快速、有效地从庞大的钙钛矿组分中筛选高活性固体氧化物燃料电池阴极材料。 背景介绍 实现煤炭的清洁高效利用,推动煤炭革命,对我国能源结构改革具有重大战略意义!当前,现代化的燃煤电厂受到卡诺循环的限制,单https://news.sciencenet.cn/htmlpaper/2022/9/20229611394262575541.shtm
8.高通量多尺度材料计算和机器学习/材料基因工程丛书《高通量多尺度材料计算和机器学习/材料基因工程丛书》,作者:高通量多尺度材料计算和机器学习/材料基因工程丛书杨小渝|责编:周涵//郭学雯 著,出版社:科学,ISBN:9787030762825。http://product.m.dangdang.com/11684308154.html
9.材料科学+人工智能是下一个可能发生类似Alphafold的重大变革什么样的材料科学问题最适合于数据驱动的方法,或者最能从数据驱动的方法中受益,这些问题不断出现。在决定使用机器学习方法解决他们感兴趣的问题之前,对这方面有一个满意的理解是至关重要的。也许数据驱动方法最危险的方面是在不知不觉中把机器学习模型应用于先前数据领域之外的情况。一个丰富的、在很大程度上未知的https://www.iyiou.com/news/202107271020214
10.助力科研:;lammpsreaxff反应力场机器学习comsol电化学【机器学习材料性能预测与材料基因工程应用实战】 深度学习神经网络、经典机器学习模型、材料基因工程入门与实战、图神经网络与实践、机器学习+Science 案例:(神经网络在催化领域的应用、预测杂化钙钛矿带隙、有机太阳能电池材料快速筛选、团簇结构数据库构建、同素异形体结构数据库构建、原子性质分析、材料指纹和势函数生成https://www.jianshu.com/p/ce722c74db43
11.机器学习方法预测材料性能的新进展近二十年来,机器学习方法的发展为我们的生活带来许多便利。智能网络搜索、语音识别,乃至无人超市、无人驾驶汽车等,依托于机器学习方法的新事物正迅速地在生活中普及。Alpha Go的横空出世更让世界惊叹于人工智能的潜在价值。在科研领域,大数据的理念正在改变着科研人员对未知世界的探索方式。美国在2011年提出了材料基因组http://mmp.iphy.ac.cn/cn_detail.php?id=31633
12.玻尔?科研空间站(Bohrium?)“一网打尽”机器学习从进一步将机器学习方法应用在化学、生命科学、材料等科学领域,可以一定程度上替代传统实验的方法,如通过优化算法等手段,实现优化特定目标的属性和性质的目的。在材料发现领域,机器学习手段可以应用在材料结构设计和优化环节,快速探索可能的材料配置和性能。针对材料相关专业的学员,推荐的最后一门课程是 《 机器学习辅助材料https://maimai.cn/article/detail?fid=1832965941&efid=Fo047MTNUm519uB8Z8F94A
13.大数据AND机器学习:大数据是原材料,机器学习是原材料加工厂大数据是原材料,机器学习是原材料加工厂,而新一代人工智能服务则是工厂出炉的产品被消费在越来越多的日常生活中。 在Deepmind和AlphaGo获得的巨大成功吸引了全世界的目光的同时,新一代人工智能德比大战已经开始。 Deepmind之前开发的玩雅达利(Atari)街机游戏的人工智能是全新一代的智能技术——大数据驱动通用人工智能(Bighttps://www.cda.cn/view/17136.html
14.AI人工智能助力新材料配方研发!专栏文章摘要:近年来材料科学研究发展十分迅猛,不管是依靠实验手段还是计算模拟,都会产生大量数据信息,依靠机器学习算法可以从数据中挖掘有效信息,对于计算产生的大规模、高维度数据集,可以有效识别,提取数据集中的隐含规律和相关性。此外,利用机器学习还可以实现特征提取、图片识别等。 http://www.e-erp.com/zlwz/306.html
15.基于机器学习的新型高强镍基高温合金设计与优化.pptx基于机器学习的新型高强镍基高温合金设计与优化20231027目录contents引言材料科学基础基于机器学习的材料设计方法高强镍基高温合金的设计与优化基于机器学习的材料性能预测与优化结论与展望引言01研究背景与意义随着航空航天技术的快速发展https://www.renrendoc.com/paper/302420646.html