人工智能提速新材料发现YOSIAWebinarAI+材料科学回顾高通量

传统的材料研发模式主要依赖“试错”的实验方案或偶然性的发现,其研发过程一般长达10-20年,在很大程度上已经无法满足21世纪工业发展对新材料的需求。随着信息科技的逐渐成熟,人类通过计算系统或人工智能发现新材料成为可能。人工智能和材料科学的结合充满前景,但依然存在挑战。

·

点击查看完整直播回放

主持嘉宾:

-周华,美国阿贡国家实验室物理学家

主讲嘉宾:

-汪洪,上海交通大学材料基因组联合研究中心主任,“致远”讲席教授,中国材料试验标准委员会(CSTM)材料基因工程领域委员会主任委员

-刘宜晋,美国SLAC国家加速器实验室斯坦福同步辐射光源LeadScientist

-胡嘉冕,美国威斯康星大学麦迪逊分校材料科学与工程系助理教授

-刘淼,中国科学院物理研究所特聘研究员,博士生导师,atomly.net创始人

讨论嘉宾:

-尹万健,苏州大学能源与材料创新研究院教授,博士生导师

特别鸣谢报告编辑:蔡佩余、任美琦

1

01

《数据驱动的材料创新基础设施》——汪洪

报告主要介绍了以“大数据+人工智能”为标志的数据驱动模式对材料基因工程领域的重要性。首先提出了数据驱动模式对材料基因工程的实际应用价值,以及目前材料数据面临的问题,最后指出需要一个以数据为中心的集成平台,整合基于高通量实验与高通量计算的“数据工厂”与数据设施,实现材料基因工程的技术要素的完美协同。

材料创新一直是各种颠覆性技术革命的核心,以至于材料经常成为时代的标志。传统上,新材料的发现和使用依赖于偶遇、科学直觉与实验试错。然而,大量的实验试错过程,非常耗时费力和昂贵。为达到当今社会的要求,我们需要向可预测、可设计的模式进行转变。

我们的理想是按需设计,从理论上算出材料,通过已知知识、计算、预测,得到关键的成份、结构、工艺和性能之间的关系。为实现此目标,我们首先要向其他领域学习,生物学里有一个生物基因,当了解了这个基因,我们可以采取相应的措施,去治病或者防病。所以相应的如果我们掌握了材料“基因”,也就找到了按需设计的钥匙。但事实上,物质世界比生物世界更加复杂,生物只是物质的一种,经过了若干年的探讨,依旧没有为材料基因找到恰当的科学定义。目前的共识是将“材料基因工程”用作预测型快速获得成分-结构-工艺-性能间关系的代名词。

材料基因工程工作模式分为三种。第一种是实验驱动。基于高通量的合成与表征的实验,直接优化和筛选材料,从一个一个试到一批一批试,量变引起质变。典型的技术是组合材料芯片制备技术,科学家受到电路芯片与基因芯片的启发,在一块基底上,以任意元素为基本单位,组合集成并快速表征多达10-108种成分、结构、物相,大大提高了实验效率。第二种模式是计算驱动。基于理论计算模拟,预测有希望的候选材料,缩小实验范围,最后用实验验证。这种办法应用广泛,从原子极到连续体都有相应方法,包括从第一性原理方法、分子动力学、介观方法和连续体方法。

传统的研发路径围绕目标逐步趋近,而数据密集型数据覆盖更广参数空间,这从思维上有根本变化。我们认识世界的方式依次经历过实验观测、理论推演和计算仿真。现在随着数据量及计算能力以摩尔定律般的爆炸性增长,科学研究进入“大数据+人工智能”的第四范式。实验与计算驱动是基于事实判断或者物理规律的推演,并未改变原有思维模式和工作套路。而数据驱动是真正具有革命性的,人工智能方法擅长建立数据间的关联关系,是传统认识范式的补充与延伸,它的全面应用将产生颠覆性的效果。

数据驱动是材料科学未来的发展方向,围绕数据开展实验-计算-信息学技术的协同和交叉。作为一种新的工作模式,其需要全新基础设施支撑才能充分发挥效力,即建立以数据为核心的集高通量实验、高通量计算和材料数据平台三位一体的,体现学科交叉的综合性材料创新平台。然而材料数据是实施科学第四范式的基本前提,也是当前全球性瓶颈,我们需要解决数据够用、好用的问题。

解决数据够用问题的方案是建立数据工厂,批量产生高质量的基础数据。这是数据产生环节的革命性变化。全面的材料数据将被大规模地有意识的产生,数据产生由个体活动变为有组织的社会活动,其社会属性从私有财产变为公共资源,数据的质量、一致性和全面性都将得到提高,数据共享变得更加简单,社会总成本就将降低。另外为解决数据好用问题,现今国际科学界已经提出了建立符合FAIR原则的数据库,即Findable(可发现)、Accessible(可获取)、Interoperable(可互操作)、Reusable(可再利用)。中国材料与实验团体标准委员会CSTM组建了全球首个材料基因工程领域委员会FC97,并首先制定了材料基因工程数据的通则标准。

总结以上,数据驱动模式是材料基因工程发展的核心问题,新型基础设施应适应数据驱动模式需要。

02

《X射线大科学装置与人工智能在先进材料表征中的应用》——刘宜晋

先进的X射线大科学装置为科学家提供了一个独特的实验平台来探索和表征功能材料的复杂性。报告结合机器学习和数据挖掘这些先进的计算方法,讲述可我们如何更好地应用X射线大科学装置,推进材料科学的前沿探索。

能源材料的复杂性不仅体现在我们预先设计好的多尺度多维度的形貌、成分和结构不均性,更重要的是各个结构和功能单元在其特定的应用场景下所表现出的复杂反应机理、动态演化和协同效应。比如石油化工领域的一个例子,原油开采出来后需要经过催化裂化反应,以产生各种更有经济价值的产品。这一过程伴随着毒性金属在催化材料上的逐步堆积,降低催化性能。这个现象导致了全球每天将消耗掉两千吨的催化材料。我们可以对这个复杂体系做很细致的表征,采集非常高分辨的三维结构,从中找到有化学活性的区域。但问题在于这个材料在其工作环境下发生的动态变化是很复杂的,这给我们进一步造成研究的困难。

我们需要借助先进的实验装置来解决这一类问题。SLAC国家实验室拥有的两个大科学装置,SSRL同步辐射和LCLS自由电子激光。他们的原理是相通的,电子在高速运动的过程中,当运动方向发生改变的时候,会辐射出高质量的X-ray,我们就可以利用它来做各种各样的实验。

我的同事Jun-SikLee博士和高季昌先生主导研究了钇钡铜氧超导材料对强磁场脉冲的响应。在这个工作里,我们要把非常强的磁场脉冲打在样品上,同时用X-ray的脉冲去探测这一瞬间的信号。在这个工作中,我们找到一个微弱的衍射信号,这代表了材料内部在强磁场的作用下发生的一些改变。因现在自由电子激光装置重复频率较低,所以一个磁场脉冲只采到一个数据点,但正在进行中的LCLS-II改造将从120赫兹升级到1兆赫兹,即在一个红色的磁场脉冲里可以采集到一系列的X-ray脉冲数据,将我们的数据量提高好几个数量级,从而大大提高实验效率,从根本上改变现在的研究方式。

随着技术的进步,实验数据量得到了大大提高,但这样大量的数据对我们提出了新要求,需要用新的办法从数据里面悟出知识。比如对电池材料的研究,传统的同步辐射谱学方法可以用一个较大的光斑采集吸收谱,大光斑覆盖了千千万万的颗粒,得到的信息是大量颗粒的平均现象,并无法得知颗粒和颗粒间是否有不一样或者每个颗粒内部会发生怎样的不均匀性。利用谱学成像的方法能有效解决这一问题,也能给我们带来了更多科研机会。

在我们早期的工作里,我们结合常规的计算方法开发了一个简单、高效、自动化的数据处理流程,但问题在于要让这个数据处理的流程有效工作,我们需要假定对我们研究的材料体系有一定的了解,否则就需要借助更加先进的科学计算的方法,比如对大量的吸收谱数据进行聚类运算。聚类方法有很多种,一方面我们需要针对我们的问题,选择合适的算法,更关键的是需要把这些算法整合到我们的工作流程。比如在下面这个工作中,我们在长循环之后的锂钴氧的正极材料中找到了四种不同化学态,其各自又有自己空间分布。得到这些信息之后,一个对X射线谱学很了解的科学家,配合一个对电池材料、电池化学很了解的科学家,他们可以对数据结果来进行科学的解读,赋予科学含义。

除吸收谱外,对图像的处理也可以利用人工智能的方法。例如我们对正极材料做了三维的高分辨的成像,我们会看到这里面有千千万万的颗粒,每个颗粒的形状与破损程度都不同,在40微米厚的电极片顶部和底部所发送的化学反应程度是不一样的,如果想对每个颗粒都进行细致的研究,显然用人工去执行这个过程是非常低效,也会带来很多人为的误差。因此就需要借助机器学习的方法。

从中间图可以得知,不少正极颗粒在多次循环后已经破裂的不成样子,传统的数据分割很容易把部分碎片识别为不同的小颗粒,但是这些碎片其实属于同一个颗粒,所以希望我们的算法具备这样的智能,能够把这些碎片组合进同一个颗粒里,然后对这个数据开展后续的统计分析。

最后讲讲我的理解和展望,大科学装置的最新发展给我们提供了很多强有力的实验工具,带来了科研的机遇。但大科学装置本身是很复杂的,想要控制好、优化好不是那么容易的事情,而人工智能在这里大有可为。一个理想研究流程需要各种各样不同的科学家共同参与,这也正是我们课题组在过去几年努力的方向。我们和世界一流的材料科学家合作,用世界一流的X射线大科学装置,结合数据发掘的方法得到有效信息完善我们理论模型,从而进一步指导我们下一轮的实验。

03

《机器学习在介观尺度材料设计中的应用》——胡嘉冕

机器学习现在炙手可热,有两种情况适合通过机器学习来研究材料微结构和性能的关联。第一种是当物理模型(即基于物理规律的模型)的计算速度太慢时。机器学习不关心材料微结构和性能之间的物理内涵,而是直接针对材料微结构和性能建立一个统计关联。这种基于统计规律的机器学习模型的预测速度可是物理模型的成千上万倍。第二种情况是当问题太复杂,使用物理模型无法对问题进行准确描述和预测。

用机器学习来建立材料微结构与性能的关联,可分为两个关键步骤:首先转化材料原始数据,找出一个向量或者矩阵,能够包含这个微结构的所有关键信息;然后,将此向量关联到目标性能上。假设一个微结构用X表示,性能用Y表示,机器学习做的事情就是根据已有数据,训练出函数F:X->Y,有了函数之后,对于一个未知的新材料和结构,就可以预测出它所对应的性能。

第二种描述材料显微结构的方式是基于图像(Image),可以把原始数据直接读到卷积神经网络(ConvolutionalNeuralNetwork,CNN)里,自动根据图像找到一系列的特征图,能够包含这个结构最重要的信息,然后进一步把数据做简化,关联到目标性能。这种方法的好处有两点,第一可以直接读取原始数据,二是可以直接得到你所需要的特征图,没有任何人为选择,而且这种方法适用于各种类型的显微结构。但用CNN处理多晶结构有两点问题,第一点是不够高效,一个晶粒至少包含一个三维像素点,实际材料有成千上万个晶粒,转化成的图像数据的读取速度太慢,失去了机器学习的优势。第二点在于微观结构的物理相互作用对最后性能影响非常大,但由于CNN本身的特性无法考虑两个晶粒间的物理相互作用,最后可能会影响预测准确性。

具体地,比如考虑一个只有10个晶粒的简单多晶结构。我们会将每一个晶粒看做一个结点(node)。对于每一个结点,我们引入一个向量去描述所对应晶粒的物理特性,包括晶粒尺寸、形状、晶体学取向等。最后再将这些向量合并成一个矩阵,叫做featurematrix。同时,我们也引入另一个矩阵,叫做adjacencymatrix,来存储晶粒和晶粒之间的近邻关系。如果两个晶粒直接相邻,那么所对应的矩阵组元则是1,否则为0。如图所示:晶粒1和晶粒3相邻,那么所对应的组元A13=1;晶粒1和4不相邻,那么所对应的组元A14=0。这种基于图的方法,特别适合描述多晶材料。相对于基于图像像素的方法,它更加高效,并且可以考虑晶粒之间的相互关系,从而可以获得更高的预测准确性。举个例子,我们团队使用少于500个多晶微结构作为模型的训练数据,在测试数据集(testingdataset)上实现了大于90%的预测正确率,这是远远超过目前其他模型水平的。微结构信息学(MicrostructureInformatics)的挑战之一是数据量不够。我们这个方法由于在小数据集训练上的优异表现,应对这一挑战是有一定优势的。

第三点,机器学习为人人。机器学习包括其他的人工智能方法,在材料领域的应用属于较初级阶段。怎样才能让更多的研究人员把机器学习作为一个工具来辅助研究?做出一个成熟的,易于使用的,专门针对微结构信息学的机器学习软件/平台或有帮助。

04

《数据驱动的材料研究》——刘淼

材料研发推动人类进步。早期人类社会的定义是用材料定义的,比如石器时代、青铜时代、铁器时代。随着材料合成工艺的进步,总的趋势是从自然材料到人工合成材料,从无机材料、金属材料到现在的材料种类多元化,例如有机、半导体等材料。我们的生活中基本上都是一些人工合成的材料,比如制造航母需要特殊的钢,制造锂电池需要钴氧化物,石油化工给大家提供了塑料、橡胶类材料。材料进步非常迅猛。

但传统材料研发模式导致材料的发展非常缓慢。近期,材料科学的发展趋势正在经历从经验试错模式到理论预测模式的转变。材料研发经过了经验失错、理论推演等模式,直到近代有了计算机,人们可以用数值的方法求解数值解,大大提升了研发效率。近期的信息化技术和数据科学进展带给材料科学新的创新给予,现在人们可以用AI来处理大量数据,提取数据间的隐含变量,以此来指导材料科学的发现。

这种材料信息学方法的本质是从弱信息化、弱信息积累的模式向强信息化、强信息积累、信息耦合模式的变迁,核心推动力是和信息科学的交叉。如过去70年人类平均每年发现3.3个氮化物材料,加州大学伯克利分校的Ceder组通过高通量计算等材料大数据方法,一年内发现92种有可能材料,并用实验合成7种。

最早是MaterialsProject发现可以用这样的方式来积累大量的材料数据,并于2010年构建了数据库,目前已积累了12万条的高质量材料数据。类似的数据库还有AFLOW,NIST,OQMD、NOMAD等,但我们国家没有世界级材料数据库。中国是访问MaterialsProject最多的国家,我国的材料科学发展急需此类数据库。因此“十三五”期间,科技部、中科院和中科院物理所提前布局了这一领域的发展规划。

基于物理所的布局,我们近期构建了材料数据库Atomly.net。Atomly材料数据库通过高通量DFT计算积累了14+个无机非晶材料的高质量数据,通过Atomly数据库,用户可根据自己的需求在Atomly快速查询材料的基本结构信息,例如能量总能、晶体结构对称性等。此外Atomly数据库网站的run4u功能,允许用户提交材料结构,系统会自动计算、自动提取结果,并加入到数据库中。

Atomly积累了大量数据,这里举三个数据使用例子。第一,物性预测。通过分析大量材料数据,通过机器学习归纳出形成能预测模型,可用迅速判断新材料的形成能和结构稳定性,从而指导新材料设计、稳定性预测等。第二,人工智能拟合势能面。通过人工智能拟合大量DFT数据,得到可以精确原子间相互作用的势函数,从而可以带给业界可以坚固DFT精度和分子动力学速度的材料模拟新方法。第三,新材料发现。批量计算和分析一系列的材料,系统的分析材料演化规律,从而预测材料研发方向。

我是物理背景出身,我们做计算物理都是在已知的物理定律的条件下来解特定的方程,过去认为机器学习可能就是较为复杂的统计的拟合,并不认为它能够有什么根本性的发现。但AlphaGo战胜了人类顶尖棋手李世石这件事情给大家带来了很大冲击,包括我自己。之前我一直在做钙钛矿太阳能电池的理论计算研究,钙钛矿这个体系因为材料种类很多,恰好是AI和材料交叉研究比较好的模型体系,我们首先在数据库里做了分析,我们在一万多种可能的材料中,筛选出了300多种稳定材料,在过去通过基于密度泛函理论的第一性原理计算,这个计算量是很大的,而通过高通量计算加机器学习,把计算量大大减小的下来我们通过查找资料,发现这300多种材料虽然在数据库里不存在,但是上世纪六七十年代很多科学家已经把这些材料合成出来,跟我的理论计算对比,它的准确度达到95%以上。这个例子使我相信AI确实能够做以前传统研究做不了的事情。

我最近继续做了另外一个尝试,利用符号回归的机器学习方法,找到了一个简单的催化描述子。我们知道,催化领域里d能带中心理论应用非常广,而确定d能带中心要通过DFT计算,如果在大量的材料里面筛选,计算量很大。我们通过机器学习找到了一个不需要通过DFT计算的描述子,后续我们的实验合作者根据这一描述子很快合成了5种新材料,催化活性也都比较高。这个工作可能是我十几年来最满意的工作之一,因为这是我作为一个理论计算工作者,第一次设计出来的材料被实验合成出来,而且实验性能和预测的差不多。从这个角度来看,我也应该感谢AI让我有了不一样的科研体验。

2

主题讨论环节

议题一:

如何整合和充分利用已有的但分布式布局(特别是地域空间分离的)的各种基础设施,使之成为一个新的以数据为中心的材料基因组集成平台?

汪洪:现在各个国家建立了很多可以称为平台的机构,这与我们的长远目标是完全一致的,这些平台本身都具有产生数据的能力。过去我们习惯的数据,在形式和内容上都与未来略有差别。我们制定的材料基因工程的数据通则,充分考虑了未来的需要。过去的数据库,建立了成份、结构和某种性能之间的关联。为了适应未来更加开放、共享和能反复使用数据的需求,我们要把样品、原始数据、由原始数据推导出的或者经过处理的数据打散了包括在数据库当中。核心问题是要建立相应的标准,只要按照一定规则进行,整个社会的机构可以形成一个大的网络,分布式便不再是问题。至于具体如何建立交换机制,我们也在探究中。一个想法是利用区块链技术,既保证数据的真实性和可追溯性,也保证了原本拥有权。在这个基础上数据有足够能力自由流通,这个机构建在什么地方也就不那么关键了。

议题二:

高通量实验表征的设计与实施应该如何选取和优化它的挑战和应对策略分别是什么?

议题三:

从利用人工智能机器学习来提速材料设计的角度,性能需求反溯微结构设计为导向还是微结构设计优化而预测性能为导向会更能发挥AI、机器学习的优势所在

胡嘉冕:这两个问题并不矛盾,材料设计应以优化性能为导向,以找到合适的原材料和材料制备工艺为目的。但对微结构的预测和设计优化不可或缺,从工艺到微结构再到性能(Processing-Microstructure-Property)是一个完整的链。首先,预测不同工艺条件(比如温度、成分、压强等)下的微结构,然后再预测与此微结构对应的性能。接下来,需要做实验来验证在给定的工艺条件下是否能获得相应的性能。如果实验表明预测的性能未达到预期,则需要重新选择其他工艺条件,再重复上述过程直至性能满足预期。关键在于怎样让工艺条件的再选择变得更高效,而不是没有目的地试。在这方面,贝叶斯优化(Bayesianoptimization)或可发挥一定的作用。

议题四:

Atomly.net数据库和MaterialsProject之间有什么样的区别和联系?

刘淼:首先高通量计算是一种方法,它不仅仅只是数据库,所以我们想建立的是这样一套方法。国外已经有此类的程序包、工作流和基础设施,给我们很多启发。在建立Atomly以后,我们也可以针对某一类材料做高通量计算,拥有这样的工作模式。我们对MaterialsProject的方式比较认同,现阶段的成品比较相似。但我们现在的数据量和数据质量,在某种意义已经超越了MaterialsProject。目前数据库已经完成了几乎所有人类已发现的实验结构的计算,现在正在增加的都是人造结构,随着数据积累再过三五年之后大家就可以逐渐体会出差别。

议题五:

刘淼:第四范式就是材料数据的积累去改变从前个人经验积累的模式。通过数据科学的模式,把群体的智慧不断结晶、积累下去,这是根本方式的变化。我们想通过做好数据的方式,帮助机器学习的过程更好的运行。生产数据的模式不仅仅限于计算,所有可以批量生产高度一致性数据的方法,都有可能有益于材料数据科学,只不过现阶段通过高通量计算获得大批量的数据是比较容易。重要的是数据产生过程需要数据标准化,但并非人为规定的数据标准,而是保证在数据库内每个数据之间具有相同标准,具有可比较性,才能让这个数据集扩充下去。我们正在实践这样的事情,第一批的计划是做DFT计算数据库,未来还会有实验数据库,包括各种组合材料方法,各种批量制造材料、批量表征材料的方式产生的数据。

议题六:

描述子的构建如何能更反映材料构效更本质的规律?

尹万健:要做机器学习,数据质量非常关键。描述子其实是一个化学语言,就是定量描述一个复杂现象的简单标度,一个好的描述子需要两个条件:一是准确,二是简单,太复杂不容易被公众接受。我们通过自己的研究发现,AI确实能发现好的描述子,指导我们发现新材料,但AI发现的新描述子到底有什么物理意义,很多情况下并不清楚。如果能够进一步挖掘简单描述子背后的物理意义,就能得到新知识。这样的话,AI不仅帮助发现新材料,还可以教我们新知识,这可能是更重要的意义。

3

开放式讨论

Q:

材料科研界和工业界的合作目前还比较松散,这种紧密合作目前的最大挑战和难度是什么材料科学家在推动这一进程中能做些什么?

汪洪:我们在做材料基因组的最终目标就是要应用,所以我们跟很多的企业建立了联系,而且有很多的沟通。但是往往谈到具体找一个案例来做的时候,但在执行上经常遇到一些困难。企业共有的担心的是数据的保密性,因为有些数据是他们的生命线。在这个问题没有解决之前,作为外单位的人与他们合作是有门槛和困难的。

刘宜晋:在这个问题上,我认为学术界的研究人员可以有所作为。比如我们做的工作可以努力朝着OpenSource、OpenData方向努力,这能够从我们这一端把这个事情往前推,经过我们的努力来争取工业界的正向回应。

在学术界或科研界内部,如何能有效的实现AI+材料研究的数据共享?

人工智能或机器学习能否对材料合成方法和路径做一定的预测或规划?

刘淼:比如伯克利的Ceder团队试图用机器学习读文献,他们的数据库里已经有300万个文献,将300万个材料合成方法范例之后和计算数据做吻合,机器学习可以提取出一些材料的合成方式,那么其他的新材料就可以用这个模型去预测,我认为这是业界最领先的方式。一切皆有可能,大家只要善于思考,才有可能产生这样具有开创性的方案。另外我们可以用高通量合成、高通量表征这样的方式积累数据,当数据量到达一定程度,我们也能得到相应的知识。

机器学习能否对亚稳状态的材料合成有所帮助?

刘淼:这需要具体问题具体分析,总体就是如果有足够多的数据,数据质量足够高,多少会给出一些洞察。大家不要被已有的方式局限思路,我们其实在做一个信息化的方式,信息化是一种技术革命,带给我们很多可以做的方向,并不仅限于我们展示给大家的这些,有开创性的思维可能会更重要。

用数据驱动来进行研究可能解释性比较差,甚至要改写材料科学的基础理论,我们该如何推进材料科学理论的进步?

尹万健:我们的物理定律是人类几百年来慢慢总结和发现的规律,这些规律是不是能够代表全部?这是一个根本性问题。用我们做计算的语言来说,人类现有的知识结构(domainknowledge)是否有可能只是处于整个知识结构(knowledgelandscape)的一个局域波谷处(localminimum),因此而出现“一叶障目,不见泰山“。就像下围棋一样,算法可以不按照人类千年来总结出来“定势”来走,最后还是把你给打败了,说明所谓的“定势”本身就不是最优的。现在机器学习有一个方向叫做“可解释的机器学习”,我们不仅要知道这个材料比其他材料好,还要知道为什么,它背后的规律在哪儿。所以有没有更好的方法让我们应用到材料科学上,更好理解背后的物理规律,这方面现在可能刚刚起步,这需要不同科学领域的人相互交流。

胡嘉冕:举一个机器学习预测有机分子性能的例子。研究人员通过机器学习定量分析了分子中每一个原子对最后结果的贡献度。他们发现,机器筛选出来的具有最大贡献度的原子正巧是该分子的催化活性中心。有时候,如果数据量太大,可以通过机器学习先筛选出统计意义上最重要的数据,然后我们再对该部分的数据进行重点分析,这样更为高效,或对新科学现象的发现起到促进作用。

刘宜晋:机器学习可以帮助我们捕捉到大量数据里面的蛛丝马迹,从而了解一些原来没有预想到的化学反应。这些信息可以反过来帮助我们理解整个流程,从而可以提供一些信息让我们进一步改进材料设计。

针对材料物质科学的年轻学生和刚加入这个领域的新生力量的,他(她)们需要有怎样的准备,训练和积累来迎接材料探索开发新时代的到来

汪洪:现在的同学们随着计算机一起成长,对于未来要进入材料科学的同学来说,计算机技术是非常重要的一环,今后的学生,除了要打牢物理、数学、材料的基础,学习计算机、学习编程对于未来会有极大的帮助。所谓培养下一代的材料学家,就是要培养他们从思想上要认识到数据驱动是必由之路,能够掌握数据驱动这些基本工具。

刘宜晋:我们做研究必须得从自己的专业出发,一开始不要追求很复杂先进的算法,从小问题逐步开始,一切皆有可能,但是要明确自己的未来发展方向。

尹万健:我经常和我的学生说,千万不要追求大而全,也许我们做的工作,方式不是最完美,算法不是最好,但是一定要想我们是要解决什么科学问题,你把自己定位成什么很重要。如果定位成做材料的,首先要想清楚到底要解决材料里的什么问题、设计什么材料、如何改进材料性能,作为年轻科研工作者提出合适的问题非常关键,然后再想怎么样利用好机器学习这个工具。

刘淼:我建议比较年轻的同学或者从业者尽早规划自己的职业,只要找到自己的热爱,剩下的问题迎刃而解了。

THE END
1.机器学习方法(豆瓣)机器学习是以概率论、统计学、信息论、最优化理论、计算理论等为基础的计算机应用理论学科,也是人工智能、数据挖掘等领域的基础学科。 《机器学习方法》全面系统地介绍了机器学习的主要方法,共分三篇。第一篇介绍监督学习的主要方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机https://book.douban.com/isbn/978-7-302-59730-8/
2.机器学习的方法机器学习方法本文介绍了机器学习的三大方法:监督学习(分类、回归)、无监督学习(聚类、降维)和强化学习。监督学习利用带类标的训练数据构建模型进行预测;无监督学习在无类标数据中寻找潜在规律;强化学习通过系统与环境交互提升性能。各种方法在自然语言处理、计算机视觉等领域有广泛应用。 https://blog.csdn.net/sinat_29957455/article/details/78817379
3.机器学习方法李航PDFmob64ca12e2ba6f的技术博客机器学习方法 李航 PDF 简介 一、引言 随着人工智能的发展,机器学习作为一种重要的技术手段,受到越来越多的关注。而李航的《统计学习方法》(PDF版)是一本经典的机器学习教材,被广泛应用于教学和实践中。本文将介绍该书的主要内容,并结合代码示例进行解释,帮助读者更好地理解机器学习方法。 https://blog.51cto.com/u_16213374/9990067
4.机器学习中常见分类方法【嵌牛导读】机器学习的分类方法,你知道几种? 【嵌牛鼻子】决策树,基于规则分类,最近邻分类,朴素贝叶斯,人工神经网络,支持向量机 【嵌牛提问】这几种分类方式各自适用于什么样的数据? 【嵌牛正文】 Content 1. 决策树分类(链接:http://blog.csdn.net/github_36299736/article/details/52749999) https://www.jianshu.com/p/45fdbdeb186b
5.机器学习(一)2万多字的监督学习模型总结用于回归和分类的随机森林是目前应用最广泛的机器学习方法之一。这种方法非常强大,通常不需要反复调节参数就可以给出很好的结果,也不需要对数据进行缩放。 从本质上看,随机森林拥有决策树的所有优点,同时弥补了决策树的一些缺陷。 如果你用的是多核处理器(几乎所有的现代化计算机都是),你可以用n_jobs 参数来调节使用https://www.flyai.com/article/515
6.全面盘点统计学和机器学习领域八大数据分析方法!空间模型:利用统计学和机器学习方法,建立空间数据的预测和分类模型,例如空间回归模型、地理加权回归(Geographically Weighted Regression,GWR)等。 网络分析:研究空间网络中的路径、连接和网络关系,通常应用于交通规划、电信网络等领域。 遥感分析:使用遥感技术获取地球表面的信息,通过分析遥感图像,了解地表特征、覆盖类型和变https://www.fanruan.com/bw/da-methods
7.上海药物所提出机器学习辅助定向进化新方法近年来,机器学习辅助定向进化得到越来越多的关注,通过计算机模型模拟实验筛选过程,可以显著减少实验筛选负担、提高筛选效率。机器学习方法最重要的是建立模型学习目标蛋白的序列突变体-功能的函数映射关系。这种映射关系被称为蛋白质适应度图景(protein fitness landscape),其中适应度(fitness)是一个抽象概念,可定量https://www.shanghai.gov.cn/nw31406/20230830/f7032dd73e0645a78574436b55d5cde4.html
8.2020全国大学生计算机设计大赛广东省大学生计算机设计大赛校内选拔赛通知9) 图像处理与模式识别方法研究。 10)机器学习方法研究 ? 人工智能挑战赛采用组委会命题方式,一般为3-5题,各参赛队任选一赛题参加,赛题将适时公布。挑战类项目将进行现场测试,并以测试效果与答辩成绩综合评定最终排名。 6.信息可视化设计包括以下小类: https://www.gdufs.edu.cn/info/1006/53874.htm
9.一文看懂机器学习「3种学习方法+7个实操步骤+15种常见算法」机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。 所以,机器学习不是某种具体的算法,而是很多算法的统称。 机器学习包含了很多种不同的算法,深度学习就是其中之一,其他方法包括决策树,聚类,贝叶斯等。 https://easyai.tech/ai-definition/machine-learning/
10.机器学习模型评估的常见方法有哪些?机器学习模型评估是确定模型在处理未见示例时的有效性和性能的关键过程。在进行模型评估时,我们需要采用一系列常见的方法来测量和比较不同模型之间的表现。下面是常见的机器学习模型评估方法: 训练集与测试集划分:通常将数据集划分为训练集和测试集两部分。训练集用于训练模型,而测试集则用于评估模型的泛化能力。这种方法https://www.cda.cn/view/203855.html
11.机器学习中常见4种学习方法13种算法和27张速查表!-免费加入AI技术专家社群>> 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的分类。 一、4大主要学习方式1.监督式学习 在监督式学习https://cloud.tencent.com/developer/article/1029070
12.植被生态遥感参数定量反演研究方法进展精度显著提高 中小区域 数理统计方法 约束高斯垂直后向散射(CGVB)模型(Sun 等,2018) 简化了GVB模型,精度明显提高 中小区域 物理方法 辐射传输模型(Koetz等,2006) 参数具有实际意义 大尺度、大区域 下载: 导出CSV 3.1 植被覆盖度 植被覆盖度反演方法大致可分为回归分析法、基于像元尺度分解法和机器学习方法3大类。https://www.ygxb.ac.cn/thesis/91/10706233/zh/
13.总结673篇论文,UIUC等发表可信机器学习综述,20个月完成前文介绍的可信机器学习方法具有坚实的理论基础,也在多种场景中验证有效,如果用于训练大模型,将有望提高模型的可信性。然而大模型的训练需要极大的成本,为了改进现有的大模型,可以借助高效使用大模型的技术,如微调 (finetuning),参数高效微调 (parameter-efficient fine-tuning),提示学习 (prompting),以及从人类反馈进行https://www.thepaper.cn/newsDetail_forward_24210113