材料信息学:解码材料基因图谱丨科普硅立方

编者按:中科院之声与中国科学院上海硅酸盐研究所联合开设“科普硅立方”专栏,为大家介绍先进无机非金属材料的前世今生。我们将带你——认识晶格,挑战势垒,寻觅暗物质,今古论陶瓷;弥补缺陷,能级跃迁,嫦娥织外衣,溢彩话琉璃。

被戏称为诺贝尔“理综奖”的化学奖今年再度授予给生物学家,以表彰她们对新一代基因编辑技术的贡献。生物基因是生物体内携带遗传信息的DNA片段,影响甚至决定着生物体的生长发育、衰老病死等所有生理过程。生物基因工程则是在分子水平上对基因进行重组,改变生物原本的遗传信息,旨在按需设计新品种和产生新产品。那么,同样是由微观粒子(原子、分子、离子等)构成的材料,是否也存在决定材料性能的“基因”呢?人们能否利用材料基因工程技术,按需设计特定性能的材料呢?

材料基因工程

答案是肯定的,而且已经引起各国的重视。早在2011年,美国联邦政府率先启动了一项名为“材料基因组计划”(MaterialsGenomeInitiative,MGI)的研究计划,通过先进实验和计算技术和数据共享等方式,加速新材料的发现,缩短材料研发周期,同时降低成本。同年年底,中国科学院和中国工程院召开了香山科学会议研讨“材料科学系统工程”,并由徐匡迪院士、顾秉林院士、陈立泉院士和张统一院士等学者提出启动中国的“材料基因组计划”。此外,其他国家和地区,例如欧盟、日本和俄罗斯等也相继启动类似的材料研究计划。

图1美国材料基因组计划框架(图片来自网络)

虽然“材料基因”一词经过多年的探讨,但是至今依旧没有明确的科学定义,其复杂性就可见一斑。相比生物基因仅由几种核苷酸排列而成,材料组成和结构显得更加复杂,材料基因工程的研究也更具有挑战性。传统的科学研究范式可能并不能满足快速解码材料基因图谱的需求,因此材料信息学就应运而生。

人工智能+材料科学

在了解材料信息学之前,我们首先需要对材料科学研究四大范式的发展脉络有整体的认识。四大范式包括,实验试错、理论推演、模拟计算和数据科学。

新材料的研发最传统的方式是实验试错法,即通过改变材料成分、合成手段、工艺参数等条件制备系列样品,选出其中性能最合适的材料。很显然,试错法存在效率低、成本高、研发周期长等缺点,因此往往被戏称为“炒菜法”,但是多年以来也为材料科学积累了大量的数据和经验法则。

理论推演则是在对自然有充分认识、掌握足够多的规律之后,科学家将自然现象抽象成数量关系,构造数学模型,并在模型预测的指导下研发材料。然而,由于实际问题往往相当复杂,理论模型的建立需要采用近似处理方法,因而不可避免地存在偏差和局限。随着电子计算机的发展,科学家可以依据更本质的物理定律,对复杂过程进行多空间尺度模拟,从而定向设计材料成分、结构和性能。即便如此,模拟计算需要基于理论框架和依赖参数设置,因此计算结果与实验结果大相径庭的情况时有发生。

图2科学研究四大范式(图片来自网络)

说白了,材料信息学可以简单地认为是“人工智能+材料科学”。提起“人工智能”,你可能会想起几年前的围棋人机大战:围棋世界冠军柯洁完败。人类冠军低头拭泪,痛苦感叹“它太完美,我看不到任何胜利的希望”的场景依旧历历在目。在柯洁战败之前,“AI+”早已引起学术界的重视。2016年1月27日“AI+围棋”登上顶尖科学期刊《自然》封面,报道了谷歌DeepMind的人工智能系统阿尔法围棋(AlphaGo)完胜欧洲围棋冠军。同年5月4日,“AI+材料科学”也登上了《自然》封面,报道了材料科学领域的“人机大战”。这项研究由哈弗福德学院(HaverfordCollege)主导,针对一种有机-无机杂化材料的水热合成反应,通过机器学习方法从大量成功和失败的实验数据中发现规律,并建立判断反应能否成功的预测模型。机器学习模型成功率高达89%,高于有经验的化学家的人工判断78%。这项报道充分展示了人工智能在材料科学研究中的强大潜力,掀起了“AI+材料科学”的浪潮。

“数据困境”与破解之法

两场“人机大战”之中,战胜人类棋手的AlphaGo背后主要利用了深度神经网络,战胜人类化学家的预测模型背后主要是支持向量机,它们都属于机器学习方法。机器学习是实现人工智能的一类方法,其基本过程是采用程序算法利用大量的数据进行建模训练,从数据中学习规律,最终对未知事物做出决策和预测。机器学习方法研究材料科学一般分为数据集构造、数据预处理、数据降维、模型训练、模型测试与评价等步骤。其中,数据集构造是首要步骤,数据收集是材料信息学的重点和难点。你或许会疑惑,数据收集不是很简单吗?我们只需要在购物app内点击某件商品,在新闻app内浏览某条新闻,在地图app内搜索某个地点……我们在互联网上的一切行为,每时每刻都在都转化为数据被收集。然而,在材料科学领域,获取一个数据可能意味着几个小时的模拟计算,几天的材料制备,几周的循环测试……因此,材料学的数据很难成为“大数据”,至少现阶段只能是“小数据”。正是由于数据量小,数据偏差和噪声对模型的影响将会十分显著。机器学习的算法再优化,计算机的算力再提升,我们手里只有稀疏、高维、有偏差和带噪音的数据,材料信息学将面临“巧妇难为无米之炊”的困境。

图4机器学习方法研究材料科学的基本流程(图片来自网络)

破解“数据困境”需要从两个方面着手:生产和流通。在数据生产方面,随着各国有关材料基因工程的项目推进,高通量实验和计算快速发展,对数据的标准化和高效产出有非常积极的作用。在数据流通方面,国外的MaterialsProject以及我国的Atomly等数据库免费开放大量的计算数据,便于数据共享。哈弗福德学院建立了“黑暗反应计划”(DarkReactionProject)平台,鼓励研究者们在发表“成功的”数据之后,再将不发表的“失败的”数据上传到平台,以供机器学习模型对化学反应进行更加深入的分析。借助高通量、数据库、互联网等新技术加速材料数据生产和流通方兴未艾,这个时代留给了材料人大展拳脚的广阔舞台。

我们不妨畅想未来的材料实验室成为“数据工厂”的那天:智能化的实验机器人,严格标准化的样品制备和测试表征,完全电子化的实验记录,融合物联网的内部即时数据共享平台,融合区块链技术的国际数据交易平台,以及更加先进的处理和分析数据的人工智能方法。我们材料人将会从“磨金相、守炉子、过柱子”,甚至复杂的数据分析之中解放出来,转型为“开发者”、“合作者”和“研究者”。“开发者”负责AI算法和智能化实验机器的开发与维护;“合作者”熟悉编程和材料研究的两套逻辑和语言,促进“开发者”和“研究者”的沟通交流;“研究者”捕捉行业痛点,提出科学问题,创新研究思路。到那一天,或许我们能够解码出材料基因图谱,每一位材料人都能像钢铁侠一样帅气地研发材料。

图5这将是我们材料人的未来吗?(图片来自网络)

参考文献:

1.AgrawalA,ChoudharyA.Perspective:Materialsinformaticsandbigdata:Realizationofthe“fourthparadigm”ofscienceinmaterialsscience[J].APLMaterials,2016,4(5):053208-1-10.

2.LiuY,ZhaoT,JuW,etal.Materialsdiscoveryanddesignusingmachinelearning[J].JournalofMateriomics,2017,3(3).

3.DimaA,BhaskarlaS,BeckerC,etal.InformaticsInfrastructurefortheMaterialsGenomeInitiative[J].JOM-JournaloftheMinerals,MetalsandMaterialsSociety,2016,68(8):2053-2064.

4.AnubhavJ,ShyuePO,GeoffroyH,etal.Commentary:TheMaterialsProject:Amaterialsgenomeapproachtoacceleratingmaterialsinnovation[J].APLMaterials,2013,1:011002-1-11

5.HanochS,AlexanderT.MaterialsInformatics.JournalofChemicalInformationandModeling201858(7),1313-1314

6.施思齐,徐积维,崔艳华等.多尺度材料计算方法[J].科技导报,2015,33(10):20-30

THE END
1.如何在智能信息化时代加速材料科学的研发与创新如图4所示,材料科学中常用的机器学习算法可以分为四类:概率估计、回归、聚类和分类。具体而言,概率估计算法主要用于新材料发现,而回归、聚类和分类算法用于宏观和微观层面的材料特性预测。此外,机器学习方法通常与各种智能优化算法相结合,例如GA,SAA或PSO算法,主要用于优化模型参数。此外,这些优化算法也可用于执行其他困难https://cloud.tencent.com/developer/news/333018
2.机器学习材料性能预测与材料基因工程应用实战然而,机器学习在材料科学中的应用仍存在一些瓶颈,人工智能研究项目所需的技能和知识匮乏缺失制约着该方向的发展。以下内容可作为学习的参考 入门阶段从机器学习以及机器学习在材料领域的应用基本概念开始讲授,让大家明确机器学习方法的适用性和优势,以及有针对性的对python语言基础进行系统学习,为之后构建相应算法模型框架打https://blog.csdn.net/y2715163545/article/details/130487823
3.科学网—jyx123321的博客机器学习在材料科学中的进展研讨会的报告 2024-08-21 昨天我们学院年轻有为的 LONG T 老师组织了机器学习在材料科学中的进展研讨会,我受邀做了一个报告《面向复杂电路结构可靠性仿真的基于 Transformer (4111)次阅读|(6)个评论 生成式人工智能在集成电路行业中深入应用的期望 2024-08-13 在8 月 11 日写https://blog.sciencenet.cn/home.php?mod=space&uid=99553
4.机器学习在材料科学中应用作为一个目前专业为材料学科,但却独自学习机器学习的小菜鸡,最理想的莫过于将俩者结合,但是这只是个想法,感觉理论上可以实现,要达到这样的目的还需要很艰难的一段路要走,但不妨先把目前的相关的知识整理下来。 我们的日常生活受到材料的影响,从数十亿分之一秒的硅芯片数据存储到汽车发动机的新合金,再到可再生能源https://www.jianshu.com/p/b3b3546446ab
5.材料科学加人工智能是下一个可能发生的类似Alphafold的重大变革在传统的方法中,新材料是通过实验、理论或计算来发现的(也被称为第一、第二和第三范式,由左侧面板上方的三个图标象征)。在数据驱动的材料科学的第四范式中,可用的数据被收集在数据基础设施中,机器学习方法发现新材料。这些方法导致了借用机器学习模型,使人们能够纯粹根据过去的数据进行快速预测,而不是通过直接实验或https://www.yicai.com/news/101121158.html
6.机器学习技术在材料科学领域中的应用进展维普期刊官网摘要 材料是国民经济的基础,新材料的发现是推动现代科学发展与技术革新的源动力之一,传统的实验“试错型”研究方法具有成本高、周期长和存在偶然性等特点,难以满足现代材料的研究需求。近些年,随着人工智能和数据驱动技术的飞速发展,机器展开更多 Materials are the foundation of the national economy,the discovery https://qikan.cqvip.com/Qikan/Article/Detail?id=7105430528
7.2020年中国科学技术大学材料科学与工程学院(金属研究所)招生专业中国科学院金属研究所(以下简称金属所)成立于1953年,是新中国成立后中国科学院新创建的首批研究所之一,创建者是我国著名的物理冶金学家李薰先生。现任所长左良教授。经老一辈科学家和几代人的不懈努力,金属所已经发展成为我国享誉海内外的材料科学与工程领域重要的研究基地,也是培养材料科学与工程高级人才的重要基地。 https://yz.kaoyan.com/ustc/zhuanye/5dad13ceab77c.html
8.前沿报告机器学习在化学和材料科学中的应用获取英文PDF报告请在本公众号回复关键词"机器学习物理科学"。 Ⅵ 化学和材料科学 机器学习方法已被应用于预测分子和固体的能量和性质,并且这种应用的受欢迎程度急剧增加。原子相互作用的量子性质使能量评估的计算量很大,因此,当需要进行许多此类计算时,机器方法尤其有用。近年来,ML 在化学和材料研究中的不断扩展的应用https://blog.51cto.com/u_15622928/5809397
9.智算芯闻材料科学迈向AI4Materials的关键因素:密度泛函理论图3 材料科学中机器学习的一般流程 图片来源于文献[20] 3.1、材料工程特征 把人工智能与材料科学结合起来的第一步是构建材料描述符,通常也叫做材料指纹,这个过程也叫做材料的特征工程[21]。通常一个好的分子或晶体结构描述符需要满足唯一性、平移不变性、旋转不变性、排列不变性等。材料结构的描述符通常可分为两个https://www.metax-tech.com/ndetail/12502.html