软物质科普:当材料科学遇见机器学习

以上情景经常出现在我们的生活中,实现和语言助手进行人机交互的一个重要技术是语音识别,而这正属于人工智能(ArtificialIntelligence,AI)的一种应用。

接下来我们将简单介绍机器学习方法的概念、分类、基本步骤和常用的软件库。

对于机器学习,Mitchell给出了一个形式化的定义:一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E的增加而增加,可以称其为学习[2]。

这种通过计算的方式,利用数据来改善系统自身性能的能力在材料科学领域的应用数量正在迅速增加。用于生成、测试和改善科学模型的机器学习工具也越来越多。这些技术适用于解决设计大量组合空间或非线性过程的复杂问题,而常规过程无法解决这些问题或需要很高的计算成本。运用机器学习,只要提供足够的数据和用于发现规则的算法,计算机原则上就有能力在没有人类干预的情况下确立所有已知的物理规律,以及可能发现目前还未知的物理规律[3]。

机器学习方法按学习方式划分大体可以分为三大类,分别是监督学习、无监督学习和强化学习[4],见图2。

图2.机器学习方法分类

监督学习的特征是训练数据有标记信息,训练数据由输入和对应输出值的集合组成。两种常见的监督学习问题是分类和回归,对应于分类输出和数值输出。常见的方法有线性回归、逻辑回归、支持向量机和神经网络等。

无监督学习的特征是训练数据无标记信息,尝试从没有标记的数据中提取信息。无监督学习分为非概率模型,如稀疏编码、自动编码器、k-means等,以及概率(生成)模型,其中或明确地或隐含地涉及密度函数。常见的方法有聚类、降维以及异常检测等。

强化学习是关于一个智能体与环境相互作用,通过试错来学习最优策略,用于自然、社会科学和工程等广泛领域的序贯决策问题[5]。在强化学习中,有评估反馈,但没有监督信号。

在传统的计算方法中,计算机更多情况是充当高级计算器的角色,所有步骤都已经由人提供了硬编码算法,即将数据直接写在程序或其他可执行对象的源代码中。与传统计算方法不同,机器学习方法通过评估数据集的一部分并建立模型进行预测来学习数据集的基础规则。计算机能通过数据的内部联系发现规律,所以我们说机器从数据中进行了“学习”。

在材料科学中,训练机器学习模型的四个步骤主要可以分为数据采集、数据表达、模型选择和模型优化[6]。

图3.数据库标识。(1)无机晶体结构数据库;(2)剑桥结构数据库。

这些数据虽然已经经过一定的筛选和检查,但是难免会受到人为和测量误差的影响。此外,由于数据以各种格式存储在不同的数据库中,因此很难将多个数据库的数据统合起来。所以,即使使用数据库中已经收集的数据用于机器学习模型的训练,也应该在数据采集阶段进行相应的处理。

数据表达又可称为特征工程,是指将原始数据转换或提取信息特征以适应算法学习的形式。不同的数据形式对于机器学习算法的训练影响巨大。如何最好地表达数据是一个值得思考的问题,它不仅仅涉及研究者对于研究体系的认知,还涉及机器学习算法对数据的处理过程。图4是分子表示(Representationofmolecules)的示意图。

图4.对于同一个分子不同类型的分子表示[7]。(1)指纹矢量;(2)SMILES字符串;(3)势能函数;(4)原子和键的权重图;(5)库伦矩阵;(6)键/片段的组合;(7)原子电荷的三维几何;(8)电子密度。

有时最方便人类理解问题的表达形式并非适合机器对其进行“学习”。例如在固态下,传统的使用平移矢量和原子的分数坐标来描述晶体结构的方法并不适用于机器学习,因为晶格可以通过选择不同的坐标系从而以无数种方式来表示。利用基于径向分布函数的表示法是解决这一问题的新方法之一[8]。

完成数据采集和数据表达后,已经有了足够的数据以及合适的数据表达,这一步则是在前两步的基础上建立一个用于学习的模型。根据需要解决的问题以及可用数据的类型和数量,机器学习模型的训练可以采用监督、无监督和强化学习方法。

监督学习是目前最成熟的方法,通过输出值对预测值的校正通常能获得比较好的学习模型。无监督学习可用于更全面的数据分析和分类,或识别大型数据集中以前无法识别的模式。强化学习没有监督信号,只有奖励(反馈)信号。该方法不需要事先给出任何数据,而是通过接收环境对动作的奖励(反馈)来获取学习信息并对模型参数进行更新。

每种算法都有自己适用的领域,并且没有针对所有问题都通用的最佳算法,这就是“没有免费的午餐”定理(Nofreelunchtheorem)。研究人员应该根据数据集的构成和研究目的,选择适当的机器学习方法。

为了优化和选择模型的最佳模式,模型必须进行验证评估。我们通常把数据分成训练集、验证集和测试集三大部分。判断已建立的机器学习模型表现好坏通常需要用验证集数据进行评估,即通过验证集数据对模型的泛化误差进行评估。

两个常见的问题是过拟合和欠拟合,前者体现了机器学习模型的学习能力较差,难以达到所需要的预测或分类等效果,后者体现了机器学习模型的泛化能力较差,对于训练集的数据能够较好地拟合但是对于训练集之外的数据拟合能力很差。通过优化模型和数据集,平衡这两个问题的行为就是偏差-方差权衡(Bias-variancetrade-off)。

机器学习方法多种多样,幸运的是,有很多成熟的库可供我们直接使用,不需要重新“造轮子”。常用的库有Scikit-Learn、Keras以及TensorFlow,见图5。

图5.三种常见的机器学习库。(1)Scikit-Learn;(2)Keras;(3)TensorFlow。

Scikit-Learn用于Python编程语言的自由软件机器学习库。它的特征是具有各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-平均聚类和DBSCAN。

Keras是一个用Python编写的开源神经网络库,旨在快速实现深度神经网络,专注于用户友好、模块化和可扩展性。除标准神经网络外,Keras还支持卷积神经网络和循环神经网络。

TensorFlow是一个用于机器学习的免费开源软件库。它可以用于一系列任务,但特别着重于深度神经网络的训练和推理。

通过使用适合的机器学习库,即使对于机器学习底层算法不熟悉的同学,也可以轻松上手机器学习,搭建属于自己的机器学习模型。

[1]AgrawalA,ChoudharyA.Perspective:Materialsinformaticsandbigdata:Realizationofthefourthparadigmofscienceinmaterialsscience[J].AplMaterials,2016,4(5):053208.

[2]MitchellTM.Machinelearning[J].BurrRidge,IL:McGrawHill,1997,45(37):870-877.

[3]ButlerKT,DaviesDW,CartwrightH,etal.Machinelearningformolecularandmaterialsscience[J].Nature,2018,559(7715):547-555.

[4]LiYX.Deepreinforcementlearning:Anoverview[J].arXivpreprintarXiv,2017,1701.07274.

[5]SuttonRS,BartoAG.Reinforcementlearning:Anintroduction[M].MITpress,2018.

[6]ButlerKT,DaviesDW,CartwrightH,etal.Machinelearningformolecularandmaterialsscience[J].Nature,2018,559(7715):547-555.

[7]BenjaminSL,AlánAG.Inversemoleculardesignusingmachinelearning:Generativemodelsformatterengineering[J].Science,2018,361:360-365.

[8]SchüttKT,GlaweH,BrockherdeF,etal.Howtorepresentcrystalstructuresformachinelearning:Towardsfastpredictionofelectronicproperties[J].PhysicalReviewB,2014,89(20):205118.

地址:中国广东省广州市天河区华南理工大学北区科技园2号楼邮编:510640

THE END
1.美国开发机器学习的方法,用于实时检测金属增材制造的热量积累原位监测的重要性:原位监测对于确保金属增材制造过程的质量和可靠性至关重要。它可以帮助实现缺陷监控、自动反馈控制、过程参数映射和减少材料浪费。计算框架的开发:卡耐基梅隆大学的研究人员开发了采用机器学习的计算框架,以实时识别局部热量积累的区域。这种方法的有效性已在具有各种几何特征的构建上得到了验证。通过上述https://baijiahao.baidu.com/s?id=1799203677359353546&wfr=spider&for=pc
2.如何利用机器学习推动智能材料的发展本文探讨了机器学习如何在智能材料领域发挥作用,包括材料设计、性能预测和制造优化。文章介绍了核心概念,如机器学习算法(如线性回归、SVM、决策树等)及其在智能材料中的应用,并讨论了未来发展趋势和面临的挑战,如数据质量和隐私保护。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/universsky2015/article/details/135807839
3.机器学习在材料信息学中的应用综述机器学习在材料信息学中的应用综述 随着科技的不断发展,和机器学习已经深入影响了许多领域。其中, 材料信息学作为一个跨学科的领域,结合了材料科学、物理学、化学 和计算机科学的知识,对理解材料的性质和设计新的材料具有重要意 义。近年来,机器学习在材料信息学中的应用已经取得了显著的进步, 本文将对此进行综述。 https://www.docin.com/touch_new/preview_new.do?id=4562864718
4.如何在智能信息化时代加速材料科学的研发与创新如图4所示,材料科学中常用的机器学习算法可以分为四类:概率估计、回归、聚类和分类。具体而言,概率估计算法主要用于新材料发现,而回归、聚类和分类算法用于宏观和微观层面的材料特性预测。此外,机器学习方法通常与各种智能优化算法相结合,例如GA,SAA或PSO算法,主要用于优化模型参数。此外,这些优化算法也可用于执行其他困难https://cloud.tencent.com/developer/news/333018
5.机器学习顶刊汇总:Science子刊AMAFMAdv.Sci.npjComput在此,美国伊利诺伊大学陈倩教授等人通过耦合定量3D成像、机器学习(ML)和理论建模,研究了聚酰胺薄膜模型系统中的纳米形态发生及其对渗透性和机械异质性的影响。聚酰胺膜是用于高效分子分离的大多数薄膜复合材料中的活性层,一般通过界面聚合合成。该薄膜在宏观上是平坦的,但其特征是包含纳米级内部空隙的复杂3D不均匀褶皱,https://www.shangyexinzhi.com/article/4707079.html
6.机器学习在钢铁材料研究中的应用综述机器学习技术已广泛 应用于指导材料设计中, 成为材料研究的新兴方法和热门领域. 对机器学习在钢铁材料研究中的应用进展进行综述, 介绍了 机器学习的工作流程和常用模型与算法, 阐述了机器学习在钢铁材料特征选择, 成分-工艺-性能预测, 服役行为预测以及逆 向设计方面的研究进展. 最后, 分析了机器学习技术在钢铁材料http://www.mat-china.com/oa/pdfdow.aspx?Sid=202112020
7.描述符与机器学习实现固体氧化物燃料电池阴极活性有效预测—论文—科该研究将机器学习、理论计算与陶瓷固体氧化物开发相结合,开发了一个经过实验验证的阴极材料机器学习筛选技术,实现了快速、有效地从庞大的钙钛矿组分中筛选高活性固体氧化物燃料电池阴极材料。 背景介绍 实现煤炭的清洁高效利用,推动煤炭革命,对我国能源结构改革具有重大战略意义!当前,现代化的燃煤电厂受到卡诺循环的限制,单https://news.sciencenet.cn/htmlpaper/2022/9/20229611394262575541.shtm
8.高通量多尺度材料计算和机器学习/材料基因工程丛书《高通量多尺度材料计算和机器学习/材料基因工程丛书》,作者:高通量多尺度材料计算和机器学习/材料基因工程丛书杨小渝|责编:周涵//郭学雯 著,出版社:科学,ISBN:9787030762825。http://product.m.dangdang.com/11684308154.html
9.材料科学+人工智能是下一个可能发生类似Alphafold的重大变革什么样的材料科学问题最适合于数据驱动的方法,或者最能从数据驱动的方法中受益,这些问题不断出现。在决定使用机器学习方法解决他们感兴趣的问题之前,对这方面有一个满意的理解是至关重要的。也许数据驱动方法最危险的方面是在不知不觉中把机器学习模型应用于先前数据领域之外的情况。一个丰富的、在很大程度上未知的https://www.iyiou.com/news/202107271020214
10.助力科研:;lammpsreaxff反应力场机器学习comsol电化学【机器学习材料性能预测与材料基因工程应用实战】 深度学习神经网络、经典机器学习模型、材料基因工程入门与实战、图神经网络与实践、机器学习+Science 案例:(神经网络在催化领域的应用、预测杂化钙钛矿带隙、有机太阳能电池材料快速筛选、团簇结构数据库构建、同素异形体结构数据库构建、原子性质分析、材料指纹和势函数生成https://www.jianshu.com/p/ce722c74db43
11.机器学习方法预测材料性能的新进展近二十年来,机器学习方法的发展为我们的生活带来许多便利。智能网络搜索、语音识别,乃至无人超市、无人驾驶汽车等,依托于机器学习方法的新事物正迅速地在生活中普及。Alpha Go的横空出世更让世界惊叹于人工智能的潜在价值。在科研领域,大数据的理念正在改变着科研人员对未知世界的探索方式。美国在2011年提出了材料基因组http://mmp.iphy.ac.cn/cn_detail.php?id=31633
12.玻尔?科研空间站(Bohrium?)“一网打尽”机器学习从进一步将机器学习方法应用在化学、生命科学、材料等科学领域,可以一定程度上替代传统实验的方法,如通过优化算法等手段,实现优化特定目标的属性和性质的目的。在材料发现领域,机器学习手段可以应用在材料结构设计和优化环节,快速探索可能的材料配置和性能。针对材料相关专业的学员,推荐的最后一门课程是 《 机器学习辅助材料https://maimai.cn/article/detail?fid=1832965941&efid=Fo047MTNUm519uB8Z8F94A
13.大数据AND机器学习:大数据是原材料,机器学习是原材料加工厂大数据是原材料,机器学习是原材料加工厂,而新一代人工智能服务则是工厂出炉的产品被消费在越来越多的日常生活中。 在Deepmind和AlphaGo获得的巨大成功吸引了全世界的目光的同时,新一代人工智能德比大战已经开始。 Deepmind之前开发的玩雅达利(Atari)街机游戏的人工智能是全新一代的智能技术——大数据驱动通用人工智能(Bighttps://www.cda.cn/view/17136.html
14.AI人工智能助力新材料配方研发!专栏文章摘要:近年来材料科学研究发展十分迅猛,不管是依靠实验手段还是计算模拟,都会产生大量数据信息,依靠机器学习算法可以从数据中挖掘有效信息,对于计算产生的大规模、高维度数据集,可以有效识别,提取数据集中的隐含规律和相关性。此外,利用机器学习还可以实现特征提取、图片识别等。 http://www.e-erp.com/zlwz/306.html
15.基于机器学习的新型高强镍基高温合金设计与优化.pptx基于机器学习的新型高强镍基高温合金设计与优化20231027目录contents引言材料科学基础基于机器学习的材料设计方法高强镍基高温合金的设计与优化基于机器学习的材料性能预测与优化结论与展望引言01研究背景与意义随着航空航天技术的快速发展https://www.renrendoc.com/paper/302420646.html