ChemRev|人工智能和机器学习算法在结晶研究中的应用

本文首次全面介绍了人工智能和机器学习算法在结晶研究中的应用。

摘要

本综述首次全面介绍了机器学习和化学信息学在结晶研究中的应用。探讨了人工智能和机器学习作为一种新的、强大的手段,如何加速发现新的晶体结构,预测有机结晶材料的关键特性,模拟、理解和控制复杂的结晶过程系统的动态,以及促进涉及结晶材料的化学过程开发的高通量自动化。

本文批判性地回顾了这些新的、迅速崛起的研究领域的进展,提高了对诸如机器学习模型与第一性原理力学模型的衔接、数据集大小、结构和质量以及适当描述符的选择等问题的认识。同时,提出了在应用数学、化学和晶体学界面的未来研究方向。

总的来说,这篇综述的目的是增加工业界和学术界的化学家和科学家对这类方法和工具的采用。

1简介

最近,计算能力的激增加上大量实验数据集的出现,使人们对人工智能和机器学习算法和技术产生了前所未有的兴趣。机器学习已被成功应用于大型高维数据集的高级回归、分类、聚类、特征提取和降维问题。

在制药行业,大约80%的活性药物成分(API)是通过溶液结晶工艺生产的。

然而,尽管被广泛应用,结晶仍然通常被认为是一门艺术而不是一门科学,并且由于几个持久的基本科学和技术挑战,它在很大程度上仍然是经验性的。在化工行业“大数据”和数字化的时代,机器学习有望改变结晶过程的发展方式和发现结晶材料的方式。

本综述批判性地讨论了这些新兴研究领域的进展,旨在全面概述机器学习和化学信息学在结晶中的应用。

本文讨论了机器学习算法在结晶和晶体化学研究中的应用、优势和局限性。更具体地说,专注于过去五年中取得重大进展的以下领域:(a)用于从(过程)分析技术中提取高级特征的机器学习,(b)数据驱动的结晶建模和控制,(c)晶体材料物理化学性质的分类和预测(例如,溶解度和熔点)以及(共)晶体结构预测,(d)蛋白质和寡核苷酸等复杂有机分子的结晶倾向预测,(e)用于高通量晶体表征的机器学习驱动的图像分析,以及(f)包括剑桥晶体学数据库(CSD)在内的科学数据库中的数据挖掘。最后,对上述领域的未来研究机会和挑战提供了作者的观点。

2机器学习算法在结晶中的应用概述

鉴于结晶中算法和应用的多样性,表1中给出了一个摘要,供快速参考。

表1结晶中的ML模型的主要优点、缺点和应用

3数据驱动的结晶过程监测、建模和控制

监测、建模和控制工业结晶过程在制药和(精细)化学工业中至关重要。

最近,在开发精确的原位PAT方面取得了重大进展,通过实时监测生产过程中结晶过程中的关键工艺参数(溶液浓度、粒径、形状和多晶型),部分解决了最后一点。这些新功能为基于无模型和基于模型的高级反馈控制策略更好地理解、设计和自动化结晶操作开辟了途径。机器学习可以通过各种方式提供帮助。简而言之,机器学习从PAT中获取准确的信息(特征提取),以开发数据驱动的结晶过程模型,用于结晶过程的预测和模型预测控制(MPC)。

3.1机器学习和过程分析技术(PAT)

最近研究人员还采用了先进的非线性机器学习进行光谱学研究。巴姆帕莱克西斯等应用ANN模拟在(基于聚合物的)共晶体配方框架中获得的拉曼和ATR-FTIR光谱,所采用的前馈反向传播ANN在确定每个共晶的正确组成方面比PLSR具有更高的精度,因为它的非线性性质适合多组分系统的在线监测和质量控制。

一旦有一个精心设计的训练数据集可用,机器学习就会揭示结晶监测中长期存在的问题。例如,由固体的存在引起的近红外光谱和拉曼光谱失真现在被认为可以捕获有关该过程的可利用信息。由遗传算法(GA)与SVM耦合的预测模型已被证明在监测NIR光谱的L-谷氨酸结晶方面是成功的。同样,邹等人采用SVR模型进行近红外光谱分析,以评估和预测含药粉末的活性成分。与PLS相比,该模型更胜一筹。

除了为光谱传感器构建校准模型外,机器学习还可用于推导出所需产品属性之间的数学关系,或组合不同PAT的输出以获得其他无法实现的目标属性。例如,ANN可以基于FBRM和PVM获得在线软传感器,并允许定量反馈控制,以将模拟的2D粒度分布(PSD)直接转换为弦长分布(CLD)和纵横比分布,这是晶体结晶的基本参数。

PAT工具可以改变结晶监测的游戏规则,因为快速数据采集和灵活的工作条件。为了充分发挥PAT方法的潜力,机器学习可以与拉曼光谱相结合。随着拉曼文库的不断扩展,这种PAT方法可能会变得更加强大。人们还可以设想在提取各种面的概率时使用贝叶斯推理方法来量化误差。

3.2数据驱动的无模型和基于模型的结晶过程控制

工业结晶过程控制策略可分为基于模型的方法和无模型的方法。无模型结晶控制方法在各个尺度上都非常强大,并且很容易适用。尽管如此,由于他们没有利用对该过程的任何基本见解,因此他们依赖于启发式和专业知识。表2总结了最新的数据驱动结晶建模和控制研究。

表2数据驱动结晶过程建模与控制文献研究综述

在所使用的各种建模技术中,ANN是最突出的。由ANN直接建立的复杂非线性输入/输出关系可以(更多)接近结晶过程输出。然而,在许多情况下,由于缺乏实验数据,PBM也被用来生成训练ANN所需的数据集。

将机器学习和机械方法相结合可以部分弥补前者的“黑匣子”特征,弥补它无法通过从第一性原理方法得出的洞察力,这通常以一定的计算成本产生更好的外推能力。

3.3结晶过程中的机器学习和计算流体动力学

总体而言,现场的大多数ML应用程序都试图通过在CFD数据上训练ML算法来规避成本高昂的优化问题,以便在给定的设计空间内非常快速地评估输入条件对设备操作和结果输出的影响。

4结晶材料及其所得粉末理化性质的分类与预测

图9显示了机器学习方法的主干原理图以及晶体特性估计方法的演变。

图9分子和晶体数据性质估计计算工具的研究进展

不同的机器学习技术显示出了处理冗余或互连功能的不同能力。

4.1溶解度

表3通过机器学习方法预测水溶性

4.2熔点预测

熔点是药物开发中的一个重要参数。

ANN的使用已被证明可以有效地预测蛋白质的热稳定性,只需先验其氨基酸序列。研究人员已采用ANNs来预测晶体的熔点和理想分子量的溶解度。机器学习技术也已应用于预测共晶体的物理化学性质。

4.3利用量子力学进行晶体结构预测和性质估计

结晶专家经常面临这样的情况:不可预见的多晶型物出现在工艺开发的后期阶段,甚至在商业规模上,这在物理和监管复杂性、知识产权、项目预算以及最重要的产品质量方面带来了重大挑战。

因此,在药物的早期开发阶段,许多实验工作都集中在繁琐的固体形式筛选上,旨在发现和排列材料最合理的晶体结构的稳定性。

CSP的方法基于(i)基于第一性原理的从头全局优化,(ii)机器学习技术,以加快、支持决策制定,并在工作流程的中间步骤中对结果进行聚类,以及(iii)基于模板的元素替换。

图10概述了CSP工作流中的步骤。

图10晶体结构预测(CSP)工作流程概述

4.4过滤性、流动性、可压片性和最终产品杂项特性

过滤是结晶化下游加工中最常用的单元操作之一,用于将晶体与母液分离。晶体的粒径和形状分布以及可过滤性的定性关系长期存在。然而,一般的描述性量化仍然难以捉摸,部分原因是颗粒群和物理性质的复杂相互作用以及大量可能的颗粒描述符。

机器学习至少可以帮助缓解一些问题,例如,PCA和PLS可用于为给定的过滤应用选择输入变量,包括颗粒形状和尺寸描述符(及其比率),材料特定属性和过程变量(pH,压力)。回归模型(例如具有四个输入和只有五个隐藏节点的神经网络)可以通过合并标准分析模型中通常不包含的细粒度比率,将预测颗粒材料渗透率的平均绝对误差从40%降低到9%。

5预测有机化合物的结晶行为

任何药品的结晶能力和结晶结果与所有上游合成步骤一样重要。不幸的是,这些特征不能先验地直接设想,因此,基于经验数据和机器学习的预测可以代表寻求高效和省时的药物开发方案的飞跃。

ML方法可以帮助确定分子在特定条件下是否可以在特定溶剂中结晶。研究人员仅采用2D特征的SVM预测模型捕获结晶倾向,准确率为90%。

6高通量材料发现和晶体表征

通过人工智能进行的自动化图像处理正在不同领域出现。产生大量图像的结晶过程可以从该领域的进步中受益匪浅。

通过机器学习对结晶结果进行分类可以代表过程监控和质量控制的巨大飞跃。大规模过程,如蔗糖结晶,已经使用深度卷积神经网络进行了晶体分类测试,达到了高水平的准确性,因此几乎不需要人类操作员的干预。

深度学习模型可以根据二维衍射指纹的晶格对称性成功地对晶体进行分类,即使在结构缺陷的高噪声数据中也是如此。

7剑桥晶体学数据库中的数据挖掘

晶体材料的大量数据集可以在剑桥结构数据库(CSD)以及Butler等人列出的其他公开数据库中找到。

除了从大型晶体学数据库中获得的晶体结构外,结晶动力学也非常有价值。Maldonado等人正在从文献数据中建立一个晶体生长和成核的动力学参数数据库,并开发了一个分类模型来搜索模式。在对动力学参数进行分层聚类后,采用了一个RF模型对每组中的信息进行分类。基于与溶质分子描述符、溶剂、结晶方法和播种的关联,分类准确率在70%以上。

8结论与展望

机器学习已成为结晶研究的宝贵工具,为工程师和科学家提供了利用数据应对长期挑战的新策略,包括有效监测、建模、控制和准确预测晶体材料的物理化学特性。不断提高的计算效率、易于适用(ML模型只需几行代码即可训练)以及解决广泛问题的灵活性为研究、教育和应用提供了无与伦比的机会。

尽管机器学习很有用,但它本身不应被视为解决结晶中所有长期挑战的灵丹妙药。

算法的选择、模型架构的超参数、数据预处理技术选择更有利于应用的格式都不是显而易见的选择,都需要深入分析。此外,结晶的几个方面仍然是活跃的研究领域,机器学习不能完全弥补科学知识的缺乏。例如,小有机分子、盐、溶剂化物和复杂的大分子(例如蛋白质)的晶体结构预测算法仍然在不同程度上难以应对对DFT、构象灵活性、能量排名、电荷离域误差,以及捕获范德华相互作用的能力有限。机器学习算法无法超越原始训练数据的质量,并且仍然局限于最先进的第一性原理方法,尽管它们可以帮助以较低的计算成本探索CSP中呈指数增长的配置空间。

此外,即使使用实验数据进行训练,机器学习应用程序也可能变得过于特定于案例,无法(轻松)转移到不同的项目中,特别是考虑到新开发的药物的官能团和结晶行为的多样性。涉及过度训练、所需大量数据以及维度诅咒的问题比第一性原理方法更困扰机器学习。因此,重要的是将量子力学和结晶中的物理化学信息协同纳入机器学习方法以解决瓶颈(受物理学启发的机器学习模型)。例如,在机器学习方法中实施物理定律可以解决诸如如何处理不确定性和噪声数据等问题,并提高准确性,特别是对于多尺度和多物理场非线性问题。

算法本身同样需要以低计算成本实现高精度的最小监督,这是一个非常具有挑战性的开放问题。此外,集成学习方法提供了无数的组合来解决回归或分类问题,这提供了改进的空间。

总之,虽然机器学习的普及程度有所提高,但仍然存在进一步突破的障碍和机会,如下所述。

8.1纳入已知的物理学/建立可解释的ML模型

在物理学信息或物理学启发模型的总体框架下,各种方法的混合组合可以基于物理学的模型的一致决策和推断能力与基于数据的高效计算模型连接起来,缓解知识和计算能力的限制,并推动预测的改进。如,物理信息神经网络通过将偏微分方程(包括整数微分方程)嵌入到神经网络的损失函数中来整合数据和数学物理模型,并形成具有增强预测能力的模型。

8.2数据集的可用性

8.3数据结构化和民主化

8.4数据集的一致性

在某些情况下,在使用数据之前可能需要进行热力学一致性检查。此外,溶质和溶剂的纯度以及亚微米级的颗粒大小也会影响溶解度。一旦在ML模型中使用,缺乏标记和双重检查会转化为低质量的数据和结果。同样,结晶动力学实验不仅需要清楚地表明所使用的动力学表达式,还需要表明如何表示过饱和度,因为所使用的表达式会改变基于方程的建模(如PBM)的参数估计。

8.5高效预测的特征选择

特征的选择对于提高预测能力、降低计算成本和产生可解释的模型是至关重要的。在开发结合了简单性和低维度的强大的新描述符方面仍有很多工作需要做。晶体材料设计中的一个例子是Isayev等人展示的片段描述符的概念。在开发和探索不仅涉及溶质或溶剂特征,而且涉及它们之间的相互作用的描述符方面的更多努力,可能是显著改善特性和结晶行为预测的关键。

参考资料

XiourasC,CameliF,QuillóGL,KavousanakisME,VlachosDG,StefanidisGD.ApplicationsofArtificialIntelligenceandMachineLearningAlgorithmstoCrystallization.ChemRev.2022Aug10;122(15):13006-13042.doi:10.1021/acs.chemrev.2c00141.

THE END
1.人工智能论文研究探索机器学习与深度学习的前沿应用在当今这个快速发展的时代,人工智能(AI)已经成为科技领域的一个热点话题。随着AI技术的不断进步,它在各个行业和领域中的应用日益广泛,从而激发了大量关于AI论文的研究。以下是对一些最新的人工智能论文研究进行的概述。 机器学习与数据分析 在过去几年中,机器学习技术得到了巨大的发展,这主要归功于大数据和云计算服务https://www.206sk8xl.cn/xing-ye-zi-xun/627985.html
2.机器学习:开启智能未来的钥匙腾讯云开发者社区在风控方面,银行通过大数据技术,监控账户的交易参数,分析持卡人的用户行为,从而判断该持卡人的信用级别。机器学习算法可以分析大量的交易数据,识别异常交易模式,及时发现欺诈行为,保护金融机构和客户的利益。 (四)自然语言处理、图像和视频处理、医疗保健、金融和商业、交通运输、农业等多领域应用 https://cloud.tencent.com/developer/article/2478495
3.物理学中的机器学习:从数据到发现的新范式机器学习(ML)是人工智能(AI)的一部分,致力于开发能够从数据中学习、无需明确编程便能做出预测或决策的算法。过去几十年里,机器学习已经成为多个领域的强大工具,改变了医疗、金融和零售等行业。在物理学中,机器学习的应用正在产生深远影响,它提高了数据分析的效率,推动了模式识别、预测建模,甚至新理论的发现https://baijiahao.baidu.com/s?id=1814759329987375988&wfr=spider&for=pc
4.机器学习算法的进步:从传统到现代机器学习(Machine Learning)是人工智能(Artificial Intelligence)的一个分支,它涉及到计算机程序能够自动学习和改进其表现的方法。机器学习的目标是使计算机能够自主地从数据中学习,而不是被人们明确编程。这种技术已经广泛应用于各个领域,例如图像识别、自然语言处理、推荐系统等。 https://blog.csdn.net/universsky2015/article/details/135809767
5.2020届计算机科学方向毕业设计(论文)阶段性汇报深度学习在视频分析中的应用 在本次汇报中,我将介绍毕设课题选定的视频分析具体任务:时序动作检测(Temporal Action Proposal)的相关内容,包括任务背景、最近研究成果、数据情况以及切入点等。我还将汇报过去一阶段的工作内容和下一阶段的工作计划。 范舟 基于强化学习的推荐与广告合并算法设计 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
6.从零开始:机器学习的数学原理和算法实践本书从数学基础知识入手,通过前3章的介绍,帮助读者轻松复习机器学习涉及的数学知识;然后,通过第4~第13章的介绍,逐步讲解机器学习常见算法的相关知识,帮助读者快速入门机器学习;最后,通过第14章的综合实践,帮助读者回顾本书内容,进一步巩固所学知识。 本书适合对机器学习感兴趣但数学基础比较薄弱的读者学习,也适合作为https://www.epubit.com/bookDetails?id=UB77b8ad3a2522b
7.4种方法教你利用Python发现数据的规律python这样我们就可以发现数据的规律,例如哪些因素会影响购买决策等。需要注意的是,这只是一个简单的示例,实际应用中需要根据具体问题选择合适的机器学习算法和特征工程方法。 到此这篇关于4种方法教你利用Python发现数据的规律的文章就介绍到这了,更多相关Python数据规律内容请搜索脚本之家以前的文章或继续浏览下面的相关文章https://www.jb51.net/article/278111.htm
8.人工智能技术导论——机器学习与知识发现51CTO博客而分别基于这三个要素, 就可以对机器学习进行分类。例如,由于信息有语言符号型与数值数据型之分, 因此基于信息,机器学习可分为符号学习和数值学习; 而基于知识的形式,机器学习又可分为规则学习和函数学习等; 若基于发现的逻辑方法, 则机器学习可分为归纳学习、演绎学习和类比学习等等。 这样的分类也就是分别从“https://blog.51cto.com/u_15127700/4561036
9.Python机器学习基础教程如何衡量应用是否成功? 机器学习解决方案与我的研究或商业产品中的其他部分是如何相互影响的? 从更大的层面来看,机器学习算法和方法只是解决特定问题的过程中的一部分,一定要始终牢记整个项目的大局。许多人浪费大量时间构建复杂的机器学习解决方案,最终却发现没有解决正确的问题。 当深入研究机器学习的技术细节时(本书https://www.ituring.com.cn/book/tupubarticle/19667
10.机器学习及其应用通过脑部扫描发现肿瘤 自动分类新闻 论坛自动标记恶评 基于多性能指标来预测公司下一年的收入 对应用语音命令做出反应 … 机器学习算法基本类型 常见算法 按是否在人类监督下训练分类 监督学习 在监督学习中,用来训练算法的训练数据包含了答案,称为标签。 分类就是一个典型的监督学习,例如垃圾邮件过滤器一些回归算法也可https://www.jianshu.com/p/11d1323d028e
11.算法岗还是工程岗?关于职业选择的一点小思考职业发展以机器学习平台研发工程师-Data进行举例,首先你至少要精通或者熟悉一门编程语言(重点,不要贪杯),其次就是数据结构与算法要学好(这里所谓的学好并不是说你在某某平台刷了多少题,更重要的是要了解算法在生活中的应用场景,比如对于栈这种数据结构,大家在学校里可能就只知道栈可以解决括号匹配问题,但你是否知道你在日常https://ac.nowcoder.com/discuss/995242?type=9&order=0&page=1
12.数字化观察(100)华夏银行吴永飞等:数字金融领域小样本学习技术然而,产业数字金融风控所使用的数据要素情况不同于以往,特别是对公客户场景化、生态化细分后,数据样本量很小,难以满足风控建模的需要;而小样本学习目前在机器学习与数据挖掘领域仍属世界性难题。本文从小样本学习技术创新入手,深入探索数字经济时代下面向产业数字金融的小样本学习应用研究与实践。https://bank.hexun.com/2022-05-31/206058282.html
13.《常用算法之智能计算(三)》:机器学习计算从更广泛的意义上来看,机器学习是人工智能的一个子集。人工智能旨在使计算机更加智能化,而机器学习已经证明如何做到这一点。简而言之,机器学习是人工智能的应用,通过应用从数据中反复学习得到算法,可以改进计算机的功能,而无需进行明确的编程。 在给出机器学习计算各种算法之前,最好是先研究一下什么是机器学习和如何对http://www.kepu.net/blog/zhangjianzhong/201903/t20190327_475625.html