范阳谈深科技原子世界的基础模型:生成式AIx材料科学

我猜想,下一个时代的定义性材料之一,有可能是蛋白质,不过今天蛋白质的技术还在萌芽当中,生产蛋白质也依然很贵。

新的技术组合会孕育出超过上一个石油化工时代的物质和材料创造,大概率这会在交叉地带产生:人工智能/机器学习x先进材料科学x合成生物技术x(从头)蛋白质设计等等,当然也需要基础科学比如物理,数学,化学,量子计算的突破。

无论是在中国还是欧洲和美国,这都需要多种科学/技术领域的专业性,和跨学科人才深度的交流和配合。未来会有很多迷你且高效的“曼哈顿计划”。

在流行文化当中,对于创造一种多功能的“超级材料”的想象,一个典型的例子就是漫威宇宙里瓦坎达的振金(Vibranium),一种漫画里虚构的万能金属(又称吸音金属或涅槃钢),它可以吸收能量储存能量也能释放能量,柔软且坚韧,甚至振金还有“意识”,有一种sentientVibranium变体,可以自我计算和自组装。

当然目前这还只是科幻,地球上还不存在这种啥都能干的纳米材料,可能最接近“纳米机器”的“技术”就是生物技术,生物的每一个细胞都有强大的预装功能和制造能力,材料科学可以借助生物细胞和蛋白质的能力实现“自我生长”“自我组装与修复”的能力,也开始被一些材料科学家,机械工程师和生物学家注意到,虽然研究难度非常大,但是也是未来值得期待的。

“材料设计的变革性AI基础模型:

我们设计突破性的材料并将其商业化。从“无稀土电池”和半导体,到碳捕获材料和绿色肥料,我们开发的基础平台技术将影响到世界经济的重要部分,并可能支撑我们经济的绿色转型。我们平台的基础是分子的三维基础模型,它将人工智能突破性的进步,如GPT-3、StableDiffusion和AlphaFold带入材料设计。”

希望本文对你有启发。

作者:JONATHANGODWIN

编辑:范阳

Twitter上不乏ChatGPT等大型语言模型展示出各种炫酷能力的例子,比如重写博文、解决数学问题,甚至代替程序员写代码和写诗歌。因此,一些人将它们称为"基础模型"(FoundationModels),并预测它们将被广泛应用于各种产品中。

作为一个利用人工智能探索开发未来的新材料(如半导体、碳捕获技术用到的材料等)的人,我对人工智能带来的各种可能性感到兴奋。值得注意的是,尽管计算机辅助设计(computer-aideddesign)已经在许多领域带来了革命,但材料科学领域对于这些新技术的接受度仍然有阻力。例如,我们不会像设计飞机机翼一样在计算机上设计新电池。

但是,如果有一个基础模型可以改变这一点呢?也许它可以帮助我们以前所未有的速度设计新的计算机芯片、电池和影响气候变化的技术。

那么解决方案是什么呢?我们应该借鉴“基础模型创建”(foundationmodeling)的概念——使用大型生成模型在大量数据上进行训练(largegenerativemodelstrainedonlotsofdata),并将其应用于科学计算。

对于材料科学而言,这可能意味着需要去建立一个基础模型,可以高度准确地模拟各种材料。

作为一个生成式模型(generativemodel),它也可能具备“逆向设计”(inversedesign)的能力——就像ChatGPT可以生成符合特定韵律方式的诗歌一样,材料科学生成式模型可以基于所需的材料性质(如导电性或硬度)生成新的材料,并优化现有材料以提高其性能。

这种人工智能和机器学习驱动的方法,有潜力彻底改变材料科学的范式。科学家们将不再依赖反复试错实验(trial-and-errorexperimentation),而是使用基础模型创建符合其特定需求的材料。通过能够模拟各种材料,材料科学的基础模型可以为发现新材料和创新开辟新的可能性。

在过去的一年中,基础模型创建取得的主要突破基本上是通过将可扩展且可靠的模型架构,与正确的生成式模型建立任务相结合实现的(pairingascaleable,reliablemodelarchitecturewiththecorrectgenerativemodellingtask)。一旦这些要素被确定下来,就需要按照严格的标准进行工程化。构建材料科学的基础模型,需要找到适合该任务的正确架构,以及适当的生成式模型建立任务(findingtherightarchitectureforthejob,aswellastherightgenerativemodelingtask)。

对于大型语言模型(largelanguagemodels)而言,生成式模型的建立是将Transformer架构与预测序列中下一个词是什么的任务相结合。这种方式可以编码关于世界的大量知识——Transformer具有很好的先验记录,可以继续吸收人类提供的海量数据。

对于图像而言,这是将卷积神经网络(convolutionalneuralnetworks,CNN)与扩散模型(diffusionmodelling)相结合。至今尚未完全理解其中的原因是,当使用去噪扩散损失进行训练(trainedwithadenoisingdiffusionloss)时,CNN表现出非凡的性能。

材料科学领域的突破性技术组合正在逐渐出现。图神经网络(graphneuralnetworks,GNN)似乎是应用在材料科学的正确架构,但我们还没有达到那种随着数据量增加,性能就可以不断提升的“突破”时刻。扩散模型具有一些优良的特性,但如果要将其用于材料科学的生成式模型建立,肯定需要进行调整,使之更具有物理层面的意义。此外,图形(graph)的工程化要求也不同,需要创新和专注。

即使找到了正确的架构和任务,仍然有很多工作要做。在材料科学领域,要产生变革性影响的要求准线更高。材料科学的基础模型需要能够设计出真正在实验室中有效的分子和材料,而不仅仅是在计算的层面上表现良好。对于初创企业而言,致力于实现这个目标比仅仅依赖于OpenAIAPI的薄层应用更具价值。

近年来,许多人工智能的重大挑战已经取得了进展,比我预期的要快很多。上述的挑战确实非常困难,但我相信在正确的团队和专注的努力下,这样的系统是可以被实现的。如果我们能做到这一点,我们可以在原子层面上有意义地加速科学进展,而不仅仅停留在比特层面上。

范阳注:

什么是图神经网络(GraphNeuralNetworks)?

当两种技术融合时,它们可以创造出新的奇妙事物,

开发人员正在将人工智能发现模式的能力,应用于存储各种数据点之间关系信息的大型图数据库。它们共同产生了一种强大的新工具,称为图神经网络。

你可以想象,比如《权力的游戏》当中错综复杂的人物关系和漫长的历史事件,我们从每一个人物的主线都很难一览全貌,图神经网络这样的机器学习方法可以把所有的这些社交网络人际关系和历史事件的前因后果放在一个“高维度空间”里来观察和研究,帮助我们发现甚至在原著小说里都看不到的新事物,甚至生成一本比原著小说还精彩的衍生小说。

以上这些科学以及工业领域的知识都可以用“图”来表示:化学分子,人类知识,信息系统,大脑/神经网络,基因信息,语言沟通,软件与社交网络等。

图神经网络将深度学习的预测能力应用于描述对象及其关系的丰富数据结构,这些结构以图中由线连接的点(pointsconnectedbylinesinagraph)表示。

在图神经网络中,数据点被称为节点,它们通过线(称为边)连接在一起,其中的元素被数学表达,以便机器学习算法可以在节点、边或整个图的层面上进行有用的预测。

在学术界,也有越来越多利用人工智能和机器学习的新工具箱进入先进材料科学领域的研究者。

也有越来越多新成立的实验室,从模型和数据驱动的视角,进行新材料的研究到工程制造工艺的创新。

THE END
1.如何在智能信息化时代加速材料科学的研发与创新如图4所示,材料科学中常用的机器学习算法可以分为四类:概率估计、回归、聚类和分类。具体而言,概率估计算法主要用于新材料发现,而回归、聚类和分类算法用于宏观和微观层面的材料特性预测。此外,机器学习方法通常与各种智能优化算法相结合,例如GA,SAA或PSO算法,主要用于优化模型参数。此外,这些优化算法也可用于执行其他困难https://cloud.tencent.com/developer/news/333018
2.机器学习材料性能预测与材料基因工程应用实战然而,机器学习在材料科学中的应用仍存在一些瓶颈,人工智能研究项目所需的技能和知识匮乏缺失制约着该方向的发展。以下内容可作为学习的参考 入门阶段从机器学习以及机器学习在材料领域的应用基本概念开始讲授,让大家明确机器学习方法的适用性和优势,以及有针对性的对python语言基础进行系统学习,为之后构建相应算法模型框架打https://blog.csdn.net/y2715163545/article/details/130487823
3.科学网—jyx123321的博客机器学习在材料科学中的进展研讨会的报告 2024-08-21 昨天我们学院年轻有为的 LONG T 老师组织了机器学习在材料科学中的进展研讨会,我受邀做了一个报告《面向复杂电路结构可靠性仿真的基于 Transformer (4111)次阅读|(6)个评论 生成式人工智能在集成电路行业中深入应用的期望 2024-08-13 在8 月 11 日写https://blog.sciencenet.cn/home.php?mod=space&uid=99553
4.机器学习在材料科学中应用作为一个目前专业为材料学科,但却独自学习机器学习的小菜鸡,最理想的莫过于将俩者结合,但是这只是个想法,感觉理论上可以实现,要达到这样的目的还需要很艰难的一段路要走,但不妨先把目前的相关的知识整理下来。 我们的日常生活受到材料的影响,从数十亿分之一秒的硅芯片数据存储到汽车发动机的新合金,再到可再生能源https://www.jianshu.com/p/b3b3546446ab
5.材料科学加人工智能是下一个可能发生的类似Alphafold的重大变革在传统的方法中,新材料是通过实验、理论或计算来发现的(也被称为第一、第二和第三范式,由左侧面板上方的三个图标象征)。在数据驱动的材料科学的第四范式中,可用的数据被收集在数据基础设施中,机器学习方法发现新材料。这些方法导致了借用机器学习模型,使人们能够纯粹根据过去的数据进行快速预测,而不是通过直接实验或https://www.yicai.com/news/101121158.html
6.机器学习技术在材料科学领域中的应用进展维普期刊官网摘要 材料是国民经济的基础,新材料的发现是推动现代科学发展与技术革新的源动力之一,传统的实验“试错型”研究方法具有成本高、周期长和存在偶然性等特点,难以满足现代材料的研究需求。近些年,随着人工智能和数据驱动技术的飞速发展,机器展开更多 Materials are the foundation of the national economy,the discovery https://qikan.cqvip.com/Qikan/Article/Detail?id=7105430528
7.2020年中国科学技术大学材料科学与工程学院(金属研究所)招生专业中国科学院金属研究所(以下简称金属所)成立于1953年,是新中国成立后中国科学院新创建的首批研究所之一,创建者是我国著名的物理冶金学家李薰先生。现任所长左良教授。经老一辈科学家和几代人的不懈努力,金属所已经发展成为我国享誉海内外的材料科学与工程领域重要的研究基地,也是培养材料科学与工程高级人才的重要基地。 https://yz.kaoyan.com/ustc/zhuanye/5dad13ceab77c.html
8.前沿报告机器学习在化学和材料科学中的应用获取英文PDF报告请在本公众号回复关键词"机器学习物理科学"。 Ⅵ 化学和材料科学 机器学习方法已被应用于预测分子和固体的能量和性质,并且这种应用的受欢迎程度急剧增加。原子相互作用的量子性质使能量评估的计算量很大,因此,当需要进行许多此类计算时,机器方法尤其有用。近年来,ML 在化学和材料研究中的不断扩展的应用https://blog.51cto.com/u_15622928/5809397
9.智算芯闻材料科学迈向AI4Materials的关键因素:密度泛函理论图3 材料科学中机器学习的一般流程 图片来源于文献[20] 3.1、材料工程特征 把人工智能与材料科学结合起来的第一步是构建材料描述符,通常也叫做材料指纹,这个过程也叫做材料的特征工程[21]。通常一个好的分子或晶体结构描述符需要满足唯一性、平移不变性、旋转不变性、排列不变性等。材料结构的描述符通常可分为两个https://www.metax-tech.com/ndetail/12502.html