人工智能驱动的生命科学研究新范式丨大力推进科研范式变革蛋白质结构

本文刊载于《中国科学院院刊》2024年第1期“专题:大力推进科研范式变革”

李鑫1,2于汉超3*

1中国科学院动物研究所

2北京干细胞与再生医学研究院

3中国科学院前沿科学与教育局

2007年,图灵奖得主吉姆·格雷(JimGray)提出了科学研究的四类范式:第一范式是实验(经验)科学;第二范式是理论科学;第三范式是计算科学;第四范式是数据科学。科学研究的范式变革体现了人类对宇宙探索的深度、广度、方式和效率的演进。

生命科学的发展经历了多个阶段,其研究范式的演进也有其独特的学科属性。在生命科学早期发展阶段,生物学家主要通过观察不同生物体的形态和行为模式来探索生物存在的一般形式和演化的共同规律。从20世纪中叶开始,生命科学研究进入了分子生物学时代。随着生命科学的进一步发展和新型生物技术的快速涌现,科学家通过高通量、多维度组学数据分析与实验科学结合的方式对生物过程进行更加精细的描述和解析,成为现代生命科学研究的常态。

然而,生命系统具有多层面的复杂性,涵盖了从分子、细胞到个体不同层次,以及个体间的种群关系、机体与环境的互作关系,展现出多层级、高维度、高度互联、动态调控的特点。现有的实验科学研究范式在面对如此复杂的生命系统时,往往只能从特定尺度对有限数量的样本进行观察描述和研究,难以全面理解生物网络的运作机制;并且高度依赖人的经验和先验知识对特定生物关系进行探索,难以从大规模、多样性、高维度数据中高效提取隐匿的关联和机制。面对生命现象中复杂的非线性关系和难以预测的特征,人工智能(AI)技术展现出强大的能力,并且已经在蛋白质结构预测、基因调控网络模拟解析方面表现出颠覆性的应用潜力,将生命科学研究由实验科学为主的第一范式推向以人工智能驱动的生命科学研究新范式——第五范式(图1)。

本文将从AI驱动的生命科学研究典型范例、生命科学研究新范式的内涵和关键要素、新范式赋能的生命科学研究前沿及我国面临的挑战3个方面进行系统论述。

1.人工智能驱动的生命科学研究典型范例

AI技术以其优越的模式识别和特征提取能力,能够在庞大的参数堆叠情况下超越人类理性推理能力,从数据中更好地理解复杂生物系统中的规律。当拥有充足且高质量的数据和适配于生命科学的算法时,AI模型就能够在多层次的海量数据中以“低维”数据预测“高维”信息及规律,实现从基因序列和表达等低维数据到细胞、机体等高维复杂生物过程规律揭示的跨越,解析复杂的非线性关系。近年来生命科学领域涌现出了蛋白质结构解析、基因调控规律解析等一批AI驱动生命科学研究发展的典型范例。

蛋白质结构解析范例

蛋白质作为生物体内关键功能的执行者,其结构直接影响运输、催化、结合和免疫功能等重要的生物过程。捕获蛋白质折叠的底层规律从而实现对蛋白质结构的精准预测,一直是结构生物学领域最重要的挑战之一。

AlphaFold2利用基于注意力机制的深度学习算法,对大量蛋白质序列和结构数据进行训练,并结合物理学、化学和生物学的先验知识,构建了包含特征提取、编码、解码模块的蛋白质结构解析模型。在2020年国际蛋白质结构预测竞赛(CASP14)中,其蛋白质三维结构预测准确性甚至可与实验解析的结果相媲美。这一突破为生命科学领域带来了全新的视角和前所未有的机遇,主要体现在3点。

1)对药物发现领域产生了直接影响

大多数药物通过与体内蛋白质特殊结构域的结合而引发蛋白质功能的变化,AlphaFold2能够快速计算出海量目标蛋白质的结构,从而有针对性地设计药物以有效地与这些蛋白质结合。

2)对蛋白质的理性设计提供了新的可能性

一旦AI对蛋白质折叠的底层规律有了深刻理解,就可以利用这一知识设计出折叠成所需结构的蛋白质序列。这使得生物学家可以根据需求自由设计和改造蛋白质或酶的结构,如设计更高活性的基因编辑酶,甚至是自然界中不存在的蛋白质结构。同时也推动了人们对基因编码信息在蛋白质层面结构投射规律的理解,并将大幅提高人类对生命的改造能力。

3)AlphaFold2彻底改变蛋白质结构解析领域的研究范式

从只能通过费时费力的传统实验技术解析蛋白质结构转变为低门槛、高精度、高通量地预测蛋白质三维结构的新范式,证明通过将蛋白质知识和AI技术相结合,可以提取和学习到高维、复杂的知识,促进对蛋白质物理结构和功能的更深入理解。

基因调控规律解析范例

人类基因组计划被誉为20世纪人类三大科学计划之一,揭开了生命奥秘的序幕。传统生物信息分析方法只能处理少量数据,对大规模、高维度且缺乏准确标注的生物组大数据难以捕捉数据中复杂的非线性关系。

近年来,自然语言处理技术的不断突破,特别是大语言模型的迅猛发展,能够通过训练语料数据使模型具有理解人类语言描述知识的能力,为解决这一领域问题带来了新思路。国际多个研究团队借鉴大语言模型的训练思路,相继基于数以千万计的人类单细胞转录组谱数据和庞大的算力资源,利用Transformer等先进算法和多种生物学知识,构建了多个具有理解基因动态关系能力的生命基础大模型,如GeneCompass、scGPT、Geneformer和scFoundation等。这些生命基础大模型以基因表达等底层生命活动信息为训练基础,利用机器来学习理解这些“低维”的生命科学数据与复杂“高维”的基因表达调控网络、细胞命运转变等底层生命机制之间的关联性和对应规律,实现以低维数据对高维信息的有效模拟和预测。这种对基因表达调控网络的模拟可以在广泛的下游任务中表现出卓越性能,为深入理解基因调控规律提供了全新的途径。

2.生命科学研究新范式的内涵和关键要素

随着生物技术的不断进步、生命科学数据的快速增长、AI技术的飞速发展及其与生命领域的深度交叉融合,AI以对生命科学知识的深入理解和泛化能力进入AI驱动的生命科学研究新范式(第五范式,以下简称“新范式”)。

通过深入剖析AI驱动生命科学研究的典型范例,笔者认为,生命科学研究的新范式正如一台智能化的新能源汽车,对标新能源汽车的电池系统、电控系统、电机系统、辅助驾驶系统、底盘系统等核心技术,新范式应具备生命科学大数据、智能算法模型、算力平台、专家先验知识和交叉研究团队五大关键要素(图2)。犹如电池系统为车辆提供能量,生命科学大数据为科学研究提供基础资源;算法模型则像智能电控系统,赋能深入理解生物系统的运行机制;算力平台可比喻为电机系统,负责处理海量的科学数据和复杂的计算任务;专家先验知识则像辅助驾驶系统,为科学家提供方向引领和实施经验;交叉研究团队类似于底盘系统,负责整合不同领域的知识和技能,通过跨学科合作提高研究效率,推动生命科学的发展。

图2生命科学研究新范式的五大关键要素

关键要素一:生命科学大数据

关键要素二:智能算法模型

智能算法模型是新范式“汽车”的“电控”系统。Gerstein团队使用贝叶斯网络算法预测蛋白质相互作用的成果发表于Science,为经典机器学习在生物信息领域发展奠定了基础;图卷积神经网络算法被用于分析蛋白质—蛋白质相互作用网络和基因调控网络等生物分子网络,拓展了生命科学领域的研究方向;AlphaFold2使用Transformer模型,能够在高准确度的基础上快速计算出大量蛋白质的结构,都展示出了AI算法模型在生命科学研究新范式中的重要性。

关键要素三:算力平台

算力平台是新范式“汽车”的“电机”系统。面向新范式,未来应构建能够支撑AI赋能生命科学研究的硬件能力平台,包括建设高速大容量存储系统、构建高性能高吞吐量超级计算机、研发专门用于处理生命科学数据的芯片、设计用于加速生物模型推理和训练的专用处理器等,为生命科学研究提供高效、可靠的计算和处理能力,以应对生命科学领域产生的海量数据、满足生命科学领域复杂模型构建的计算需求,保障AI在生命科学领域的应用和创新。

关键要素四:专家先验知识

专家先验知识是新范式“汽车”的“辅助驾驶”系统。新范式下,已有的生命科学知识将为AI算法模型提供宝贵的训练约束条件、重要的背景和特征关系,帮助解释和理解生命科学数据的复杂性、验证和优化AI在生命科学领域的应用;能够在AI算法设计和模型构建时发挥重要的指导作用,促进更加准确、高效地解决生命科学问题,推动生命科学研究向更深入、全面的方向发展。例如,通过嵌入生命科学专家先验知识和人类注释信息编码,新型基因表达预训练大模型提高了对生物数据间复杂特征关联关系的解释,展示出更为优异的模型表现。

关键要素五:交叉研究团队

交叉研究团队是新范式“汽车”的“底盘”系统。新范式下,一支由AI专家、数据科学家、生物学家和医学家等组成的多学科交叉研究团队对于实现跨越式的生命科学发现至关重要。多元背景紧密协作的交叉研究团队能够整合AI、生物学、医学等领域的专业知识,提供多元化的视角和方法,为全面理解和解决生命科学中的复杂机制问题提供牢固基础,为创新性解决方案提供更多可能性,从而推动生命科学领域的突破性发现和进展。

3.新范式赋能的生命科学研究前沿及我国面临的挑战

随着新范式的不断发展,生命科学研究将迎来以AI预测、指导、提出假说、验证假设为特点的新型研究模态。然而,在当前条件下加速推进我国生命科学研究新范式的建立和推广,仍面临一系列巨大的挑战。

新范式赋能的生命科学研究前沿

1)结构生物学

目前在结构生物学领域,以AlphaFold为代表的AI应用技术仍停留在“从序列到结构”的蛋白质结构预测和设计阶段,还无法实现复杂生理条件下蛋白质结构和功能的模拟与预测。更高质量、更大规模的蛋白质数据和新型算法的出现,将有望实现蛋白质“从序列到功能”甚至“从序列到多尺度相互作用”的智能化结构解析与精细设计。

2)系统生物学

当前的组学数据分析仍局限于较低维度的生物组学观测水平,还未形成从基因水平到细胞水平甚至生物个体乃至群体组学水平的全维度观测。新范式将融通多维度、多模态的生物大数据和专家先验知识,提取生物表型的关键特征,构建多尺度生物过程解析模型,还原复杂生物系统运行的底层规律,形成基础而广泛适用的系统生物学研究新体系。

3)遗传学

随着多组学数据的积累和新型基因大模型的出现,遗传学研究已进入新范式推动的快速发展阶段,基于基因表达谱数据的自监督预训练大模型有望成为解析基因调控规律、预测疾病靶点的有力工具,拓展遗传学研究的探索边界。

4)药物设计开发

随着AlphaFold的出现和一批分子动力学模型的发展,AI模型已经被用于预测和筛选药物候选分子。未来新范式将进一步推动该领域的发展,有望出现AI辅助的全流程药物设计开发体系,能够自主完成药物结构和性质的优化设计、实现候选药物的有效性和安全性模拟预测、生成药物的高效合成和生产工艺方案,极大加速药物的开发和生产过程。

5)精准医学

计算机视觉、自然语言处理和机器学习等AI技术已广泛渗透到生物影像、医学影像、疾病智能分析及靶点预测等精准医学子领域。例如,基于AI的诊断系统在准确度上已经可以媲美甚至在某些方面超过资深的临床医生。然而,现有的模型大多受制于数据的偏好性,存在鲁棒性差、通用性低等问题,随着新范式驱动的通用精准医学模型的出现,将有助于更加快速准确地诊断疾病、解析疾病的分子机制、发现新的治疗靶点,提高人类的健康水平。

我国生命科学研究新范式面临的挑战

面对生命科学研究新范式发展的新形势、新要求,我国仍面临高质量生命科学数据资源体系缺乏、AI关键技术与基础设施不足、新范式下的交叉创新科研新生态匮乏等方面的巨大挑战。

1)高质量生命科学数据资源体系缺乏

国内生命科学数据资源还存在分布不均衡问题,需要更好地统筹协调和资源整合,实现高质量生命科学数据资源的高效汇聚和系统化提升。此外,在生命科学数据的收集、传输和存储过程中,数据安全问题亟待加强,特别是生物数据的隐私和安全问题仍需要引起重视。

2)AI关键技术与基础设施不足

针对生命科学大数据的海量、高维、稀疏分布等特征,亟需发展复杂数据的先进计算与分析方法。未来应开发更加适合生命科学应用的硬件、软件和新计算介质,并在生命科学和计算科学的融合过程中,探索新的计算-生物交互模式,解决算力“卡脖子”问题。

3)新范式下的交叉创新科研新生态匮乏

现有AI驱动的生命科学研究方式大多为课题组自发组合的“小作坊”模式,缺乏新范式发展所需的交叉创新环境。美国在2023年发布的《国家人工智能研发战略计划》更新版本中也着重强调了人工智能研究的跨学科交叉发展的重要性。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中指出要推动互联网、大数据、人工智能等同各产业的深度融合。因此,新范式下的科研生态应建立干湿结合、理实交融的新型研究模式,持续培养高水平复合型交叉研究人才,实现以点带面的整体效应建立更加开放的新型科研生态和发展环境。

4.结语

从传统的主要依赖于人经验的假说和实验驱动的科研范式向大数据和AI驱动的新研究范式的演变将广泛改变或促进不同层面的科学研究活动的变革。我们正身临着一个充满变革和希望的时代,生命科学的革新与科技的进步共同绘制出人类对生命奥秘更深层次探索的未来蓝图。可以预见,随着通用AI的进一步发展,生命科学研究将迎来AI自驱抽象新知识、新规律的“预人所未见,思人所未思”的科学新时代。

李鑫中国科学院动物研究所研究员。主要研究领域:干细胞与再生、衰老及癌症,人工智能与生物计算。

于汉超中国科学院前沿科学与教育局副研究员。主要研究领域:人工智能与交叉科学。

THE END
1.大数据+大算力+强算法的方法大数据大算法强算力在当今数据爆炸的时代,海量数据蕴藏着巨大的价值,但如何有效地挖掘和利用这些数据成为了一个关键问题。大数据、大算力和强算法的结合,为我们提供了强大的工具和方法,能够帮助我们从海量数据中发现隐藏的规律,做出更精准的预测和决策。 大数据是指规模庞大、结构复杂、速度快的数据集。这些数据来自各种来源,例如社交媒体、https://blog.csdn.net/2301_76268839/article/details/143712078
2.以算力算法强大大数据应用以创新生态壮大大数据产业6月10日,省委书记楼阳生在山西同方知网公司调研,了解大数据平台建设和应用情况。山西日报记者李联军摄 山西晚报讯(山西日报记者 陈俊琦)6月10日,省委书记楼阳生在太原市调研大数据产业发展并主持召开座谈会。他强调,要认真学习贯彻习近平总书记视察山西重要讲话重要指示精神和关于实施国家大数据战略的重要论述,以算力算法强大http://epaper.sxrb.com/wap/sxwb/20200611/506453.shtml
3.行业研究AI智算时代已至,算力芯片加速升级从感知智能到生成式智能,人工智能越来越需要依赖“强算法、高算力、大数据”的支持。模型的大小、训练所需的参数量等因素将直接影响智 能涌现的质量,人工智能模型需要的准确性越高,训练该模型所需的计算力就越高。IDC预计,全球人工智能硬件市场(服务器)规模https://mp.weixin.qq.com/s?__biz=MzA5NjU3MjMwOQ==&mid=2651432545&idx=1&sn=52789c43d448286681bbb609f52c1452&chksm=8a96f3e4aa69036de3777e5f488e3ce8eb2b740b422e32844dd2fa840fc215fb106560504902&scene=27
4.中国工程院院士陈鲸:大数据算法算力是人工智能三大核心要素上证报中国证券网讯(何昕怡 记者 邱德坤)在11月22日下午举办的2023“‘一带一路’国际商协会大会”人工智能产业发展论坛上,中国工程院院士陈鲸表示,大数据、算法、算力是人工智能的三大核心要素,三者的深度解析是未来人工智能技术发展与应用的精髓。 首先,大数据是人工智能发展的基础保障,没有大数据的支持,人工智能就https://company.cnstock.com/company/scp_gsxw/202311/5154630.htm
5.浅谈人工智能领域:大数据算法算力三者之间的关系1956年,美国最后打个比喻来形容大数据、算法、算力三者之间的关系。现阶段的人工智能技术如同新生的婴儿,算力就是最开始的必需营养品:奶粉,而大数据就是除奶粉外一切必须的营养物,算力和大数据不断催生人工智能向前源源不断的发展!https://caifuhao.eastmoney.com/news/20231028185146488914230
6.人工智能AI算力+边缘算力+大模型(垂直模型)算力+算法+数据,山洋深圳市山洋时代科技有限公司,位于中国Zui科技时尚的美丽海滨城市深圳;公司创建于2013年,专注于人工智能算力、云计算、边缘计算平台的智能感知物联网应用解决方案;通过人工智能AI算力、大模型(垂直模型)、边缘算法、5G移动互联网、物联网和大数据等技术,让算能、算法、数据融合起来,并通过一套完善的“互联网+端-边-云https://product.11467.com/info/29206391.htm
7.什么是人工智能?人工智能在近期的飞速发展,主要得益于数据的快速积累、计算能力的不断提升以及算法的改进优化。因此,人们把数据、算力和算法称为人工智能三要素。 1.? 人工智能与大数据 什么是大数据?一般地说,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新的处理模式才能具有更强的决策力https://www.51cto.com/article/635714.html
8.揭秘大模型背后的神秘力量:算力数据与算法的“黄金三角在人工智能的浩瀚星空中,大模型犹如一颗璀璨的新星,引领着技术的前沿。但你是否好奇,是什么让这颗新星如此耀眼?今天,就让我们一起揭开大模型背后的神秘面纱,探索那支撑其辉煌成就的“黄金三角”——算力、数据与高性能算法。 一、算力:大模型的超级引擎 https://cloud.tencent.com/developer/article/2453952
9.数据算法和算力:人工智能时代的三要素工业互联网观察算法对于人工智能,就是厨师(烹饪的方法)与美味菜肴的关系。算法是实现人工智能的根本途径,是挖掘数据智能的有效方法。 算力 算力也就是计算能力,算力对于人工智能,如同厨房的煤气/电力/柴火对于美味佳肴一样。有了大数据和算法之后,需要进行训练,不断地训练,算力为人工智能提供了基本的计算能力的支撑,本质是一种基础设https://www.shangyexinzhi.com/article/10565456.html
10.改革发展新质生产力需要深刻领会和把握六个问题笔者认为,大数据、算力和算法三要素的结合是决定新质生产力的关键,这些年来,我国政府对数据、算力和算法的发展给与高度重视,不断强化战略规划和政策优化,为它们的发展提供制度保障。各行各业也积极应用这三大要素推动中国传统产业朝着更加数字化、智能化的未来发展。一方面,数据的积累和应用为新质生产力的发展提供物质https://kjj.hebi.gov.cn/kjdt/art/2024/art_2b2e50c1e343456a9274058d0c908b17.html
11.数字经济核心要素:数据算法和算力信息技术第三部分:算法——数字经济的引擎 第四部分:算力——数字经济的基石 结语:数字经济的未来展望 第一部分:数字经济概述 1.1 数字经济的定义和内涵 数字经济是以数字化的知识和信息为关键生产要素,以现代信息网络为重要载体,以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动。它涵盖数字产https://www.zgcsswdx.cn/info/10274.html
12.原创如何释放大模型对金融行业的价值?新闻频道大模型=大算力+大数据+强算法 今年以来ChatGPT风头强劲,带火了大模型技术。大模型即网络参数规模达到亿级以上的“预训练深度学习算法”,在文本图像理解、内容生成等任务表现出显著优势和巨大潜力。 “大模型必须基于‘大算力+大数据+大算法参数网络结构’进行训练。”吕仲涛介绍,大模型技术是一个复杂的体系性工程,涵盖https://news.hexun.com/2023-06-14/208961897.html
13.人工智能三大核心:算力算法和数据人工智能三大核心:算力算法和1、算力是芯片的计算能力,这是人工智能的关键能力;人工智能的发展速度取决于芯片的开发速度,今天英伟达的堆叠式GPU的计算能力达到每秒万亿次的浮点算力,直接带来今天ChatGPT和Sora等人工智能的爆发。 2、算法是人工智能的解决方案和指令,解决方案是价值观,例如我们拒绝谷歌和meta,chatgpt和Sora也不让我们用,这就是价值https://xueqiu.com/2340613631/279661174
14.算力+算法+算元描绘数字化改革转型之路南方电网广西电网公司依托“算力+算法+算元”,守牢网络安全底线,积极挖掘数据要素价值,稳步推进数字化转型和数字电网建设。 南方电网广西电网公司积极推出“科技强安”,研发投运了21套人工智能应用,进一步提升网络及信息系统安全运行稳定性。 【广告】 近期,在鲲鹏应用创新大赛2022全国总决赛中,南方电网广西电网公司“基于https://m.yunnan.cn/system/2022/11/23/032363036.shtml
15.电子标准院李冰:算力数据和算法是新一代人工智能发展的“三驾原标题:电子标准院李冰:算力、数据和算法是新一代人工智能发展的“三驾马车” 来源:通信世界全媒体 通信世界网消息(CWW)11月8日,在2020年天翼智能生态博览会期间,由中国电信集团有限公司主办、中国电信股份有限公司研究院承办的“中国电信终端技术与标准分论坛”于广州香格里拉大酒店举办。中国电子技术标准化研究院人工https://finance.sina.cn/tech/2020-11-08/detail-iiznctke0217123.d.html