不久前,斯坦福大学Human-CenterArtificialIntelligence(HAI)研究中心重磅发布了《2024年人工智能指数报告》。作为斯坦福HAI的第七部力作,这份报告长达502页,全面追踪了2023年全球人工智能的发展趋势。相比往年,扩大了研究范围,涵盖了AI技术、公众对AI技术的看法以及围绕其发展的政治动态等基本趋势,并对未来的AI发展趋势进行了预测。
在这份报告中,最引人注目的莫过于新增篇章——探讨人工智能在科学和医学领域的深远影响。报告中展示了2023年AI在科学领域的辉煌成就,以及AI在医疗领域取得的重要创新成果,包括SynthSR和ImmunoSEIRA等突破性技术。此外,报告还细致分析了FDA对AI医疗设备审批的趋势,为行业提供了宝贵的参考。
AI:科研加速引擎
《2024年人工智能指数报告》指出,2023年,产业界产生了51个著名的机器学习模型,而学术界只贡献了15个。此外,108个新发布的基础模型来自产业界,28个来自学术界。
如今,AI已经在材料科学、气候变化、计算机科学等领域多点开花。幸运的是,在这一轮变革中,中国正处于领先地位。根据中国科学技术信息研究所、科技部新一代人工智能发展研究中心编写的《中国AIforScience创新地图研究报告》,我国在AI驱动科学研究方面的论文发表数量位居榜首,国产化AI科研基础软件也日益成熟,为科研人员提供了丰富的数据集、基础模型及专用化工具。
总的来说,AI在科学领域的应用是多元化的,正在以一种前所未有的速度,推动科学的发展和进步。但需要注意的是,在AIforScience当前的发展阶段中,综合型人才短缺、技术方案难复用、垂类学科研究数据质量欠佳等问题也逐渐暴露出来。
例如,在围绕「AI人才搞科研还是科研人才学AI」的讨论中,拥有交叉学科知识背景的研究人员脱颖而出,不仅对所在科研领域有着深刻洞察,更加能够快速上手各类AI工具与技术,但其稀缺程度可想而知,而综合型人才的培养亦非朝夕而成。所以,如何快速搭建起AI与科研之间的沟通桥梁是关乎AIforScience规模化推广的重要议题。
同时,科研所覆盖领域之丰富无需赘述,不同课题组的研究方向稍有差异便可能对AI工具的需求不同,在难以实现每个团队都拥有交叉学科背景的研究人员时,降低AI工具的使用门槛,简化模型微调过程,或许也能够在一定程度上加速AI在科研领域的推广。
加速更新,技术的自我迭代与进步
AI技术进步推动其应用的广度和深度提升,同时也对算法提出越来越高的要求。目前,大多数算法已经达到了难以依靠人类专家来进一步优化的阶段,导致了计算瓶颈的不断加剧。然而,科学家针对算法领域的开拓从未止步。
AlphaDev
重现AlphaGo的神来之笔
排序算法是计算机系统对数据项进行有序排列的基础性工具。为了在这一领域实现创新突破,谷歌DeepMind采取了一种创新的方法,探索了人类研究相对较少的计算机汇编指令领域。通过AlphaDev系统,DeepMind能够直接从CPU汇编指令层面出发,寻找更高效的排序算法。
AlphaDev系统由两个核心组成部分构成:学习算法和表示函数。
学习算法是在先进的AlphaZero算法基础上进行扩展,结合了深度强化学习(DRL)和随机搜索优化算法,以执行大规模的指令搜索任务;而表示函数则基于Transformer架构,能够捕捉汇编语言的底层结构,并将其转换成特殊的序列表示。
AlphaDev的应用范围不仅限于排序算法。DeepMind通过将其方法泛化,还将其应用于9到16字节范围内的哈希算法,并实现了速度提升30%的显著成果。这表明AlphaDev在优化底层计算任务方面具有广泛的潜力和应用价值。
论文链接:
FlexiCubes
用AI生成高质量3D模型
从场景重构到生成式AI赛道,新一代的AI模型在生成逼真而详细的3D模型方面取得了显著的成功。由于这些模型通常被创建为标准的三角网格,网格的质量也就显得至关重要。为此,Nvidia的研究人员开发了一种全新的网格生成方法FlexiCubes,显著提高了3D网络生成管道中的网格质量,并且可以与物理引擎集成,轻松创建3D模型中的灵活物体。
FlexiCubes的关键思想是引入「灵活」参数,允许在生成网格的过程中进行精确调整。通过在优化过程中更新这些参数,网格的质量得到了极大的增强。这种方法使FlexiCubes与传统基于网格的管道(如广泛使用的MarchingCubes算法)形成鲜明对比,使其可以无缝地取代优化为基础的人工智能流水线。
FlexiCubes生成的高质量网格在表示复杂细节方面表现出色,增强了人工智能生成的3D模型的整体逼真度和保真度。这些网格尤其适用于物理模拟,在摄影测量和生成式AI等场中,使得AI管道准确呈现复杂形状中的细节成为可能。
加速创造,超越人力的效能提升
在化学实验室的深处,一场革命正在悄然进行——有机化合物的合成不再是缓慢而繁琐的过程,而是通过自动化的魔法,加速转化为现实。这一变革的核心,是三星电子的科学家们所创造自主合成机器人Synbot。
具体来看,Synbot由三层结构组成:
*人工智能软件层(AIS/Wlayer):引领综合规划过程,配备逆合成模块、实验设计和优化模块,并使用决策模块引导实验方向;
*机器人软件层(RobotS/Wlayer):负责通过配方生成模块和翻译模块,将其转换为机器人的可操作命令;
GNoME
重塑材料发现过程
谷歌DeepMind在Nature刊文称,基于材料探索的AI工具GNoME(GraphNetworksforMaterialsExploration)发现了220万种新晶体预测(相当于人类科学家近800年的知识积累),其中有38万个稳定的晶体结构,有望通过实验合成,部分材料或许会引发技术变革,如下一代电池、超导体等。
GNoME是一种先进的图神经网络(GNN)模型,输入数据主要采用图表的形式,形成类似原子之间的连接,这也让GNoME更容易发现新的晶体材料。据介绍,GNoME能够预测新型稳定晶体的结构,然后通过DFT(密度泛函理论)进行测试,并将所得的高质量训练数据反馈到模型训练中。
现阶段,新模型将预测材料稳定性的准确率从50%左右提高到80%,新材料的发现率从10%以下提高到80%以上。(点击查看完整报道:领先人类800年?DeepMind发布GNoME,利用深度学习预测220万种新晶体)
加速改变,从容应对生态环境「灰犀牛」
GraphCast
生成最准确的全球天气预报
谷歌DeepMind发布的GraphCast,是一种基于机器学习和图神经网络(GNN)的天气预报系统,采用「编码-处理-解码」配置,共有3,670万个参数,能够以0.25度经度/纬度(赤道处28公里x28公里)的高分辨率进行预测,范围覆盖了整个地球表面。在每个网格点,该模型预测5个地球表面变量(包括温度、风速、风向、平均海平面压力等),以及37个不同海拔高度上的6个大气变量,包括比湿、风速、风向和温度。
在综合基础测试中,对比HRES(HighResolutionForecast)GraphCast对1,380个测试变量中的近90%提供了更准确的预测。根据对比分析,GraphCast还可以比传统预测模型更早地识别恶劣天气事件。(点击查看完整报道:雹暴中心收集数据、大模型加持极端天气预测,「追风者也」正在上演)
FloodForecasting
人工智能改变洪水预报
2018年,谷歌启动了GoogleFloodForecastingInitiative,利用AI和强大算力打造更好的洪水预测模型,并与多国政府部门展开合作。2023年,谷歌的研究团队开发了一个基于机器学习的河流预报模型,该模型能够提前5天实现对洪水的可靠预测,在对5年一遇的洪水事件进行预测时,性能优于或相当于目前预测1年一遇的洪水事件,系统可覆盖80多个国家。
研究结果表明,该模型在性能上超越了当前全球领先的建模系统——哥白尼应急管理服务全球洪水感知系统(GloFAS)。这一发现证实了所提出模型在河流预测领域的潜力和可靠性,为洪水预警和水资源管理提供了一种新的技术手段。(点击查看完整报道:击败全球No.1系统、覆盖80+国家,谷歌洪水预测模型再登Nature)
AI:引领医学新纪元
《2024年人工智能指数报告》表明,AI技术在医疗影像、医疗问答、医学诊断、等多领域取得成效。事实上,AI在医疗健康领域的应用是早已为人们所熟知。通过机器学习算法,AI能够分析大量的医疗数据,帮助医生更准确地诊断疾病。例如,在癌症检测中,AI可以识别出医学影像中的微小异常,从而提高早期诊断的成功率。
此外,AI也在药物研发中发挥着重要作用。一方面,AI深化了对药物靶点和化合物合成的理解,优化药物发现的步骤,大大提升了新药面世的成功机会。另一方面,AI技术被用于缩短新药研发周期、节省成本,并显著提升药物研发效率和企业竞争力。
尽管AI技术在实际医疗中的应用带来了许多机遇,但也面临着一系列亟待解决的挑战,例如AI伦理问题、数据隐私保护、技术瓶颈、监管和问责制、跨学科合作、临床适用性等方面的困境。尤其是,AI模型的「黑箱」特性使得其决策过程难以解释,这对于需要高度透明度和可追溯性的医疗诊断来说是一个重大挑战。缺乏可解释性可能会影响医生对AI辅助诊断结果的信任度。
医学影像:提供更全面、更深入的解决方案
AI技术在医学影像领域的应用正变得越来越多样化和深入,从辅助诊断到改善工作流程,再到推动个性化医疗,AI正成为医学影像不可或缺的工具。
SynthSR
转换高分辨率图像并修复病灶
SynthSR由麻省理工学院计算机与人工智能实验室开发,通过训练一个超分辨率卷积神经网络(CNN),利用了开放存取系列影像研究数据集中,1毫米各向同性高场强MRI扫描数据集,以及对大脑内39个感兴趣区域(ROI)的精确分割。该技术主要针对低场强(0.064-T)的T1和T2加权脑MRI序列,同时采用磁化制备的快速梯度回波(MPRAGE)采集技术,旨在生成具有1毫米各向同性空间分辨率的高质量图像。
SynthSR的先进之处在于,其能够将临床上不同方向、不同分辨率和不同对比度的MRI扫描数据,转换为1mm各向同性的MPRAGE图像,并在此过程中对病灶进行修复。
转换后的合成MPRAGE图像能够直接应用于现有的脑部MRI3D图像分析工具,如图像配准或分割,无需进行额外的训练。此外,通过对比合成图像与实际高场强图像的大脑形态测量数据,研究进一步验证了LF-SynthSR在定量神经放射学领域的应用潜力。
CTPanda
早期胰腺癌筛查
针对胰腺癌变位置隐匿、在平扫CT图像中无明显表征等特点,阿里达摩院联合全球十多家医疗机构的研究团队将AI用于无症状人群的胰腺癌筛查研究,构建了一个独特的深度学习框架,最终训练出胰腺癌早期检测模型PANDA。
PANDA模型是一种先进的医学图像分析工具,综合运用了多种深度学习技术来提高胰腺病变的检测效率和准确性。该模型首先利用一个分割网络(U-Net)精确定位胰腺区域,然后通过一个多任务卷积神经网络(CNN)来识别图像中的异常情况。最后,采用双通道Transformer模型对检测到的异常进行分类,并识别出具体的胰腺病变类型。
该技术的核心优势在于,能够借助AI算法放大并识别平扫CT图像中那些难以用肉眼辨识的微小病变特征。这不仅实现了对早期胰腺癌的高效和安全检测,而且有效解决了以往筛查方法中假阳性率较高的问题。
在验证试验中,PANDA的灵敏度(sensitivity)比普通放射科医生高34.1%,特异性(specificity)比普通放射科医生高6.3%。在一项涉及约2万名患者的大规模真实测试中,PANDA的灵敏度为92.9%,特异性为99.9%。(点击查看完整报道:在2万病例中识别出31例漏诊,阿里达摩院牵头发布「平扫CT+大模型」筛查胰腺癌)
医疗诊断:制定个性化、精准的诊断和治疗方案
从提高诊断效率和准确性到提供个性化治疗方案,AI技术在医疗诊断领域的潜力巨大,有助于改善医疗服务质量和患者体验。
CoupledPlasmonicInfraredSensors
赋能神经退行性疾病诊断
在神经退行性疾病的诊断领域,由于缺乏检测临床前期生物标志物的有效工具,使得帕金森综合征、阿尔茨海默症等疾病的早期诊断面临重大挑战。虽然传统的检测方法如质谱法和酶联免疫吸附试验(ELISA),在一定程度上有所帮助,但它们在识别生物标志物结构状态变化方面存在局限。
针对这一难题,瑞士洛桑联邦理工学院的研究团队开发了一种创新的诊断方法,结合神经网络技术、表面增强红外吸收(SEIRA)光谱的等离子体红外传感器,以及免疫测定技术(ImmunoSEIRA),实现了对神经退行性疾病阶段和进展的量化分析。
ImmunoSEIRA传感器采用了金纳米棒阵列,该阵列表面修饰有针对特定蛋白质的抗体,能够从极小量的样本中实时捕获目标生物标志物,并对其进行结构分析。随后,利用神经网络对错误折叠的蛋白质、低聚物和原纤维聚集体进行识别,从而实现了前所未有的高准确性检测水平。这一方法的提出,为神经退行性疾病的早期诊断和精确评估提供了一种新的技术手段。
CoDoC
AI与医生诊断之间的逻辑整合
谷歌DeepMind开发了一款名为CoDoC的医疗辅助人工智能系统,旨在对医学图像进行深入的解释和分析,通过学习,该系统能够决定何时依赖自身的判断,何时采纳医生的意见。
具体来说,DeepMind团队探究了临床医生使用AI工具辅助解读医学图像的各种应用场景。对于任何临床环境的理论案例,CoDoC系统只需要训练数据集中每个病例的三个输入:
*首先,预测AI输出的置信度分数,该分数介于0(确定无疾病)到1(确定有疾病)之间;
*最后,疾病的客观存在性。
值得注意的是,CoDoC系统无需直接访问医学图像本身。
此外,DeepMind利用多个真实世界的去识别化历史数据集对CoDoC系统进行了全面的测试。测试结果表明,将人类的医学专业知识与AI模型的预测相结合,能够提供最为精确的诊断方案,其准确性超越了单独使用任一方法所能达到的水平。这一发现强调了AI与人类专家协同工作的重要性,为提高医学成像诊断的准确性和可靠性提供了新的视角。
医疗问答:提高诊断准确性、优化治疗方案、提升患者服务体验
GPT-4Medprompt
准确率超过90%
微软研究团队开发的GPT-4Medprompt,在MedQA数据集(美国医师执照考试题)上,让GPT-4的准确率首次超过90%,超越BioGPT和Med-PaLM等一众微调方法。研究人员还表示,Medprompt方法是通用的,不仅适用于医学,还可以推广到电气工程、机器学习、法律等专业中。
Medprompt是多种提示策略的组合体,其包含了:
*动态少样本选择:研究人员先利用text-embedding-ada-002模型为每个训练样本和测试样本生成向量表示。然后,对于每个测试样本,基于向量相似度,从训练样本中挑选出最相似的k个样本。
*选项洗牌集成:GPT-4在做选择题时,可能会存在一种偏见,就是不管选项内容是什么,它会偏向总是选择A,或者总是选择B,这就是位置偏差。为了减少这个问题,研究人员选择将原来的选项顺序打乱重排,然后让GPT-4做多轮预测,每轮使用选项的一个不同排列顺序。
研究表明,Medprompt在PubMedQA、MedMCQA和MMLU等多个知名医疗基准测试的多选题部分,分别比2022年排名第一的Flan-PaLM540B高出3.0、21.5和16.2个百分点。它的性能也超过了当时最先进的Med-PaLM2。
MediTron-70B
最佳医疗开源大型语言模型
由于GPT-4Medprompt是一个封闭源代码系统,限制了其在更广泛公众中的免费使用。为了解决这一问题,瑞士洛桑联邦理工学院的研究人员基于此系统开发出了MediTron-70B,旨在提供一个开源的、面向医疗领域的高性能大型语言模型。
MediTron系列包括MediTron-7B和MediTron-70B两种模型。其中,MediTron-70B的性能已经超越了包括GPT-3.5和Med-PaLM,并且接近于GPT-4和Med-PaLM-2的水平。
为了推动开源医疗LLMs的发展,开发团队已经公开了其使用的医疗预训练语料库以及MediTron模型的权重代码。MediTron-70B在MedQA上的得分是开源模型中最高的,这一成就标志着开源医疗LLMs领域的一个重要进展。
目前,针对医疗保健领域的文本生成任务所使用的电子健康记录(EHR)问答数据集,尚未能充分捕捉到临床医生在信息需求分析和文档处理方面所面临的复杂性。
为了填补这一空白,一个由15名不同专业领域的临床医生组成的团队,推出了MedAlign——一个基于EHR数据的基准数据集。该数据集囊括了983个真实世界的临床问题及其说明,以及303名临床医生提供的答案,通过分析276份纵向EHR数据,构建了指令-响应对。
这一工作不仅解决了复杂临床任务中LLM实用性的评估基准缺失,而且通过提供一个真实且全面的指令响应数据集,推动了医疗保健领域自然语言生成的研究进展。
在MedAlign数据集上,研究人员对6个来自不同通用领域的大型语言模型进行了测试,并通过临床医生评估了每个大模型生成的响应的准确性和质量。
结果显示,经过多步优化的GPT-4模型变种在正确率上达到了65.0%,总体上比其他LLM更受青睐。MedAlign作为首个广泛覆盖EHR应用的基准数据集,标志着利用人工智能技术减轻医疗保健行政负担的重要进展。
医学研究:用AI筑起人类健康的最坚实防线
随着技术的不断进步,AI技术在医学研究领域的应用更加广泛和深入。如今,科学家们正在借助AI的力量,深度挖掘人类基因的密码,用AI帮助我们建立起一道坚实的医学防线。
AlphaMissence
有效识别基因致病性错义突变
*第一阶段类似于AlphaFold的训练,重点在于增强蛋白质语言模型的权重;
*第二阶段则专注于微调模型,以便更精确地匹配致病性,根据突变在人群中的频率为其分配良性或致病性的标签。
AlphaMissense对错义变异的诊断
研究结果显示,AlphaMissense成功预测了人类蛋白质编码基因中的7,100万个错义突变。错义突变是一种遗传性变异,能够影响蛋白质的功能,进而可能导致包括癌症在内的多种疾病。在这些潜在的错义变异中,AlphaMissense能够对89%的变异进行分类,其中大约57%被判定为可能的良性变异(Likelybenign),32%被判定为可能的致病性变异(Likelypathogenic),而剩余的变异则被归类为不确定性质(Uncertain)。
这一分类能力远远超过了人类注释者,后者仅能确认所有错义突变中的0.1%。AlphaMissense的高效率和准确性,为遗传性疾病的研究和临床诊断提供了强有力的工具。
哈佛医学院与牛津大学的研究团队联合开发了一个创新的通用模块化框架EVEscape,能够在不依赖于大流行期间的测序数据或抗体结构信息的情况下,预测病毒的逃逸潜力。
EVEscape在预测SARS-CoV-2大流行变异方面的准确性与高通量深度突变扫描(DMS)技术相当,并且其应用范围不仅限于SARS-CoV-2,还可以扩展至其他病毒类型。这一早期预警系统为公共卫生决策和准备工作提供了指导,有助于最大限度地减少大流行对人类健康和社会经济的负面影响。
EVEscape框架由两个主要部分组成:
*一部分是用于生成演化序列的模型,该模型能够洞察可能发生的病毒突变,与EVE(EvolutionaryVirusEscape)项目中使用的模型相似;
*另一部分则是包含了病毒详细生物学和结构信息的数据库。通过整合这两个组件,EVEscape能够预测病毒变种在实际出现之前的特征。
在21世纪初期,人类基因组计划(HumanGenomeProject)成功发布了人类参考基因组的初步草图,这标志着人类在解读自身生命蓝图方面取得了突破性进展。然而,由于当时测序技术的限制,该草图存在若干未填充的空白区域。
2023年,由美国华盛顿大学医学院和加利福尼亚大学牵头,一个由60个机构的119位科学家组成的国际联盟,运用人工智能技术,开发出了首个更新且更具代表性的人类泛基因组草图。
该草图对来自全球不同祖先背景的47名个体的94个基因组样本,采用了先进的「长读长测序」技术进行深入分析。随后,通过定制的算法将测得的DNA长片段组装成更为完整的基因组序列。研究结果表明,该草图在预期序列的覆盖率上达到了99%,同时在结构和碱基对的准确性上也超过了99%。
与基于GRCh38的旧工作流程相比,利用新草图分析短读长数据时,小遗传变异的发现误差降低了34%,而在检测单倍型结构变异的检出率上则提高了104%,新增了1.19亿个碱基对。此外,新草图还揭示了两个重要的调控基因表达的新成分:HIRA和SATB2。这些发现对于深入理解人类基因组的结构和功能具有重要意义。
人工智能正以其惊人的潜力,成为推动科学进展和医学领域进步的核心驱动力。在2024年,AI的快速发展正在为科研和医学带来革命性的变化,其速度和影响力远超以往任何时期。AI不仅加速了知识的积累和创新的周期,而且正在重新定义我们对复杂问题的理解和解决方式。
在科研领域,AI的算法和模型正帮助科学家们处理和分析庞大的数据集,揭示隐藏在数据背后的深刻见解。它们在模拟和预测复杂系统的行为方面展现出了巨大的优势,从而在物理学、化学、生物学等多个基础科学领域取得了突破性的发现。
在医学领域,AI辅助的诊断工具正变得更加精准,能够及早发现疾病迹象,为患者提供更及时的治疗。同时,AI在个性化医疗中的应用,通过分析个体的遗传信息和生物标志物,能够为患者定制更为精准的治疗方案,极大地提高了治疗效果和患者生活质量。
此外,AI在药物研发中的作用同样不容小觑。它通过预测分子的活性和药物的副作用,大大缩短了新药从实验室到市场的周期,降低了研发成本,加速了新药的上市进程。
可以说,AI的每一步进步,都像是在人类智慧的长河中投下的一颗石子,激起层层涟漪,推动着科研和医学的边界不断向前延伸,善于利用工具的人类,终将借着这一次次激荡的力量,走向更加智能、健康的新纪元。