2024年,人工智能领域正以前所未有的速度发展,从生成式AI的持续突破到多模态模型的广泛应用,再到大模型压缩、算力优化的技术革新,AI正在深刻改变各个行业的格局。
在这一年,我们见证了许多具有里程碑意义的研究,它们不仅推动了AI技术的边界,还为现实世界问题提供了革命性的解决方案。
《Mamba:Linear-TimeSequenceModelingwithSelectiveStateSpaces》,作者为卡内基梅隆大学的AlbertGu和普林斯顿大学的TriDao
《Genie:GenerativeInteractiveEnvironments》,出自谷歌DeepMind
《ScalingRectifiedFlowTransformersforHigh-ResolutionImageSynthesis》,出自StabilityAI
《AccurateStructurePredictionofBiomolecularInteractionswithAlphaFold3》,出自谷歌谷歌DeepMind
《Phi-3TechnicalReport:AHighlyCapableLanguageModelLocallyonYourPhone》,出自微软
《Gemini1.5:UnlockingMultimodalUnderstandingAcrossMillionsofTokensofContext》,由谷歌的Gemini团队打造
《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,作者为Anthropic
《TheLlama3HerdofModels》,出自Meta
《SAM2:SegmentAnythinginImagesandVideos》,出自Meta
《MovieGen:ACastofMediaFoundationModels》,出自Meta
01
2024年顶尖人工智能研究论文
Mamba:Linear-TimeSequenceModelingwithSelectiveStateSpaces
Mamba,这是一种开创性的用于序列建模的神经架构,旨在解决Transformer在计算效率方面的不足,同时匹配或超越其建模能力。
【关键贡献】
简化架构:Mamba通过将先前的状态空间模型设计与受Transformer启发的多层感知机(MLP)模块整合到一个统一、同质的架构中,简化了深度序列建模。这种精简的设计无需注意力机制和传统的MLP模块,同时利用选择性状态空间,在不同的数据模态上实现了效率和稳健性能的兼顾。
【研究结果】
合成任务方面:Mamba在诸如选择性复制和归纳头(inductionheads)等合成任务中表现卓越,展现出对大型语言模型至关重要的能力。它能够实现无限外推,成功解决长度超过100万个标记的序列问题。
音频和基因组学方面:在音频波形建模和DNA序列分析中,Mamba优于诸如SaShiMi、Hyena以及Transformer等最先进的模型。它在预训练质量和下游指标方面都有显著提升,在具有挑战性的语音生成任务中,弗雷歇初始距离(FID)降低了50%以上。其性能随着更长的上下文有效扩展,可支持长达100万个标记的序列。
02
Genie:GenerativeInteractiveEnvironments
由谷歌DeepMind开发的Genie是一款开创性的生成式人工智能模型,旨在从无标注的视频数据中创建交互式、动作可控的环境。Genie基于超过20万小时公开的互联网游戏视频进行训练,使用户能够以文本、草图或图像作为提示来生成沉浸式、可玩的世界。其架构集成了时空视频标记器、自回归动态模型以及潜在动作模型,无需明确的动作标签即可逐帧预测动态。Genie代表了一个具有110亿参数的基础世界模型,标志着生成式人工智能在开放式、可控虚拟环境方面取得了重大进展。
潜在动作空间:Genie引入了一种完全无监督的潜在动作机制,能够在无需真实动作标签的情况下生成帧可控的环境,拓展了智能体训练和模仿的可能性。
跨模态泛化:该模型支持多种输入,如现实世界的照片、草图或合成图像,以此创建交互式环境,展现出对分布外提示的鲁棒性。
交互式世界创建:Genie能根据未见过的提示生成多样、高质量的环境,包括创建类似游戏的行为以及理解物理动态。
稳健性能:与最先进的模型相比,它在视频保真度和可控性指标方面展现出卓越性能,在包括机器人技术在内的不同领域中都能实现一致的潜在动作。
智能体训练潜力:Genie的潜在动作空间能够从未见过的视频中进行模仿,在无需标注动作数据的情况下,在强化学习任务中实现高性能,为训练通用智能体铺平了道路。
03
ScalingRectifiedFlowTransformersforHigh-ResolutionImageSynthesis
StabilityAI的这篇论文介绍了修正流模型和基于Transformer架构方面的进展,旨在改进高分辨率的文本到图像合成。所提出的方法将新颖的修正流训练技术与多模态Transformer架构相结合,在文本到图像生成质量方面优于现有的最先进模型。该研究强调可扩展性和效率,训练了参数多达80亿的模型,这些模型在视觉保真度和遵循提示方面展现出了最先进的性能。
新颖的多模态Transformer架构:设计了一种可扩展的架构,该架构使用独立权重分别处理文本和图像标记,实现双向信息流,以改进文本到图像的对齐和对提示的理解。
最先进的性能:参数达80亿的最大模型在诸如GenEval和T2I-CompBench等基准测试中,在视觉质量、提示遵循以及印刷体文字生成等类别上,优于开源和专有文本到图像模型(包括DALLE-3)。
改进的采样效率:表明更大的模型只需更少的采样步骤就能实现高质量输出,从而显著节省计算资源。
高分辨率图像合成:在分辨率高达1024×1024像素的情况下实现了稳健性能,在美学和构图指标方面的人工评估中表现出色。
04
AccurateStructurePredictionofBiomolecularInteractionswithAlphaFold3
由谷歌DeepMind开发的AlphaFold3(AF3)通过引入一个统一的深度学习框架,显著扩展了其前身的能力,可对包括蛋白质、核酸、小分子、离子以及修饰残基在内的多种生物分子复合物进行高精度结构预测。借助一种新颖的基于扩散的架构,AF3超越了专门的工具,在蛋白质-配体、蛋白质-核酸以及抗体-抗原相互作用预测方面达到了最先进的精度。这使得AF3成为推动分子生物学和治疗设计发展的一种通用且强大的工具。
用于多种相互作用的统一模型:AF3可预测涉及蛋白质、核酸、配体、离子以及修饰残基的复合物结构。
基于扩散的架构:在AF3中,AlphaFold2的进化结构模块(evoformermodule)被更简单的配对结构模块(pairformermodule)取代,大大降低了对多序列比对(MSAs)的依赖。AF3使用基于扩散的方法直接预测原始原子坐标,提高了对复杂分子图的可扩展性和处理能力。
生成式训练框架:新方法采用多尺度扩散过程来学习不同层次的结构,从局部立体化学到全局构象。它通过与AlphaFold-Multimer预测进行交叉蒸馏,减轻了无序区域的幻觉(hallucination)问题。
提高计算效率:作者提出了一种降低立体化学复杂性并消除对键合模式特殊处理的方法,能够高效地预测任意化学成分。
AF3在蛋白质-配体复合物(PoseBusters数据集)上展现出了更高的精度,优于传统的对接工具。
在蛋白质-核酸和RNA结构预测方面,它比RoseTTAFold2NA以及其他最先进的模型精度更高。
该模型在预测抗体-蛋白质界面方面有了实质性的改进,相较于AlphaFold-Multimerv2.3有显著提升。
05
Phi-3TechnicalReport:AHighlyCapableLanguageModelLocallyonYourPhone
微软的研究团队推出了Phi-3,这是一项开创性的进展:它是一款足够紧凑的强大语言模型,能够在现代智能手机上原生运行,同时保持与诸如GPT-3.5等更大模型相当的能力。这一突破是通过优化训练数据集而非扩大模型规模来实现的,从而产生了一个在性能和实际部署可行性之间取得平衡的高效模型。
紧凑且高效的架构:Phi-3-mini是一个具有38亿参数的模型,基于3.3万亿个标记进行训练,能够在iPhone14等设备上完全离线运行,每秒可生成超过12个标记。
创新的训练方法:专注于“数据最优状态”,团队精心挑选高质量的网络数据和合成数据,以增强推理和语言理解能力。由于该模型注重数据质量而非数量进行筛选,在逻辑推理和小众技能方面有了显著提升,偏离了传统的缩放定律。
长上下文:所提出的方法采用了长绳(LongRope)方法将上下文长度扩展至128,000个标记,在诸如RULER和RepoQA等长上下文基准测试中取得了良好的结果。
基准测试性能:Phi-3-mini在多任务语言理解(MMLU)基准测试中达到69%的准确率,在多语言技术基准(MT-Bench)中达到8.38的分数,可与GPT-3.5相媲美,但其规模却小了一个数量级。Phi-3-small(70亿参数)和Phi-3-medium(140亿参数)在MMLU基准测试中分别取得75%和78%的分数,优于其他开源模型。
实际应用可行性:Phi-3-mini能够在移动设备上直接成功运行高质量的语言处理任务,为设备端人工智能的普及铺平了道路。
跨模型的可扩展性:更大的变体(Phi-3.5-MoE和Phi-3.5-Vision)将能力扩展到多模态和基于专家的应用中,在语言推理、多模态输入以及视觉理解任务中表现出色。这些模型具备显著的多语言能力,尤其在阿拉伯语、汉语和俄语等语言方面表现突出。
06
Gemini1.5:UnlockingMultimodalUnderstandingAcrossMillionsofTokensofContext
在本文中,谷歌的Gemini团队介绍了Gemini1.5,这是一系列多模态语言模型,极大地拓展了长上下文理解和多模态推理的边界。Gemini1.5Pro和Gemini1.5Flash这两款模型在处理多模态数据方面取得了前所未有的性能,能够对多达1000万个标记(涵盖文本、视频和音频)进行回忆和推理。基于Gemini1.0系列,Gemini1.5融入了稀疏和密集缩放、训练效率以及服务基础设施方面的创新,在能力上实现了代际飞跃。
长上下文理解:Gemini1.5模型支持长达1000万个标记的上下文窗口,能够处理整篇长文档、数小时的视频以及数天的音频,且召回率近乎完美(检索率>99%)。
多模态能力:这些模型原生集成了文本、视觉和音频输入,允许针对混合模态输入进行无缝推理,适用于视频问答、音频转录以及文档分析等任务。
高效架构:Gemini1.5Pro采用了稀疏混合专家(MoE)Transformer架构,在减少训练计算量和服务延迟的同时实现了卓越性能。Gemini1.5Flash针对效率和延迟进行了优化,在紧凑且服务速度更快的配置下提供高性能。
创新应用:这些模型在一些新颖任务中表现出色,例如只需极少的上下文数据就能学习新语言并进行翻译,甚至包括像卡兰芒语(Kalamang)这样的濒危语言。
基准测试性能:Gemini1.5模型在推理、多语言能力以及多模态基准测试方面超越了Gemini1.0以及其他竞争对手。在现实世界和合成评估中,它们的得分始终优于GPT-4Turbo和Claude3,在多达1000万个标记的“大海捞针”任务中能实现近乎完美的检索。
可扩展性和泛化能力:这些模型在不同规模下都能保持性能,Gemini1.5Pro在资源丰富的环境中表现出色,而Gemini1.5Flash在低延迟、资源受限的环境中也能取得良好结果。
07
TheClaude3ModelFamily:Opus,Sonnet,Haiku
Anthropic推出了Claude3,这是一个开创性的多模态模型系列,拓展了语言和视觉能力的边界,在广泛的任务中展现出最先进的性能。该系列包含三个模型——Claude3Opus(功能最强)、Claude3Sonnet(在功能和速度之间取得平衡)以及Claude3Haiku(针对效率和成本进行优化),Claude3系列将高级推理、编码、多语言理解以及视觉分析整合到一个统一的框架中。
统一的多模态处理:该研究引入了文本和视觉输入(如图像、图表和视频)的无缝集成,扩展了模型在无需针对特定任务进行微调的情况下执行复杂多模态推理和分析的能力。
长上下文模型设计:Claude3Haiku模型通过优化内存管理和检索技术,有可能支持长达100万个标记的上下文长度(初始生产版本支持长达20万个标记),能够以前所未有的规模实现详细的跨文档分析和检索。所提出的方法将密集缩放与内存高效的架构相结合,确保即使在处理长输入时也能保持高召回率和推理性能。
基于宪法的人工智能进展:该研究在安托万的基于宪法的人工智能框架基础上进一步拓展,纳入了更广泛的道德原则,包括对残疾人的包容性。其对齐策略在有益性和安全性方面实现了更好的平衡,降低了对良性提示的拒绝率,同时对有害或误导性内容保持强有力的防范措施。
基准测试性能:Claude3Opus在多任务语言理解(MMLU)(5次提示的思维链(CoT)下达到88.2%)和通用问题回答(GPQA)方面取得了最先进的结果,展现出卓越的推理能力。Claude系列模型在编码基准测试(包括HumanEval和MBPP)中也创下了新纪录,显著超越了前身以及竞争模型。
多模态卓越表现:Claude系列模型在视觉推理任务(如AI2D科学图表解读(88.3%)以及文档理解)中表现出色,展现出对不同多模态输入的鲁棒性。
长上下文召回能力:Claude3Opus在“大海捞针”评估中实现了近乎完美的召回率(99.4%),展现出其精确处理大规模数据集的能力。
08
TheLlama3HerdofModels
Meta公司的Llama3推出了一个新的基础模型系列,旨在支持多语言、多模态以及长上下文处理,在性能和可扩展性方面有显著提升。其旗舰模型是一个具有4050亿参数的密集Transformer,展现出与诸如GPT-4等最先进模型相当的竞争能力,同时在效率、安全性和可扩展性方面有所改进。
可扩展的多语言和多模态设计:以多语言和多模态为重点,基于15万亿个标记进行训练,Llama3支持长达12.8万个标记的上下文,并通过组合方式集成图像、视频和语音输入。这些模型具备强大的多语言能力,通过扩展标记词汇表,增强了对低资源语言的支持。
先进的长上下文处理:研究团队实施了分组查询注意力(GQA)机制并优化了位置嵌入,从而能够高效处理长达12.8万个标记的上下文。渐进式的上下文缩放确保了在长文档分析和检索过程中的稳定性和高召回率。
简化但有效的架构:这些模型采用了标准的密集Transformer设计,并进行了有针对性的优化,如分组查询注意力和增强的旋转位置编码(RoPE)嵌入,为保证训练稳定性,避免了使用混合专家(MoE)模型的复杂性。
强化的数据筛选和训练方法:研究人员采用了先进的预处理流程和质量筛选机制,利用基于模型的分类器来确保高质量、多样化的数据输入。
面向实际应用的训练后优化:训练后策略整合了监督微调、直接偏好优化、拒绝采样以及人类反馈强化学习,以提高模型的对齐性、指令遵循能力和事实准确性。
基准测试性能:Llama3在多任务语言理解(MMLU)、编程能力评估(HumanEval)以及通用问题回答(GPQA)等基准测试中取得了近乎最先进的结果,在一般性和专业性任务中都具备有竞争力的准确率。它在多语言推理任务中也表现出色,在诸如多语言生成选择任务(MGSM)和GSM8K等基准测试中超越了之前的模型。
多模态和长上下文成果:这些模型展示出卓越的多模态推理能力,包括图像和语音集成,初步实验在视觉和语音任务中显示出有竞争力的结果。此外,Llama3的4050亿参数模型在处理长达12.8万个标记上下文的“大海捞针”检索任务时,能达到近乎完美的准确率。
实际应用可行性:Llama3的多语言和长上下文能力使其非常适用于研究、法律分析以及多语言交流等应用场景,而其多模态扩展功能也拓展了它在视觉和音频任务方面的实用性。
09
SAM2:SegmentAnythinginImagesandVideos
Meta公司的分割一切模型2(SegmentAnythingModel2,简称SAM2)将其前身SAM的能力扩展到了视频领域,为图像和视频中的可提示分割提供了一个统一的框架。借助新颖的数据引擎、流式记忆架构以及迄今为止最大的视频分割数据集,SAM2重新定义了针对不同应用的交互式和自动化分割的格局。
统一的图像和视频分割:SAM2引入了可提示视觉分割(PromptableVisualSegmentation,简称PVS),通过利用跨帧的点、框或掩码提示,将SAM的图像分割功能推广到视频领域。该模型能够预测“掩码片”(masklets),即一种时空掩码,可在整个视频中跟踪对象。
最大的视频分割数据集(SA-V):SAM2的数据引擎促成了SA-V数据集的创建,该数据集涵盖50900个视频中的超过3500万个掩码,比之前的数据集大53倍。这个数据集包含了对整个对象以及各部分的多样标注,显著增强了模型的鲁棒性和泛化能力。
性能提升:SAM2在视频分割方面取得了最先进的结果,与SAM相比,在17个视频数据集和37个图像分割数据集上表现出更优的性能。在零镜头视频分割任务中,它也优于诸如XMem++和Cutie等基准模型,所需交互更少且准确率更高。
速度和可扩展性:新模型在图像分割任务上的处理速度比SAM快6倍,同时保持了较高的准确性。
公平性和鲁棒性:SA-V数据集包含了地域多样化的视频,并且在不同年龄和感知性别群体间表现出极小的性能差异,提高了预测的公平性。
10
MovieGen:ACastofMediaFoundationModels
Meta公司的MovieGen推出了一套综合性的基础模型,能够生成带有同步音频的高质量视频,支持视频编辑、个性化以及音频合成等各种任务。这些模型利用大规模的训练数据和创新架构,在多个媒体生成基准测试中取得了最先进的性能。
统一的媒体生成:一个具有300亿参数的MovieGen视频模型经过联合训练,可用于文本到图像以及文本到视频的生成,能够生成各种宽高比和分辨率、时长最长达16秒的高清视频。一个具有130亿参数的MovieGen音频模型可根据视频或文本提示生成同步的、采样率为48kHz的电影音效和音乐,能无缝融合剧情内和剧情外的声音。
视频个性化:引入的个性化MovieGen视频功能可基于文本提示和人物图像生成视频,在与提示保持一致的同时维持人物身份的一致性。
指令引导的视频编辑:作者还引入了MovieGen编辑模型,可利用文本指令进行精确的视频编辑。
最先进的性能:MovieGen在文本到视频和视频编辑任务方面优于诸如RunwayGen3和OpenAISora等领先模型,为质量和保真度设定了新的标准。在音效和音乐合成方面,它相较于PikaLabs和ElevenLabs也实现了更优的音频生成性能。
多样的能力:所引入的模型能够生成视觉上连贯、高质量的视频,这些视频能够捕捉复杂的动作、符合现实的物理规律并且带有同步音频。它在视频个性化方面表现出色,能够根据用户的参考图像和提示生成相符的视频。
结语——塑造人工智能的未来
未来,随着技术的不断发展,AI将更加深刻地融入我们的生活,并为人类社会创造更多可能性。让我们共同期待2025年人工智能领域的更多颠覆性创新!