【清华、Meta提出文生图定制新方法MultiBooth】
来自清华大学和Meta的研究团队提出了一种用于从文生图的多概念定制的新型高效技术——MultiBooth。尽管定制生成方法取得了长足的进步,特别是随着扩散模型的快速发展,但由于概念保真度低和推理成本高,现有方法在处理多概念场景时依然困难。
为了解决这些问题,MultiBooth将多概念生成过程分为两个阶段:单一概念学习阶段和多概念整合阶段。在单概念学习阶段,他们采用多模态图像编码器和高效的概念编码技术,为每个概念学习一个简明且具有辨别力的表征;在多概念整合阶段,他们使用边界框来定义交叉注意图中每个概念的生成区域。这种方法可以在指定区域内创建单个概念,从而促进多概念图像的形成。
这一策略不仅提高了概念的保真度,还降低了额外的推理成本。在定性和定量评估中,MultiBooth都超越了各种基线,展示了其卓越的性能和计算效率。
【ID-Aligner:利用奖励反馈学习增强“文生图”身份保持】
虽然现有的ID-T2I方法已经取得了令人瞩目的成果,但仍存在几个关键挑战:1)很难准确保持参考肖像的身份特征;2)生成的图像缺乏美感,尤其是在要求身份保持时;3)无法同时兼容基于LoRA和基于Adapter的方法。
为了提高ID-T2I的性能,来自中山大学和字节跳动的研究团队,提出了一种通用反馈学习框架——ID-Aligner。同时,为了解决身份特征丢失的问题,他们提出了身份一致性奖励微调,利用人脸检测和识别模型的反馈来改进生成的身份保存。此外,他们还提出了身份美学奖励微调,利用人类标注的偏好数据奖励和自动构建的字符结构生成反馈,从而提供美学调整信号。
得益于其通用反馈微调框架,该方法可轻松应用于LoRA和Adapter模型,从而实现一致的性能提升。在SD1.5和SDXL扩散模型上进行的大量实验验证了该方法的有效性。
【LazyDiffusion:用于交互式图像编辑的懒惰扩散Transformer】
来自Adobe研究院和特拉维夫大学的研究团队提出了一种新型扩散transformer——LazyDiffusion,它能高效地生成局部图像更新。他们以交互式图像编辑应用为目标,在这些应用中,用户从空白画布或图像开始,使用二进制掩码和文本提示指定一系列局部图像修改。
他们的生成器分两阶段运行。首先,上下文编码器处理当前画布和用户掩码,生成一个紧凑的全局上下文来适应要生成的区域。其次,以该上下文为条件,基于扩散的transformer解码器以“lazy”的方式合成掩膜像素,即只生成掩码区域。
【MoA:新型“文生图”扩散模型个性化架构】
Snap研究团队提出了一种新的架构——混合注意力(MoA),用于文本到图像扩散模型个性化。受大型语言模型(LLMs)中使用的专家混合机制(Mixture-of-Expertsmechanism)的启发,MoA在两个注意力路径之间分配生成工作量:个性化分支和非个性化先验分支。
MoA的设计目的是通过将注意力层固定在先验分支中来保留原始模型的先验性,同时通过个性化分支尽量减少对生成过程的干预,该分支学会将主题嵌入到先验分支生成的布局和上下文中。一种新颖的路由机制可以管理各层像素在这些分支中的分布,从而优化个性化和通用内容创建的融合。
经过训练后,MoA就能帮助创建高质量的个性化图像,这些图像包含多个主体,其构图和交互方式与原始模型生成的图像一样多样化。重要的是,MoA增强了模型原有能力与新增强的个性化干预之间的区别,从而提供了一种以前无法实现的更加独立的主体—语境控制。
【Controlnet++:利用高效一致性反馈改进条件控制】
目前,为了增强文本到图像扩散模型的可控性,ControlNet纳入了基于图像的条件控制。然而,来自佛罗里达中央大学和字节跳动的研究团队提出,现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。
大量实验表明,Controlnet++在各种条件控制下显著提高了可控性。例如,在分割掩码、线条艺术边缘和深度条件方面,它比ControlNet分别提高了7.9%mIoU、13.4%SSIM和7.6%RMSE。
【RLCM:通过强化学习微调一致性模型】
强化学习(RL)通过直接优化获取图像质量、美学和指令跟随能力的奖励,改进了扩散模型的引导图像生成。然而,由此产生的生成策略继承了扩散模型的迭代采样过程,导致生成速度缓慢。
为了克服这一局限性,一致性模型提出学习一类新的生成模型,直接将噪声映射到数据,从而产生一种只需一次采样迭代就能生成图像的模型。
在这项工作中,为了优化文本到图像生成模型从而获得特定任务奖励,并实现快速训练和推理,来自康奈尔大学的研究团队提出了一种通过RL对一致性模型进行微调的框架——RLCM,其将一致性模型的迭代推理过程构建为一个RL过程。RLCM在文本到图像生成能力方面改进了RL微调扩散模型,并在推理过程中以计算量换取样本质量。
实验表明,RLCM可以调整文本到图像的一致性模型,从而适应那些难以通过提示来表达的目标(如图像压缩性)和那些来自人类反馈的目标(如审美质量)。与RL微调扩散模型相比,RLCM的训练速度明显更快,提高了在奖励目标下测量的生成质量,并加快了推理过程,只需两个推理步骤就能生成高质量图像。
【InstantStyle:实现“风格保护”的文生图】
基于Tuning-free扩散的模型已经在图像个性化和定制领域展现出了巨大潜力。
然而,目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先,风格的概念本质上是不确定的,它包含多种元素,如颜色、材料、氛围、设计和结构等等。其次,基于反转的方法容易造成风格退化,往往会导致精细细节的丢失。最后,基于适配器的方法经常需要对每张参考图像进行细致的权重调整,从而实现风格强度和文本可控性之间的平衡。
在这项工作中,InstantX团队首先研究了几个引人注目但却经常被忽视的问题。然后,他们提出了一个用于解决这些问题的框架——InstantStyle,包括两个关键策略:(1)一种直接的机制,将风格和内容与特征空间内的参考图像解耦,其前提是同一空间内的特征可以相互添加或减去;(2)将参考图像特征完全注入特定风格块中,从而防止风格泄漏,并避免了繁琐的权重调整,这通常是参数较多的设计的特点。
这一工作展示了优秀的视觉风格化成果,在风格的强度和文本元素的可控性之间取得了最佳平衡。
【SPRIGHT:提高“文生图”模型的空间一致性】
当前文本到图像(T2I)模型的主要缺陷之一是无法始终如一地生成忠实于文本提示中指定的空间关系的图像。
来自亚利桑那州立大学、IntelLabs的研究团队及其合作者,对这一局限性进行了全面的研究,同时还开发了能达到SOTA的数据集和方法。
研究团队发现当前的视觉语言数据集不能很好地表现空间关系;为了缓解这一瓶颈,他们从4个广泛使用的视觉数据集中抽取了600万张图片重新进行标注,进而创建了首个以空间为重点的大规模数据集——SPRIGHT。通过三重评估和分析,他们发现SPRIGHT在捕捉空间关系方面比现有数据集有很大改进。为了证明SPRIGHT的功效,他们只利用了约0.25%的SPRIGHT,就在生成空间精确图像方面提高了22%,同时还提高了FID和CMMD分数。
此外,他们发现在包含大量物体的图像上进行训练可大幅提高空间一致性。值得注意的是,通过在小于500张图像上进行微调,他们在T2I-CompBench上达到了SOTA,空间分数为0.2133。
【上海AILab新研究:将LVLM分辨率提升到4KHD】
由于分辨率限制,大型视觉语言模型(LVLM)在理解细粒度视觉内容方面面临挑战。
来自上海AILab和香港中文大学的研究团队提出了InternLM-XComposer2-4KHD——将LVLM分辨率提升到4KHD(3840x1600)及更高分辨率。同时,考虑到并非所有场景都需要超高分辨率,它支持从336像素到4K标准的各种不同分辨率,大大拓宽了其适用范围。
研究表明,将训练分辨率扩展到4KHD可带来持续的性能提升,而不会触及潜在改进的上限。InternLM-XComposer2-4KHD在10项测试中表现出了与GPT-4V和GeminiPro相媲美甚至超越的能力。
第2章文/图生视频
【ID-Animator:零样本身份保持人类视频生成器】
大量实验证明,ID-Animator在生成个性化人类视频方面达到了SOTA。此外,他们的方法与流行的预训练T2V模型(如animatediff和各种社区骨干模型)高度兼容,在需要保持ID的视频生成实际应用中具有很高的可扩展性。
【PhysDreamer:通过视频生成,与3D物体进行基于物理交互】
逼真的物体交互对于创造身临其境的虚拟体验至关重要,然而如何根据新颖的交互合成逼真的3D物体动力学仍是一项重大挑战。
与无条件或文本条件动态生成不同,动作条件动态生成需要感知物体的物理材料属性,并根据这些属性(如物体刚度)进行3D运动预测。然而,由于缺乏真实材料数据,估计物理材料属性是一个未决问题,因为测量真实物体的这些属性非常困难。
来自麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学的研究团队提出了一种基于物理学的方法PhysDreamer,它利用视频生成模型学习到的物体动力学先验,赋予静态3D物体以交互式动态效果。通过提炼这些先验,PhysDreamer能够合成逼真的物体对外力或智能体操作等新型交互的反应。
他们在各种弹性物体示例中演示了这种方法,并通过用户研究评估了合成交互的逼真度。PhysDreamer通过使静态3D物体以物理上可信的方式对交互刺激做出动态响应,向更吸引人、更逼真的虚拟体验迈出了一步。
【“图生视频”新研究:剪贴画秒变卡通动画】
剪贴画是一种预先制作的图形艺术形式,为视觉内容提供了一种方便、高效的说明方式。将静态剪贴画图像转换成动态序列的传统工作流程既费力又费时,其中涉及许多复杂的步骤,如装配、关键动画和中间处理。文本到视频生成技术的最新进展为解决这一问题带来了巨大潜力。
然而,直接应用文字视频生成模型往往难以保留剪贴画图像的视觉特征或生成卡通风格的动作,导致动画效果不尽如人意。来自香港城市大学和莫纳什大学提出了一个将静态剪贴画图像转化为由文本到视频先验指导的高质量运动序列系统AniClipart。
为了生成卡通风格的平滑运动,他们首先在剪贴画图像的关键点上定义Bézier曲线,作为一种运动正则化形式。然后,通过优化视频分数蒸馏采样(VSDS)损失,将关键点的运动轨迹与所提供的文字提示对齐,该损失在预训练的文字视频扩散模型中编码了足够的自然运动知识。该方法采用了可微分的形状变形算法(As-Rigid-As-Possibleshapedeformationalgorithm),可以在保持变形刚度的同时进行端到端优化。
实验结果表明,在文本-视频对齐、视觉特性保持和运动一致性方面,AniClipart始终优于现有的图像-视频生成模型。展示了AniClipart的通用性,通过调整它来生成更广泛的动画格式,如分层动画,允许拓扑变化。
【MagicTime:一种变形延时视频生成模型】
目前,文生视频(T2V)技术的进展在从文本描述合成高质量的通用视频方面取得了SOTA。
然而,T2V中一个很大程度上被忽视的问题是,现有模型没有充分编码真实世界的物理知识,因此生成的视频往往具有有限的运动和较差的变化。
来自北京大学和罗切斯特大学的研究团队提出了一种名为MagicTime的变形延时视频生成模型,该模型从延时视频中学习真实世界的物理知识,并实现了变形生成。
首先,他们设计了一个MagicAdapter方案来解耦时空训练,从变形视频中编码更多的物理知识,并转换预训练T2V模型来生成变形视频。其次,他们提出了一种适应变形延时视频的动态帧提取策略,它具有更大的变化范围,涵盖了戏剧性的物体变形过程,因此比一般视频体现了更多的物理知识。最后,他们提出了一个魔术文本编码器,以提高对变形视频提示的理解。此外,该研究团队还创建了一个名为ChronoMagic的延时视频文本数据集,专门用于解锁变形视频生成能力。
实验证明,MagicTime在生成高质量和动态变形视频方面达到了SOTA,表明延时视频生成是构建物理世界变形模拟器的一个途径。
【CameraCtrl:为文生视频模型增加“相机控制”】
可控性在视频生成中起着至关重要的作用,因为它允许用户创建所需的内容。然而,现有模型在很大程度上忽视了对相机姿态的精确控制,而相机姿态能够表达更深层次叙事细微差别的电影语言。为了解决这个问题,来自香港中文大学、上海AILab和斯坦福大学的研究团队提出了CameraCtrl,为文本到视频(T2V)模型提供精确的相机姿态控制。
据介绍,在精确设定相机轨迹参数后,即插即用的相机模块就可以在T2V模型上进行训练,而无需其他模型。此外,对各种数据集的效果进行的综合研究表明,相机分布多样、外观相似的视频确实增强了可控性和通用性。实验结果表明,CameraCtrl能有效实现精确的领域自适应相机控制,这标志着在通过文本和相机姿态输入实现动态和定制化视频叙事方面又向前迈进了一步。
第3章文生音频
【英伟达推出AudioDialogues:用于音频和音乐理解的对话数据集】
现有的音频理解数据集主要集中在单回合交互(即音频字幕、音频问答)上,用于以自然语言描述音频,从而限制了通过交互式对话理解音频。
为了解决这一差距,英伟达研究团队提出了一个包含163.8k样本的多回合对话数据集——AudioDialogues,用于一般音频和音乐。除了对话,AudioDialogues还具有问答对,可以一起理解和比较多个输入音频。
AudioDialogues利用基于提示的方法和来自现有数据集的标题注释,使用大型语言模型(LLM)生成多回合对话。在所提出的数据集上评估了现有的音频增强的大型语言模型,从而证明音频对话的复杂性和适用性。
【港科大提出FlashSpeech:高效零样本语音合成】
目前,语言模型和扩散模型在大规模零样本语音合成方面取得了显著进展。然而,这两种方法的生成过程都很慢且计算量很大。使用较低的计算预算进行高效语音合成,达到与之前工作相当的质量,仍然是一个重大挑战。
FlashSpeech的生成过程可以通过一个或两个采样步骤高效地完成,同时保持高音频质量和与零样本语音生成音频提示的高相似性。实验结果证明FlashSpeech达到了SOTA。值得注意的是,FlashSpeech可以比其他零样本语音合成系统快20倍,同时在语音质量和相似性方面保持相当的性能。此外,FlashSpeech通过有效地执行语音转换、语音编辑和多样化的语音采样等任务展示了其通用性。
【StabilityAI推出长音乐生成模型,时常可达4分45秒】
基于音频的音乐生成模型近来取得了重要进展,但迄今为止还无法生成具有连贯音乐结构的完整音乐曲目。在这项工作中,StabilityAI表示,通过对长时空背景的生成模型进行训练,可以生成长达4分45秒的长篇音乐。据介绍,该模型由一个在高度降采样的连续潜在表征上运行的diffusion-transformer组成。根据音频质量和提示对齐度量标准,它在生成结果方面获得了SOTA,主观测试表明,它能生成具有连贯结构的长篇音乐。
【Tango2:通过直接偏好优化对齐基于扩散的文生音频模型】
生成式多模态内容在许多内容创作领域日益流行,因为它有可能让艺术家和媒体人员通过快速将他们的想法带到生活中来创建预制作模型。根据文字提示生成音频,是在音乐和电影行业中这类流程的一个重要方面。
他们在偏好数据集上使用diffusion-DPO损失对公开可用的Tango文生视频模型进行了微调,并表明它在自动和手动评估指标方面优于Tango和AudioLDM2的音频输出。
【Melodist:实现包含人声和伴奏的可控文生歌曲模型】
来自浙江大学的研究团队提出了一项名为“文本到歌曲合成”(text-to-songsynthesis)的新任务,其中包含人声和伴奏的生成,他们开发的Melodist是一种两阶段文本到歌曲方法,包括歌唱语音合成(SVS)和人声到伴奏合成(V2A)。Melodist利用三塔对比预训练来学习更有效的文本表示,用于可控的V2A合成。
为了缓解数据的稀缺性问题,他们构建了一个从音乐网站中挖掘出的中文歌曲数据集。在他们的数据集上的评估结果表明,Melodist可以合成具有相当质量和风格一致性的歌曲。
【微软、上交大推出CoVoMix:实现多个对话者的多轮对话】
近来,零样本文本到语音(TTS)建模技术的进步推动了高保真和多样化语音的生成,然而,对话生成以及实现类似人类的自然语音仍然是该领域的一项挑战。
在这项工作中,来自微软和上海交通大学的研究团队,提出了一种用于零样本、类人、多扬声器、多轮对话语音生成的新型模型——CoVoMix。
据介绍,CoVoMix能够首先将对话文本转换成多个离散的token流,每个token流代表单个对话者的语义信息。然后,将这些token流输入一个基于流匹配的声学模型,生成混合旋律谱图。最后,使用HiFi-GAN模型生成语音波形。另外,他们还设计了一套衡量对话建模和生成效果的综合指标。
实验结果表明,CoVoMix不仅能生成自然、连贯、类似人类的对话,还能让多个对话者进行多轮对话。这些在单通道中生成的对话具有无缝语音转换(包括重叠语音)和其他语言行为(如笑声)的特点。
【字节推出VoiceShop:保留原音色,任意修改性别、口音和说话风格】
字节跳动提出了一个新型语音转语音框架——VoiceShop,其可以在一次前向传递中修改语音的多个属性,如年龄、性别、口音和说话风格,同时保留输入说话者的音色。
以往的工作局限于只能单独编辑这些属性的专用模型,并存在以下缺陷:转换效果不明显,没有针对分布外扬声器的零样本功能,或者合成输出会出现音色泄漏,从而改变说话者的感知身份。
该工作在一个简单的模块化框架中提出了解决上述问题的方案,该框架基于一个条件扩散骨干模型,并带有可选的基于归一化流的模块和序列到序列的扬声器属性编辑模块,这些模块的组件可在推理过程中组合或移除,从而满足各种任务的需要,而无需额外的模型微调。
【MuPT:生成式符号音乐预训练Transformer】
来自多伦多大学、中国科学院深圳先进技术研究院的研究团队及其合作者探索了大型语言模型(LLMs)在音乐预训练中的应用。
虽然在音乐建模中普遍使用MIDI已是公认的事实,但研究结果表明,LLM本身与ABCNotation更为兼容,后者更符合LLM的设计和优势,从而提高了模型在音乐创作中的性能。为了解决在生成过程中不同音轨的测量值不一致所带来的挑战,他们提出了一种同步的多音轨ABC记谱法(SMT-ABCNotation),旨在保持多个音乐音轨之间的一致性。
他们建立了一系列能够处理多达8192token的模型,涵盖了训练集中90%的符号音乐数据。此外,他们还探索了符号音乐缩放定律(SMSLaw)对模型性能的影响,研究结果为音乐生成的未来研究指明了一个有希望的方向。
【WavLLM:实现鲁棒性和自适应语音大语言模型】
近年来,大型语言模型(LLMs)的发展给自然语言处理领域带来了巨大变化,其范围逐渐扩大到多模态感知和生成。然而,如何有效地将听觉功能集成到LLM中,尤其是在不同语境下的泛化和执行复杂的听觉任务方面,提出了巨大的挑战。
来自香港中文大学、微软的研究团队提出了一种具有双编码器和提示感知LoRA权重适配器的鲁棒自适应语音大语言模型——WavLLM,其通过两阶段课程学习方法进行了优化。
利用双编码器,研究团队将不同类型的语音信息解耦,利用Whisper编码器处理语音的语义内容,利用WavLLM编码器捕捉说话者身份的独特特征。在课程学习框架内,WavLLM首先通过优化混合初级单一任务来建立其基础能力,然后在更复杂的任务(如初级任务的组合)上进行高级多任务训练。
为了提高灵活性并适应不同的任务和指令,研究团队在第二个高级多任务训练阶段引入了提示感知的LoRA权重适配器。他们在通用语音基准(包括ASR、ST、SV、ER等任务)上验证了所提出的模型,并将其应用于专业数据集,如用于SQA的高考英语听力理解集和语音思维链(CoT)评估集。
实验证明,在相同的模型规模下,所提出的模型在一系列语音任务中都达到了SOTA,在使用CoT方法执行复杂任务时表现出了强大的泛化能力。
第4章文/图生3D
【DreamScene360:无约束文本-3D场景生成】
随着虚拟现实应用的需求日益增长,制作身临其境的3D资产也愈发重要。
来自加州大学洛杉矶分校、德州大学奥斯汀分校的研究团队,提出了一个文本到3D360度场景生成管道,可在几分钟内为野外环境创建全面的360度场景。该方法利用2D扩散模型的生成能力和prompt的自我完善来创建高质量、全局一致的全景图像。该图像可作为初步的“平面”(2D)场景表示。随后,将其提升为3D高斯图像,利用拼接技术实现实时探索。
为了生成一致的3D几何图形,该管道将2D单目深度对齐到全局优化的点云中,从而构建出空间一致的结构。该点云是3D高斯中心点的初始状态。为了解决单视角输入中固有的隐形问题,他们对合成视角和输入相机视角施加了语义和几何约束,作为正则化处理。这些约束为高斯的优化提供了指导,有助于重建未见区域。
总之,与现有技术相比,该方法能在360度视角内提供全局一致的3D场景,从而增强身临其境的体验。
【清华朱军团队新研究:从单一图像到3D生成】
近来,根据文本提示或单张图像生成3D内容的技术在质量和速度上都取得了显著进步,其主流模式之一是生成一致的多视图图像,然后进行稀疏视图重建。
为此,来自中国科学院大学、清华大学、西安电子科技大学和生数科技的研究团队,提出了一种新型单图像到3D生成框架——FlexiDreamer,其能以端到端的方式重建目标网格。通过利用称为FlexiCubes的基于梯度的灵活提取,该方法避免了后处理带来的缺陷,有利于直接获取目标网格。
此外,他们还采用了多分辨率哈希网格编码方案,将编码级别逐步激活到FlexiCubes中的隐式字段,从而帮助捕捉几何细节,实现每一步优化。值得注意的是,FlexiDreamer在单个NVIDIAA100GPU上从单视角图像中恢复密集3D结构仅需约1分钟,优于之前的方法。
第5章智能体(Agent)
【智谱AI、清华团队推出自动网页导航智能体AutoWebGLM】
大型语言模型(LLM)为许多智能体任务(如网络导航)提供了动力,但由于网页上操作的多样性、HTML文本超出模型处理能力以及由于网页的开放域性质导致的决策的复杂性,大多数现有智能体在实际网页中的表现远不能令人满意。
为此,来自智谱AI和清华大学的研究团队,在ChatGLM3-6B的基础上开发了自动网页导航智能体AutoWebGLM,其性能超过了GPT-4。
受人类浏览模式的启发,他们设计了一种HTML简化算法来表示网页,简洁地保留重要信息。他们采用人类与人工智能混合的方法来建立用于课程训练的网页浏览数据。然后,他们通过强化学习和拒绝采样对模型进行引导,进一步促进网页理解、浏览器操作和高效的任务分解。
为了进行更好的测试,他们为真实世界的网页浏览任务建立了一个双语基准——AutoWebBench,并在各种网页导航基准中对AutoWebGLM进行了评估,发现了它的改进之处,以及在应对真实环境时所面临的挑战。
【BattleAgent:再现历史事件,对历史战役进行多模态动态模拟】
BattleAgent为历史战役建立了详细和身临其境的场景,使单个智能体能够参与、观察和动态响应不断变化的战役场景。这种方法有可能大大加深我们对历史事件的理解,特别是通过个人叙述。由于传统的历史叙事往往缺乏文献记载,而且优先考虑决策者的观点,忽略了普通人的经历,因此这种举措也有助于历史研究。
【MITCSAIL推出多模态自动可解释性智能体MAIA】
MIT计算机科学与人工智能实验室团队提出了一个多模态自动可解释性智能体——MAIA。
MAIA是一个使用神经模型来自动完成神经模型理解任务(比如特征解释和故障模式发现)的系统。它为预训练的视觉语言模型配备了一系列工具,从而支持对其他模型的子组件进行迭代实验,从而解释其行为。这些工具包括人类研究人员常用的工具:合成和编辑输入,计算来自真实世界数据集的最大激活示例,以及总结和描述实验结果。MAIA提出的可解释性实验将这些工具组合在一起,用于描述和解释系统行为。
他们评估了MAIA在计算机视觉模型上的应用。他们首先描述了MAIA在图像学习表示中描述(神经元级)特征的能力。在几个经过训练的模型和一个具有配对ground-truth描述的合成视觉神经元新数据集上,MAIA产生的描述与专家人类实验者生成的描述相当。此外,MAIA可以帮助完成两个额外的可解释性任务:降低对虚假特征的敏感性,以及自动识别可能被错误分类的输入。
【AgentKit:使用图而非编码进行流程工程设计】
来自卡内基梅隆大学和英伟达的研究团队为多功能智能体(agent)提出了一个直观的LLM提示框架——AgentKit,用于从简单的自然语言提示中明确构建复杂的“思维过程”。
AgentKit的基本构件是一个节点,其中包含针对特定子任务的自然语言提示。然后,用户将节点链组合在一起,就像堆砌乐高积木一样。节点链的设计可以明确执行自然结构的“思维过程”。例如,对于撰写论文的任务,可以从以下思维过程开始:1)确定核心信息;2)确定先前的研究差距等。AgentKit中的节点可以通过不同的设计和组合方式来实现多种高级功能,包括即时分层规划、反思和从交互中学习。
此外,由于其模块化性质和模拟人类思维过程的直观设计,一个基本的智能体可以通过简单的子任务提示列表来实现,因此没有任何编程经验的人也可以设计和调整智能体。
从定量分析上看,通过AgentKit设计的智能体在WebShop和Crafter上实现了SOTA。这凸显了AgentKit在使LLM智能体有效并适用于更广泛应用方面的潜力。
【COMBO:帮助多智能体合作的组合世界模型】
来自马萨诸塞大学阿默斯特分校、清华大学和北京大学的研究团队及其合作者,探讨了具身多智能体合作问题,在这种情况下,去中心化智能体必须在只有部分自我中心世界观的情况下进行合作。
为了在这种情况下有效地制定计划,与在单个智能体场景中学习世界动态不同,他们必须在仅对世界进行部分自我中心视觉观察的情况下,模拟以任意数量智能体的行动为条件的世界动态。
为了解决部分可观测性这一问题,他们首先训练生成模型,以便在部分自我中心观测条件下估计整体世界状态。为了能够在此世界状态下精确模拟多组行动,他们建议通过对多个智能体的自然可组合联合行动进行因式分解并组合生成视频,从而学习多智能体合作的组合世界模型。利用这种组合世界模型,结合视觉语言模型来推断其他智能体的行动,就可以使用树状搜索程序来整合这些模块,促进在线合作规划。
为了评估这一方法的有效性,他们使用ThreeDWorld模拟器创建了两个具有挑战性的多智能体长视野合作任务,并用2-4个智能体进行了实验。结果表明,他们的合成世界模型是有效的,而且该框架能使智能体在各种任务和任意数量的智能体中与不同智能体进行高效合作。
【综述:基于大型语言模型的游戏智能体】
游戏智能体(agent)的开发在推动通用人工智能(AGI)的发展中起着至关重要的作用。大型语言模型(LLM)及多模态大型语言模型(MLLM)的进步为游戏agent的发展提供了前所未有的机遇,使其在复杂的计算机游戏环境中具备类似人类的决策能力。
来自乔治亚理工学院和CiscoResearch的研究团队从整体角度全面概述了基于LLM的游戏agent。首先,他们介绍了基于LLM的游戏agent的概念架构,其核心是六个基本功能组件:感知、记忆、思维、角色扮演、行动和学习。其次,他们调查了现有文献中具有代表性的基于LLM的游戏agent的方法和适应灵活性,涉及六种类型的游戏,包括冒险游戏、交流游戏、竞争游戏、合作游戏、模拟游戏以及制作和探索游戏。最后,他们对这一新兴领域的未来研究和发展方向进行了展望。
【综述:用于推理、规划和工具调用的智能体架构】
为此,他们概述了单智能体和多智能体架构,确定了设计选择中的关键模式和分歧,并评估了它们对实现既定目标的总体影响。
【综述:大模型智能体的记忆机制】
支持智能体与环境交互的关键要素是智能体的记忆。虽然以往的研究提出了许多有前景的记忆机制,但这些机制散见于不同的论文中,缺乏系统的综述,无法从整体的角度对这些工作进行总结和比较,也无法抽象出通用而有效的设计模式来启发未来的研究。
为此,来自中国人民大学和华为的研究团队对基于LLM的智能体的记忆机制进行了全面研究。具体来说,他们首先讨论了基于LLM的智能体的“记忆是什么”和“为什么需要记忆”;然后,系统地回顾了以往关于如何设计和评估内存模块的研究;此外,还介绍了许多智能体应用,其中内存模块发挥了重要作用;最后,分析了现有工作的局限性,并指出了未来的重要方向。
第6章对齐(Alignment)
【智谱AI、清华团队推出ChatGLM-RLHF】
ChatGLM是一项免费使用的人工智能(AI)服务,由ChatGLM系列大型语言模型(LLM)提供支持。
为增强ChatGLM与人类偏好的一致性,来自智谱AI和清华大学的研究团队推出了一个基于人类反馈的强化学习(RLHF)系统——ChatGLM-RLHF。
ChatGLM-RLHF包括三个主要部分:收集人类偏好数据、训练奖励模型和优化策略。在将ChatGLM-RLHF集成到生产中的整个过程中,研究团队遇到并解决了几个前所未有的挑战。他们为稳定的大规模训练提出了减轻奖励差异的策略,利用融合梯度下降实现了模型并行性,并设计了正则化约束,从而避免LLM中的灾难性遗忘。
实验表明,与ChatGLM的监督微调(SFT)版本相比,ChatGLM-RLHF在配准任务中取得了显著改进。例如,与ChatGLM-SFT相比,它在中文对齐任务中的胜率平均提高了15%。这项工作为LLM与人类偏好对齐作出了实践,为RLHF实现中的挑战和解决方案提供了见解。
【针对RLHF的数据集重置策略优】
基于人类反馈的强化学习(RLHF)是微调生成模型的一种流行范式,已经产生了GPT-4和Claude3Opus等强大的模型。这种框架通常包括两个步骤:从离线偏好数据集学习奖励模型,然后运行在线RL来优化学习到的奖励模型。
在这项工作中,来自康奈尔大学、普林斯顿大学和MicrosoftResearch的研究团队,利用重置思想提出了一种具有可证明保证的新型RLHF算法。受离线偏好数据集提供信息性状态(即标注者偏好的数据)这一事实的启发,他们提出的新算法——数据集重置策略优化(DR-PO)——通过数据集重置将现有的离线偏好数据集集成到在线策略训练程序中:它直接将策略优化器重置为离线数据集中的状态,而不总是从初始状态分布开始。
从理论上讲,该研究证明DR-PO在有限样本复杂度的一般函数近似条件下,其学习性能至少与离线数据集所涵盖的任何策略一样好。在实验中,他们证明了在TL;DR总结和AnthropicHelpfulHarmful数据集上,在GPT4胜率指标下,DR-PO的生成效果优于近端策略优化(PPO)和方向偏好优化(DPO)。
【通过注意力调节实现更好的文本到图像生成对齐】
在文本到图像的生成任务中,扩散模型的进步提高了生成结果的保真度。然而,这些模型在处理包含多个实体和属性的文本提示时遇到了挑战。注意力分布不均会导致实体泄漏和属性错位问题。要解决这个问题,从头开始训练需要大量的标注数据,而且非常耗费资源。
为此,来自新加坡国立大学、山东大学的研究团队提出了一种属性聚焦(attribution-focusing)机制,这是一种通过调节扩散模型的注意力来实现的免训练分阶段机制。
另外,他们在交叉注意模块中集成了以对象为中心的屏蔽方案和分阶段动态权重控制机制,使模型能够更有效地辨别实体之间的语义信息关联。
各种配准场景的实验结果表明,该模型能以最小的额外计算成本实现更好的图像-文本对齐。
【MIT、谷歌新研究:基于零样本跨语言对齐的奖励模型转移】
根据人类标注的偏好数据对语言模型(LMs)进行对齐,是获得基于LM的系统实用且性能良好的的关键一步。然而,多语言人类偏好数据很难大规模获取,因此将这一框架扩展到多种语言具有挑战性。
来自麻省理工大学和谷歌的研究团队评估了一种简单的零样本跨语言对齐方法,即在一种源语言的偏好数据上训练奖励模型,然后直接应用于其他目标语言。在总结和开放式对话生成方面,他们表明这种方法在包括人工评估在内的综合评估设置下始终是成功的,在多达70%的评估实例中,跨语言对齐模型比非对齐模型更受人类青睐。
此外,不同语言奖励模型有时会比同种语言奖励模型产生更好的对齐模型。他们还确定了在没有特定语言数据甚至监督微调时的最佳实践。
第7章安全治理
【OpenAI:如何让大模型免受恶意攻击?】
当前的大型语言模型(LLM)容易受到提示注入、越狱攻击和其他攻击的影响,这些攻击允许攻击者用他们自己的恶意提示覆盖模型的原始指令。
OpenAI研究团队认为,这些攻击的主要漏洞之一是,LLMs经常将系统提示(比如来自应用程序开发人员的文本)与来自不可信用户和第三方的文本视为相同的优先级。为此,他们提出了一种指令层次(instructionhierarchy)结构,明确定义了当不同优先级的指令冲突时模型应该如何选择。然后,他们提出了一种数据生成方法来演示这种分层指令跟随的行为,该方法指导LLMs有选择地忽略低特权指令。
他们将这种方法应用于GPT-3.5,结果表明它大大提高了模型的鲁棒性——即使对于在训练过程中未见过的攻击类型也是如此,同时对标准能力的影响降到最低。
【GoogleDeepMind新研究:减轻说服型生成式AI的危害】
最近,生成式人工智能(AI)系统已经显示出更先进的说服能力,并逐渐渗透到可以影响决策的生活领域。
他们还提出了服型生成式AI的危害,包括经济、物理、环境、心理、社会文化、政治、隐私的定义和例子。然后,他们提出了一幅导致说服危害的机制图,概述了可用于减轻说服过程危害的方法,包括操纵分类的提示工程和红队。他们未来的工作将使这些缓解措施具有可操作性,并研究不同类型说服机制之间的相互作用。
【GoogleDeepMind:先进人工智能模型的整体安全与责任评估】
先进人工智能模型(AI)的安全性和责任评估是一个关键但尚在发展中的研究和实践领域。
因此,从事安全评估和安全研究的广泛参与者必须共同努力,开发、完善和实施新的评估方法和最佳实践。报告最后概述了快速推进评估科学、将新的评估纳入AI的开发和治理、建立科学依据的规范和标准,以及促进强大的评估生态系统的明确需求。
【谷歌274页论文:高级人工智能助手的伦理】
来自GoogleDeepMind、GoogleResearch的研究团队及其合作者,重点探讨了高级人工智能助理带来的机遇以及伦理和社会风险。
他们将高级人工智能助理定义为具有自然语言界面的AI智能体(artificialagents),其功能是根据用户的期望,代表用户在一个或多个领域规划和执行一系列行动。
分析表明,高级人工智能助手很可能会对我们的个人和集体生活产生深远影响。他们认为,要使人工智能助手有益并与人类价值观一致,就必须对用户、开发者和社会之间相互竞争的诉求和需求做出适当回应。
人工智能助手所具备的功能,如更强的智能体能力、自然语言交互能力和高度个性化,对用户特别有帮助。然而,这些特点也使人们容易受到技术的不当影响,因此需要强有力的保障措施。
此外,当人工智能助手被大规模部署时,它们之间的互动所产生的连锁效应以及它们对更广泛的机构和社会进程的整体影响问题就会凸显出来。这些动态可能需要技术和政策干预,从而促进有益的合作,实现广泛、包容和公平的成果。
最后,鉴于目前的人工智能评估主要侧重于人工智能系统的技术组成部分,因此必须投资于人工智能助手的整体社会技术评估,包括人与人工智能的互动、多智能体和社会层面的研究,从而支持该领域负责任的决策和部署。
【确保LLM对齐和安全的18个基本挑战】
来自剑桥大学的研究团队及其合作者确定了在确保大型语言模型(LLMs)的一致性和安全性方面的18个基本挑战。这些挑战被分为三个不同的类别:对LLMs的科学理解,开发和部署方法,以及社会技术挑战。他们根据已确定的挑战,提出了200多个具体的研究问题。
【负责任的生成式AI:生成什么,不生成什么】
【首个根据人类审查的安全指令进行微调的开源多语言模型】
预训练语言模型是多种人工智能(AI)应用的基础,但其高昂的训练计算成本限制了其普及性。然而,现有模型面临着多语言能力有限、持续预训练会导致灾难性遗忘(而从头开始预训练的计算成本又很高),以及是否符合人工智能安全和开发法律等各种挑战。
Aurora-M是一个15B参数的多语种开源模型,使用英语、芬兰语、印地语、日语、越南语和代码进行训练。Aurora-M在StarCoderPlus的基础上对4350亿个额外token进行了持续预训练,总训练token数超过了2万亿个。它是首个根据人类审查的安全指令进行微调的开源多语言模型。Aurora-M经过了各种任务和语言的严格评估,在多语言环境下,尤其是在安全评估中,表现出了对灾难性遗忘的鲁棒性和优于替代方案的性能。
第8章大模型/AI4Science
【ResearchAgent:基于LLM的科学文献迭代研究思想生成】
一些对改善人类生活至关重要的科学研究,由于其固有的复杂性、缓慢的速度和对专业专家的需求而受到阻碍。
为了提高它的生产力,来自韩国科学技术院和微软的研究团队,提出了一个大型语言模型驱动的研究思想写作智能体——ResearchAgent,它自动生成问题、方法和实验设计,同时根据科学文献迭代对它们进行改进。
具体来说,从一篇核心论文为主要焦点来产生想法开始,ResearchAgent不仅通过连接学术图上的信息来关联出版物,而且根据其基本概念从以实体为中心的知识存储中检索实体,在许多论文中进行挖掘和共享。
此外,反映了人类通过同行讨论迭代改进想法的方法,利用多个评审智能体迭代来提供评审和反馈。用人类偏好对齐的大型语言模型来实例化它们,这些模型的评估标准来自实际的人类判断。他们在多学科的科学出版物上验证了ResearchAgent,展示了其在基于人工和基于模型的评估结果生成新颖、清晰和有效的研究想法方面的有效性。
【清华团队新研究:通过提示工程在LLM中整合化学知识】
该论文介绍了一项关于整合提示工程中特定领域知识来提高科学领域大型语言模型(LLM)性能的研究。
【用于肿瘤临床决策的自主AI智能体】
多模态人工智能(AI)系统有可能通过解释各种类型的医疗数据来增强临床决策。
然而,这些模型在所有医学领域的有效性是不确定的。每个学科都提出了独特的挑战,需要解决最佳性能。当试图将不同的字段集成到单个模型中时,这种复杂性会进一步增加。
来自海德堡大学和德累斯顿工业大学的研究团队及其合作者提出了一种多模态医疗AI的替代方法,该方法利用大型语言模型(LLM)的通才能力作为中央推理引擎。这个引擎可以自主协调和部署一套专门的医疗AI工具。这些工具包括文本、放射学和组织病理学图像解释、基因组数据处理、网络搜索和医学指南文档检索。他们在一系列临床肿瘤学场景中验证他们的系统,这些场景与典型的患者护理工作流程非常相似。
【大型语言模型是“超人”的化学家吗?】
为此,来自耶拿大学的研究团队及其合作者,提出了一个自动化框架ChemBench,旨在对照人类化学家的专业知识,严格评估最先进LLM的化学知识和推理能力。
他们为化学科学的众多子领域策划了7000多个问答对,评估了领先的开放式和闭源LLM,发现最佳模型的平均表现优于最优秀的人类化学家。然而,这些模型在一些对人类专家来说很容易完成的化学推理任务上却表现较差,并提供了过于自信和误导性的预测,比如关于化学品安全概况的预测。
这些发现表明,即尽管LLM在化学任务中表现出了非凡的能力,但进一步的研究对于提高其在化学科学中的安全性和实用性至关重要。
【H2RSVLM:遥感视觉语言大模型】
目前,通用的大型视觉语言模型(VLMs)发展迅速,但在遥感(RS)领域仍表现不佳,这是由于遥感图像的独特性和专业性,以及目前的视觉语言模型的空间感知能力相对有限。现有的遥感专用视觉语言模型(RSVLM)仍有很大的改进潜力,这主要是由于缺乏大规模、高质量的遥感视觉语言数据集。
来自武汉大学和上海AILab的研究团队提出了HqDC-1.4M,即大规模高质量和详细的RS图像标题,其中包含140万个图像标题,这不仅增强了RSVLM对RS图像的理解,还显著提高了模型的空间感知能力,如定位和计数,从而增加了RSVLM的帮助。
此外,为了解决RSVLM中不可避免的“幻觉”问题,他们还开发了首个旨在增强RSVLM自我认知能力的数据集——RSSA。
通过在典型的RS视觉问题解答任务中加入各种无法回答的问题,RSSA有效地提高了模型输出的真实性并减少了幻觉,从而提高了RSVLM的真实性。在这些数据集的基础上,该研究团队提出了H2RSVLM,即“有用且诚实的遥感视觉语言模型”。H2RSVLM在多个RS公开数据集上取得了优异的性能,能够识别并拒绝回答无法回答的问题,有效地减少了错误生成。
第9章评测
【MMStar:一种新的大型视觉语言模型评测基准】
大型视觉语言模型(LVLM)近来取得了突飞猛进的发展,引发了大量评估其多模态能力的研究。
然而,来自中国科学技术大学、香港中文大学和上海AILab的研究团队深入研究了当前的评测工作,发现了两个主要问题:(1)许多样本不需要视觉内容,答案可以直接从问题和选项或LLM中嵌入的世界知识中推断出来。这种现象在目前的基准中普遍存在。(2)LLM和LVLM训练中存在无意数据泄露。LLM和LVLM在没有视觉内容的情况下仍能回答一些视觉必需的问题,这表明在大规模训练数据中对这些样本进行了记忆。这两个问题都会导致对实际多模态收益的误判,并有可能误导对LVLM的研究。
此外,他们还开发了两个指标来衡量多模态训练中的数据泄漏和实际性能增益,在MMStar上对16种领先的LVLM进行了评估,以评估它们的多模态能力,并在7个基准上使用所提出的指标来研究它们的数据泄漏和实际多模态增益。
【MMT-Bench:大型视觉语言模型综合多模态评测基准】
大型视觉语言模型(LVLM)在通用多模态应用(如视觉对话和嵌入式导航)方面取得了长足进步。然而,现有的多模态评测基准仅涵盖有限的多模态任务,只能测试最基本的能力。
在这项工作中,来自上海AILab、上海交通大学和香港大学的研究团队及其合作者,提出了一个综合基准MMT-Bench,用于评估大规模多模态任务中的LVLM,这些任务需要专家知识和审慎的视觉识别、定位、推理和规划。MMT-Bench包括31325个多选视觉问题,这些问题来自车辆驾驶和模拟导航等各种多模态场景,涵盖多模态理解中的32个核心元任务和162个子任务。由于任务覆盖面广,MMT-Bench可以使用任务地图对LVLM进行评估,便于发现领域内和领域外的任务。
【BLINK:视觉感知多模态大模型评测基准】
来自宾夕法尼亚大学、华盛顿大学和艾伦人工智能研究所的研究团队及其合作者,提出了一个多模态语言模型(LLMs)的新基准Blink,主要专注于其他评测中未发现的核心视觉感知能力。
大部分Blink任务对于人类来说都能“瞬间”解决(例如,相对深度估计、视觉对应、取证检测和多视角推理)。然而,他们发现这些需要感知的任务对当前的多模态LLMs提出了巨大挑战,因为它们无法通过自然语言进行调解。Blink将14项经典的计算机视觉任务改编成3807道选择题,并配以单幅或多幅图像和视觉提示。
虽然人类的平均准确率为95.70%,但Blink对现有多模态LLM的挑战却出人意料,即使是表现最好的GPT-4V和Gemini,准确率也只有51.26%和45.72%,仅比随机猜测高出13.17%和7.63%,这表明这种感知能力尚未在最近的多模态LLM中出现。他们分析还强调,专业的CV模型可以更好地解决这些问题,这为未来的改进提供了潜在的途径,Blink将激励社区帮助多模态LLMs赶上人类水平的视觉感知。
【Ada-LEval:长上下文LLM评估基准】
最近,大型语言模型(LLM)界对增强LLM处理超长文档的能力表现出越来越大的兴趣。随着各种长文本技术和模型架构的出现,对模型的长文本能力进行精确而详细的评估变得越来越重要。
然而,现有的长文本评估基准(如L-Eval和LongBench)基于开源数据集构建长文本测试集,主要侧重于质量保证和摘要任务。这些数据集包括不同长度(从2k到32k+不等)的测试样本,这些样本混杂在一起,使得在不同长度范围内评估模型能力具有挑战性。此外,这些数据集也没有涵盖最新LLM声称可以实现的超长设置(100k以上token)。
上海AILab和上海交通大学的研究团队提出了一种长度适应性基准Ada-LEval,用于评估LLM的长上下文理解能力。Ada-LEval包括两个具有挑战性的子集:TSort和BestAnswer,可对LLM的长上下文能力进行更可靠的评估。这些基准支持对测试用例长度的复杂操作,可以轻松生成多达128ktoken的文本样本。
他们用Ada-LEval评估了4个先进的闭源API模型和6个开源模型。评估结果表明了当前LLM(尤其是在超长上下文设置中)的局限性。
【卡内基梅隆大学、Meta新研究:使用“图生文”评估“文生视觉”】
尽管生成式人工智能领域取得了重大进展,但由于缺乏有效的衡量标准和标准化基准,综合评估仍具有挑战性。
为此,来自卡内基梅隆大学和Meta的研究团队提出了VQAScore,使用视觉问答(VQA)模型,通过计算“此图是否显示文本”这类问题的“是”的概率来产生对齐分数。尽管VQAScore比现有技术更简单,但使用现成模型计算的VQAScore在8个图像-文本对齐基准中都取得了SOTA。有趣的是,尽管他们只使用图像进行训练,VQAScore也可以将文本与视频和3D模型对齐。
此外,他们还提出了一个更具挑战性的基准——GenAI-Bench,其包含1600个组合文本提示,需要解析场景、对象、属性、关系以及比较和逻辑等高阶推理,为StableDiffusion、DALL-E3和Gen2等图像和视频生成模型提供了15000多项人类评分。
【IsoBench:基于同构表示的多模态基础模型基准测试】
当前,基础模型在仅使用文本或同时使用图像和文本输入时,可以表现出令人印象深刻的能力。但是,它们的能力会随着输入模态的不同而改变吗?
来自杜克大学、南加州大学的研究团队提出了一个基准数据集IsoBench,其中包含数学、科学、算法和游戏四大领域的问题。每个示例都有多种同构输入表示,如视觉、文本和数学表示。IsoBench提供细粒度的反馈,从而诊断由表示形式造成的性能差距。
研究团队表示,在各种基础模型中,在同一问题上,模型对文本表示形式的偏好是一致的。最突出的是,在对所有IsoBench问题进行评估时,当输入图片而不是文本时,Claude-3Opus的性能要差28.7分,GPT-4Turbo要差18.7分,GeminiPro要差14.9分。此外,研究团队也介绍了两种提示技术——IsoCombination和IsoScratchPad,这两种技术通过考虑不同输入表述的组合和转换来提高模型性能。
第10章其他
【智谱AI、清华团队提出ChatGLM-Math,增强LLM解决数学问题的能力】
大型语言模型(LLMs)已经展示出对人类语言的出色学习能力,但在需要解决数学问题的实际应用中仍然表现不佳。虽然先前的研究开发了许多策略和数据集来提高LLM的数学能力,但要同时保持和提高已部署LLM的语言和数学能力仍然是一项挑战。
在这项工作中,来自智谱AI和清华大学的研究团队,定制了“自我批判”(Self-Critique)流程,在LLM的对齐阶段解决了这一挑战。他们首先从LLM自身训练一个通用的数学批判模型,从而提供反馈信号;然后,依次对LLM自身生成的数据收集采用拒绝采样微调(rejectivefine-tuning)和直接偏好优化。
基于ChatGLM3-32B,他们在学术数据集和新创建的挑战性数据集MathUserEval上进行了一系列实验。结果表明,这一流程显著增强了LLM的数学问题解决能力,同时还提高了其语言能力,性能超过了可能是其两倍大的LLM。
【Meta新研究:大模型的端到端推理加速】
来自Meta的研究团队及其合作者,提出了一种端到端的大型语言模型(LLM)推理加速解决方案——LayerSkip。
首先,在训练过程中,他们采用了层间丢弃技术,早期层间丢弃率较低,后期层间丢弃率较高。其次,在推理过程中,他们证明这种训练方法提高了早期退出的准确性,而无需在模型中添加任何辅助层或模块。第三,他们提出了一种新型自我推测解码方案,即在早期层退出,并通过模型的其余层进行验证和校正。与其他推测式解码方法相比,该方法占用的内存更少,并能从共享计算以及草稿和验证阶段的激活中获益。
他们在不同大小的Llama模型上进行了不同类型的训练实验:从头开始预训练、持续预训练、针对特定数据域的微调以及针对特定任务的微调。他们验证了推理解决方案,结果表明,CNN/DM文档的摘要处理速度提高了2.16倍,编码速度提高了1.82倍,TOPv2语义解析任务的速度提高了2.0倍。
【超越思维链(CoT),大模型的“Chain-of-X”范式调查】
思维链(CoT)是一种被广泛采用的提示方法,能激发大型语言模型(LLM)令人印象深刻的推理能力。受CoT的顺序思维结构的启发,人们开发了许多Chain-of-X(CoX)方法,从而应对涉及LLM的不同领域和任务中的各种挑战。
在这项工作中,来自上海交通大学、加州大学圣地亚哥分校的研究团队及其合作者,全面考察了不同背景下的LLMsChain-of-X方法。具体来说,他们按照节点分类法(即CoX中的X)和应用任务对这些方法进行了分类。他们还讨论了现有CoX方法的发现和影响,以及潜在的未来方向。
【SnapKV:免微调,将KV缓存的大小降到最低】
为此,来自伊利诺伊大学厄巴纳香槟分校、Cohere和普林斯顿大学的研究团队,提出了一种创新的免微调方法SnapKV,有效地将KV缓存的大小降到最低,同时在实际应用中产生了相当的性能。
该方法大大减少了处理长输入序列时不断增加的计算开销和内存占用。具体来说,在处理16Ktoken输入时,SnapKV实现了稳定的解码速度,与基线相比,生成速度提高了3.6倍,内存效率提高了8.2倍。同时,在处理16个长序列数据集时,它的性能与基线模型相当。此外,只需稍作改动,SnapKV就可以在单个A100-80GBGPU上实现处理多达380K的上下文token,在Needle-in-a-Haystack测试中表现出的准确率下降可以忽略不计。进一步的综合研究表明,SnapKV具有实际应用的潜力。
【微软、清华团队提出多头混合专家MH-MoE】
稀疏混合专家(SMoE)模型可在不显著增加训练和推理成本的情况下扩展模型容量,但存在以下两个问题:专家激活率低,只有一小部分专家被激活用于优化;缺乏对单个token中多个语义概念的细粒度分析能力。
以英语为重点的语言建模、多语言语言建模和掩码多模态建模任务的大量实验,证明了MH-MoE的有效性。
【英伟达提出扩散模型采样新方法AlignYourSteps】
【TriForce:利用分层投机解码无损加速长序列生成】
最近,随着大型语言模型(LLMs)被广泛应用于长内容生成,对高效长序列推理支持的需求日益增长。
然而,为避免重复计算而存储的键值(KV)缓存已成为一个关键瓶颈,其大小随序列长度呈线性增长。由于LLM的自动递归特性,每生成一个token就会加载整个KV缓存,从而导致计算核心利用率低而延迟高。虽然已经提出了各种KV缓存压缩方法来缓解这一问题,但这些方法都会导致生成质量下降。
来自卡内基梅隆大学和Meta的研究团队提出了一种可扩展至长序列生成的分层推测解码系统TriForce。这种方法通过检索利用原始模型权重和动态稀疏KV缓存作为草稿模型,作为层次结构中的中间层,并由更小的模型进一步推测,从而减少其草稿延迟。TriForce不仅为Llama2-7B-128K带来了令人印象深刻的速度提升,在A100GPU上实现了高达2.31倍的速度,而且还展示了在处理更长上下文时的可扩展性。在两个RTX4090GPU上的卸载设置中,TriForce实现了0.108s/token的速度,仅为A100上自动回归基线速度的一半,而在优化的卸载系统上则达到了7.78倍。此外,TriForce在单个RTX4090GPU上的性能是DeepSpeed-Zero-Inference的4.86倍。
【GoogleDeepMind新研究:多样本上下文学习】
目前,大型语言模型(LLMs)最擅长的是“少样本上下文学习”(ICL)——即在推理时从上下文中提供的少数几个示例中学习,而不进行任何权重更新。新扩展的上下文窗口允许用数百或数千个案例来研究ICL——多样本模式,从少样本到多样本,在各种生成性和判别性任务中观察到显著的性能提升。
然而,虽然多样本ICL前景广阔,但可能会受到人类生成示例可用数量的瓶颈制约。
为此,来自GoogleDeepMind的研究团队探索了两种新的设置:强化ICL和无监督ICL。强化ICL使用模型生成的思维链理由来代替人类示例;无监督ICL则完全取消了提示中的理由,只用特定领域的问题来提示模型。他们发现,强化型和无监督型ICL在多轮推理,尤其是在复杂推理任务中都非常有效。
实验证明,与少样本学习不同,多样本学习在覆盖预训练偏差方面是有效的,并可以学习具有数值输入的高维函数。他们的分析还揭示了下一个token预测损失作为下游ICL性能指标的局限性。
【清华、荣耀提出SparseDM:迈向稀疏高效扩散模型】
为了提高扩散模型的部署效率,来自清华大学、荣耀的研究团队提出了一种基于改进的Straight-ThroughEstimator的方法。
具体来说,他们在预训练好的扩散模型的卷积层和线性层中添加稀疏掩码,然后在微调阶段使用设计渐进稀疏性进行模型训练,并开关推理掩码,从而支持在推理过程中根据FID和MACs要求灵活选择稀疏性。在基于Transformer的SOTA模型的四个数据集上进行的实验表明,这一方法可以将MACs降低50%,而FID平均仅增加1.5。在其他MACs条件下,与其他方法相比,FID也低于1~137。
【谷歌推出新型Transformer架构:反馈注意力就是工作记忆】
虽然Transformer给深度学习带来了革命性的变化,但二次注意力复杂性阻碍了其处理无限长输入的能力。
实验表明,TransformerFAM显著提高了Transformer在各种模型大小(1B、8B和24B)的长上下文任务中的性能。
【高通新研究:提高多模态大型语言模型的推理速度】
多模态大型语言模型(MLLMs)的推理速度很慢,这是因为其大型语言模型骨干存在内存带宽瓶颈,并且会自动递归生成token。