1.北大团队提出「自定义漫画生成」框架
故事可视化是从文本描述创建视觉叙事的任务,文本到图像的生成模型已经取得了进展。然而,这些模型往往缺乏对角色外观和互动的有效控制,尤其是在多角色场景中。
为了解决这些局限性,来自北京大学的研究团队及其合作者提出了一项新任务:自定义漫画生成,并提出了DiffSensei,这是一个专门用于生成动态多角色控制漫画的创新框架。DiffSensei集成了基于扩散的图像生成器和多模态大语言模型(MLLM),后者是一种文本兼容身份适配器。他们的方法采用了掩码交叉注意力技术,可无缝整合字符特征,从而在不直接传输像素的情况下实现精确的布局控制。此外,基于MLLM的适配器还能调整角色特征,使其与特定面板的文本线索保持一致,从而灵活调整角色的表情、姿势和动作。
他们还提出了MangaZero,这是一个专为这项任务定制的大型数据集,包含43264页漫画和427147个注释面板,支持跨连续帧的各种角色互动和动作的可视化。广泛的实验证明,DiffSensei的性能优于现有模型,通过实现文本适应性角色定制,标志着漫画生成技术的重大进步。
论文链接:
项目地址:
2.UniReal:通过学习真实世界动态实现通用图像生成和编辑
来自香港大学和AdobeResearch的研究团队提出了UniReal,这是一个旨在解决各种图像生成和编辑任务的统一框架。现有的解决方案往往因任务而异,但都有一个基本原则:在捕捉视觉变化的同时保持输入和输出之间的一致性。最近的视频生成模型有效地平衡了帧间的一致性和变化,受此启发,他们提出了一种统一的方法,将图像级任务视为不连续的视频生成。
3.苹果团队提出「可扩展视频生成」方法
视频生成领域已经取得了令人瞩目的进步,但我们仍然迫切需要一个清晰、系统的方法来指导开发鲁棒、可扩展的模型。在这项工作中,来自苹果公司和加州大学的研究团队进行了一项全面的研究,系统地探讨了模型架构、训练方法和数据整理策略之间的相互作用,并提出了一种名为STIV的简单、可扩展的文本、图像条件视频生成方法。
他们的框架通过帧置换将图像条件整合到扩散Transformer(DiT)中,同时通过联合图像-文本条件无分类器引导整合文本条件。这种设计使STIV能够同时执行文本到视频(T2V)和文本到图像到视频(TI2V)任务。此外,STIV还能轻松扩展到各种应用中,如视频预测、帧插值、多视图生成和长视频生成等。通过对T2I、T2V和TI2V进行全面的消融研究,STIV尽管设计简单,却表现出了强大的性能。
分辨率为512的8.7B参数模型在VBenchT2V上达到83.1,超过了CogVideoX-5B、Pika、Kling和Gen-3等领先的开源和闭源模型。在分辨率为512的VBenchI2V任务中,同样大小的模型也取得了90.1的SOTA成绩。通过提供用于构建尖端视频生成模型的透明且可扩展的方法,他们旨在增强未来研究的能力,并加快实现更通用、更可靠的视频生成解决方案。
4.利用扩散Transformer进行视频运动迁移
来自牛津大学和Snap的研究团队提出了DiTFlow,这是一种将参考视频的运动迁移到新合成视频的方法,专为扩散Transformer(DiT)而设计。他们首先用预先训练好的DiT处理参考视频,分析跨帧注意力图并提取称为注意力运动流(AMF)的片段运动信号。
他们以一种基于优化、无需训练的方式指导潜隐去噪过程,利用他们的AMF损失优化潜隐,生成再现参考视频运动的视频。他们还将优化策略应用于Transformer位置嵌入,从而提高了零样本运动迁移能力。他们将DiTFlow与最近发布的方法进行了对比评估,结果显示DiTFlow在多项指标和人工评估方面均优于所有方法。
5.ObjCtrl-2.5D:无需训练的「图生视频」目标控制方法
这项研究旨在图像到视频(I2V)生成过程中实现更精确、更多用途的目标控制。目前的方法通常使用二维轨迹来表示目标对象的空间运动,这种方法往往无法捕捉用户的意图,而且经常产生不自然的结果。
为了增强控制效果,南洋理工大学研究团队提出了ObjCtrl-2.5D,这是一种无需训练的目标控制方法,它使用从带有深度信息的二维轨迹扩展而来的三维轨迹作为控制信号。通过将物体运动建模为相机运动,ObjCtrl-2.5D将三维轨迹表示为相机姿态序列,从而无需训练即可使用现有的相机运动控制I2V生成模型(CMC-I2V)进行物体运动控制。为了使最初为全局运动控制而设计的CMC-I2V模型适应于处理局部物体运动,他们引入了一个模块,将目标物体从背景中分离出来,从而实现独立的局部控制。此外,他们还设计了一种有效方法,通过跨帧共享对象区域内的低频翘曲潜影,实现更精确的对象控制。
大量实验证明,与无需训练的方法相比,ObjCtrl-2.5D能显著提高物体控制精度,与使用二维轨迹的基于训练的方法相比,ObjCtrl-2.5D能提供更多样化的控制能力,实现物体旋转等复杂效果。
6.Moxin-7B:一个完全开源的大语言模型
虽然开源大语言模型(LLM)为创新和研究提供了前所未有的机会,但LLM的商业化也引发了对透明度、可重复性和安全性的担忧。许多开源LLM未能满足基本的透明度要求,因为它们未公开训练代码和数据等重要组件,而且有些LLM在声称“开源”的同时还使用了限制性许可证,这可能会阻碍LLM的进一步创新。
为了缓解这一问题,来自美国东北大学的研究团队及其合作者推出了Moxin-7B,它是一个完全开源的LLM,是根据模型开放性框架(MOF)开发的。MOF是一个等级分类系统,根据模型的完整性和开放性对人工智能模型进行评估,坚持开放科学、开放源代码、开放数据和开放访问的原则。通过全面发布预训练代码和配置、训练和微调数据集以及中间和最终检查点,他们的模型达到了MOF分类的最高级别“开放科学”。
实验表明,与流行的7B参数模型相比,他们的模型在零样本评估中取得了更优越的性能,在少样本中也具有竞争力。
7.微软研究院:创建多用途、高质量3D资产
微软研究院团队提出了一种新颖的3D生成方法,用于创建多用途和高质量的3D资产。该方法基于统一的结构化潜在(SLAT)表征,它允许解码为不同的输出格式,如辐射场、3D高斯和网格。这是通过将稀疏填充的3D网格与从强大的视觉基础模型中提取的密集多视角视觉特征相结合来实现的,既能全面捕捉结构(几何)和纹理(外观)信息,又能在解码过程中保持灵活性。
他们采用为SLAT量身定制的整流transformers作为3D生成模型,并在包含500K个不同对象的大型3D资产数据集上训练参数多达20亿参数的模型。他们的模型可在文本或图像条件下生成高质量的结果,大大超越了现有的方法,包括最近类似规模的方法。他们展示了灵活的输出格式选择和本地3D编辑功能,这是以前的模型所不具备的。
8.智源推出视觉条件多视角扩散模型
近期的3D生成模型通常依赖于有限规模的3D“黄金标签”或2D扩散先验来创建3D内容。然而,由于缺乏可扩展的学习范例,它们的性能受到3D先验的限制。
在这项工作中,北京智源人工智能研究院团队推出了一个视觉条件多视角扩散模型——See3D,该模型在大规模互联网视频上训练,可用于开放世界的3D创作。该模型的目的是通过从海量且快速增长的视频数据中获取视觉内容来获取3D知识。
他们在单一和稀疏重建基准上进行的数值和视觉比较表明,See3D在经济高效且可扩展的视频数据上经过训练后,实现了显著的零样本和开放世界生成能力,明显优于在昂贵且受限的3D数据集上训练的模型。
9.Turbo3D:超快速文本到3D生成
来自卡内基·梅隆大学、麻省理工学院和AdobeResearch的研究团队提出了Turbo3D,这是一种超快速文本到3D系统,能够在一秒内生成高质量的高斯拼接资产。
Turbo3D采用快速的4步4视图扩散生成器和高效的前馈高斯重构器,两者均在潜空间运行。4步4视图生成器是通过新颖的双教师方法提炼出的学生模型,该方法鼓励学生从多视图教师那里学习视图一致性,从单视图教师那里学习照片逼真度。
10.Meta提出可持续思维链:让大模型在连续潜空间中推理
大语言模型(LLM)仅限在“语言空间”中进行推理,通常用思维链(CoT)来表达推理过程,从而解决复杂的推理问题。然而,来自Meta和加州大学圣地亚哥分校的研究团队认为,语言空间并不总是最佳推理空间。例如,大多数单词token主要是为了保持文本的连贯性,对推理并不重要,而一些关键token则需要复杂的规划,给LLM带来了巨大的挑战。
为了探索LLM在不受限制的潜空间中进行推理的潜力,而不是使用自然语言,他们提出了一种新的范式——可持续思维链(Coconut)。他们利用LLM的最后一个隐藏状态来表示推理状态(称为“连续思维”)。他们没有将其解码为单词token,而是将其反馈给LLM,作为直接嵌入连续空间的后续输入。实验表明,Coconut可以在多项推理任务中有效增强LLM。
这种新颖的潜在推理范式带来了新兴的高级推理模式:连续思维可以编码多个可供选择的下一步推理步骤,使模型能够执行广度优先搜索(BFS)来解决问题,而不是像CoT那样过早地进行单一的确定性路径。在某些逻辑推理任务中,Coconut的表现优于CoT,因为在规划过程中需要大量的回溯,而在推理过程中则需要较少的思考token。
11.GameArena:通过实时电脑游戏评估LLM推理
加州大学团队提出了GameArena,这是一个动态基准,旨在通过与人类的互动游戏来评估LLM的推理能力。GameArena由三个游戏组成,旨在测试特定的推理能力(如演绎推理和归纳推理),同时让参与者保持娱乐和参与。
他们对游戏数据进行回顾性分析,以揭示LLM的基本推理过程,并测量他们的细粒度推理能力。他们收集了2000多场游戏会话,并对五种SOTA的LLM的各种推理能力进行了详细评估。他们对100名参与者进行的用户研究表明,与ChatbotArena相比,GameArena提高了用户参与度,首次实现了在自然环境中收集逐步LLM推理数据。