Meta提出“可持续思维链”,让大模型在连续潜空间中推理|大模型日报高斯meta

1.北大团队提出「自定义漫画生成」框架

故事可视化是从文本描述创建视觉叙事的任务,文本到图像的生成模型已经取得了进展。然而,这些模型往往缺乏对角色外观和互动的有效控制,尤其是在多角色场景中。

为了解决这些局限性,来自北京大学的研究团队及其合作者提出了一项新任务:自定义漫画生成,并提出了DiffSensei,这是一个专门用于生成动态多角色控制漫画的创新框架。DiffSensei集成了基于扩散的图像生成器和多模态大语言模型(MLLM),后者是一种文本兼容身份适配器。他们的方法采用了掩码交叉注意力技术,可无缝整合字符特征,从而在不直接传输像素的情况下实现精确的布局控制。此外,基于MLLM的适配器还能调整角色特征,使其与特定面板的文本线索保持一致,从而灵活调整角色的表情、姿势和动作。

他们还提出了MangaZero,这是一个专为这项任务定制的大型数据集,包含43264页漫画和427147个注释面板,支持跨连续帧的各种角色互动和动作的可视化。广泛的实验证明,DiffSensei的性能优于现有模型,通过实现文本适应性角色定制,标志着漫画生成技术的重大进步。

论文链接:

项目地址:

2.UniReal:通过学习真实世界动态实现通用图像生成和编辑

来自香港大学和AdobeResearch的研究团队提出了UniReal,这是一个旨在解决各种图像生成和编辑任务的统一框架。现有的解决方案往往因任务而异,但都有一个基本原则:在捕捉视觉变化的同时保持输入和输出之间的一致性。最近的视频生成模型有效地平衡了帧间的一致性和变化,受此启发,他们提出了一种统一的方法,将图像级任务视为不连续的视频生成。

3.苹果团队提出「可扩展视频生成」方法

视频生成领域已经取得了令人瞩目的进步,但我们仍然迫切需要一个清晰、系统的方法来指导开发鲁棒、可扩展的模型。在这项工作中,来自苹果公司和加州大学的研究团队进行了一项全面的研究,系统地探讨了模型架构、训练方法和数据整理策略之间的相互作用,并提出了一种名为STIV的简单、可扩展的文本、图像条件视频生成方法。

他们的框架通过帧置换将图像条件整合到扩散Transformer(DiT)中,同时通过联合图像-文本条件无分类器引导整合文本条件。这种设计使STIV能够同时执行文本到视频(T2V)和文本到图像到视频(TI2V)任务。此外,STIV还能轻松扩展到各种应用中,如视频预测、帧插值、多视图生成和长视频生成等。通过对T2I、T2V和TI2V进行全面的消融研究,STIV尽管设计简单,却表现出了强大的性能。

分辨率为512的8.7B参数模型在VBenchT2V上达到83.1,超过了CogVideoX-5B、Pika、Kling和Gen-3等领先的开源和闭源模型。在分辨率为512的VBenchI2V任务中,同样大小的模型也取得了90.1的SOTA成绩。通过提供用于构建尖端视频生成模型的透明且可扩展的方法,他们旨在增强未来研究的能力,并加快实现更通用、更可靠的视频生成解决方案。

4.利用扩散Transformer进行视频运动迁移

来自牛津大学和Snap的研究团队提出了DiTFlow,这是一种将参考视频的运动迁移到新合成视频的方法,专为扩散Transformer(DiT)而设计。他们首先用预先训练好的DiT处理参考视频,分析跨帧注意力图并提取称为注意力运动流(AMF)的片段运动信号。

他们以一种基于优化、无需训练的方式指导潜隐去噪过程,利用他们的AMF损失优化潜隐,生成再现参考视频运动的视频。他们还将优化策略应用于Transformer位置嵌入,从而提高了零样本运动迁移能力。他们将DiTFlow与最近发布的方法进行了对比评估,结果显示DiTFlow在多项指标和人工评估方面均优于所有方法。

5.ObjCtrl-2.5D:无需训练的「图生视频」目标控制方法

这项研究旨在图像到视频(I2V)生成过程中实现更精确、更多用途的目标控制。目前的方法通常使用二维轨迹来表示目标对象的空间运动,这种方法往往无法捕捉用户的意图,而且经常产生不自然的结果。

为了增强控制效果,南洋理工大学研究团队提出了ObjCtrl-2.5D,这是一种无需训练的目标控制方法,它使用从带有深度信息的二维轨迹扩展而来的三维轨迹作为控制信号。通过将物体运动建模为相机运动,ObjCtrl-2.5D将三维轨迹表示为相机姿态序列,从而无需训练即可使用现有的相机运动控制I2V生成模型(CMC-I2V)进行物体运动控制。为了使最初为全局运动控制而设计的CMC-I2V模型适应于处理局部物体运动,他们引入了一个模块,将目标物体从背景中分离出来,从而实现独立的局部控制。此外,他们还设计了一种有效方法,通过跨帧共享对象区域内的低频翘曲潜影,实现更精确的对象控制。

大量实验证明,与无需训练的方法相比,ObjCtrl-2.5D能显著提高物体控制精度,与使用二维轨迹的基于训练的方法相比,ObjCtrl-2.5D能提供更多样化的控制能力,实现物体旋转等复杂效果。

6.Moxin-7B:一个完全开源的大语言模型

虽然开源大语言模型(LLM)为创新和研究提供了前所未有的机会,但LLM的商业化也引发了对透明度、可重复性和安全性的担忧。许多开源LLM未能满足基本的透明度要求,因为它们未公开训练代码和数据等重要组件,而且有些LLM在声称“开源”的同时还使用了限制性许可证,这可能会阻碍LLM的进一步创新。

为了缓解这一问题,来自美国东北大学的研究团队及其合作者推出了Moxin-7B,它是一个完全开源的LLM,是根据模型开放性框架(MOF)开发的。MOF是一个等级分类系统,根据模型的完整性和开放性对人工智能模型进行评估,坚持开放科学、开放源代码、开放数据和开放访问的原则。通过全面发布预训练代码和配置、训练和微调数据集以及中间和最终检查点,他们的模型达到了MOF分类的最高级别“开放科学”。

实验表明,与流行的7B参数模型相比,他们的模型在零样本评估中取得了更优越的性能,在少样本中也具有竞争力。

7.微软研究院:创建多用途、高质量3D资产

微软研究院团队提出了一种新颖的3D生成方法,用于创建多用途和高质量的3D资产。该方法基于统一的结构化潜在(SLAT)表征,它允许解码为不同的输出格式,如辐射场、3D高斯和网格。这是通过将稀疏填充的3D网格与从强大的视觉基础模型中提取的密集多视角视觉特征相结合来实现的,既能全面捕捉结构(几何)和纹理(外观)信息,又能在解码过程中保持灵活性。

他们采用为SLAT量身定制的整流transformers作为3D生成模型,并在包含500K个不同对象的大型3D资产数据集上训练参数多达20亿参数的模型。他们的模型可在文本或图像条件下生成高质量的结果,大大超越了现有的方法,包括最近类似规模的方法。他们展示了灵活的输出格式选择和本地3D编辑功能,这是以前的模型所不具备的。

8.智源推出视觉条件多视角扩散模型

近期的3D生成模型通常依赖于有限规模的3D“黄金标签”或2D扩散先验来创建3D内容。然而,由于缺乏可扩展的学习范例,它们的性能受到3D先验的限制。

在这项工作中,北京智源人工智能研究院团队推出了一个视觉条件多视角扩散模型——See3D,该模型在大规模互联网视频上训练,可用于开放世界的3D创作。该模型的目的是通过从海量且快速增长的视频数据中获取视觉内容来获取3D知识。

他们在单一和稀疏重建基准上进行的数值和视觉比较表明,See3D在经济高效且可扩展的视频数据上经过训练后,实现了显著的零样本和开放世界生成能力,明显优于在昂贵且受限的3D数据集上训练的模型。

9.Turbo3D:超快速文本到3D生成

来自卡内基·梅隆大学、麻省理工学院和AdobeResearch的研究团队提出了Turbo3D,这是一种超快速文本到3D系统,能够在一秒内生成高质量的高斯拼接资产。

Turbo3D采用快速的4步4视图扩散生成器和高效的前馈高斯重构器,两者均在潜空间运行。4步4视图生成器是通过新颖的双教师方法提炼出的学生模型,该方法鼓励学生从多视图教师那里学习视图一致性,从单视图教师那里学习照片逼真度。

10.Meta提出可持续思维链:让大模型在连续潜空间中推理

大语言模型(LLM)仅限在“语言空间”中进行推理,通常用思维链(CoT)来表达推理过程,从而解决复杂的推理问题。然而,来自Meta和加州大学圣地亚哥分校的研究团队认为,语言空间并不总是最佳推理空间。例如,大多数单词token主要是为了保持文本的连贯性,对推理并不重要,而一些关键token则需要复杂的规划,给LLM带来了巨大的挑战。

为了探索LLM在不受限制的潜空间中进行推理的潜力,而不是使用自然语言,他们提出了一种新的范式——可持续思维链(Coconut)。他们利用LLM的最后一个隐藏状态来表示推理状态(称为“连续思维”)。他们没有将其解码为单词token,而是将其反馈给LLM,作为直接嵌入连续空间的后续输入。实验表明,Coconut可以在多项推理任务中有效增强LLM。

这种新颖的潜在推理范式带来了新兴的高级推理模式:连续思维可以编码多个可供选择的下一步推理步骤,使模型能够执行广度优先搜索(BFS)来解决问题,而不是像CoT那样过早地进行单一的确定性路径。在某些逻辑推理任务中,Coconut的表现优于CoT,因为在规划过程中需要大量的回溯,而在推理过程中则需要较少的思考token。

11.GameArena:通过实时电脑游戏评估LLM推理

加州大学团队提出了GameArena,这是一个动态基准,旨在通过与人类的互动游戏来评估LLM的推理能力。GameArena由三个游戏组成,旨在测试特定的推理能力(如演绎推理和归纳推理),同时让参与者保持娱乐和参与。

他们对游戏数据进行回顾性分析,以揭示LLM的基本推理过程,并测量他们的细粒度推理能力。他们收集了2000多场游戏会话,并对五种SOTA的LLM的各种推理能力进行了详细评估。他们对100名参与者进行的用户研究表明,与ChatbotArena相比,GameArena提高了用户参与度,首次实现了在自然环境中收集逐步LLM推理数据。

THE END
1.数字图书馆市场报告:创新科技为数字图书馆建设奠定技术基石,赋能根据恒州诚思发布的数字图书馆市场报告,这份报告提供数字图书馆市场的情况,定义,分类,应用和产业链结构,同时还讨论发展政策和计划以及制造流程和成本结构,分析数字图书馆市场的发展现状与未来市场趋势。并从生产与消费两个角度来分析数字图书馆市场的主要生产地区、主要消费地区以及主要的生产商。 https://yhresearch.cn/news/8280/digital-library
2.模型创新产品洗牌行业动态:一文读尽年度AI十大趋势在AI+情境中,AI多以生产力工具角色出现,渗透行业各环节;在AI原生情境中,行业则从?开始就基于AI技术发展。 量子位智库在《2024年度AI十大趋势报告》中分析了AI在智能驾驶、具身智能、智能硬件、游戏、影视、营销、教育、医疗8个场景的落地效果和行业特点。 https://www.csdn.net/article/2024-12-11/144397190
3.2025年中国数字图书馆市场调研:政策产业链现状与前景网络文学影响:网络文学作为数字图书馆馆藏重要组成部分,历经三十年发展,已对文学生产关系产生深远影响。截至2023年底,网络文学用户规模达5.37亿,多部网文作品入藏国家图书馆及国际图书馆,网络文学综合影响力显著提升。 五、未来趋势研判:数智化转型与全领域服务覆盖 https://www.168report.com/news/7856/digital-library
4.现代化图书馆发展(精选十篇)图书馆是一个有机的整体, 只有加强彼此间的协调与合作, 才能最大限度地利用文献资源, 实现真正意义上的资源共享。其最终目的还在于最大限度地开发馆藏资源, 更好地为读者服务。馆际之间的合作是图书馆适应现代信息社会发展的必然趋势, 各图书馆间分工合作, 互通有无, 为读者提供了越来越广泛的信息服务。因此, https://www.360wenmi.com/f/cnkeyi9stpei.html
5.维普期刊资源整合服务平台(试用)山东理工大学镜像:http://222.206.65.19/ 网络包库:http://cstj.cqvip.com 数据库简介:《CSTJ维普期刊资源整合服务平台》是重庆维普资讯有限公司推出的中文期刊资源一站式服务平台,是从单纯的全文保障服务延伸到引文、情报等服务的产品。服务贯穿读者对期刊资源使用需求的各个环节。平台提供多层次、纵深度的集成期刊https://lib.sdut.edu.cn/resource/53
6.数字化时代党校图书馆10篇(全文)一、党校图书馆未来发展趋势 (一) 图书馆资源特点。随着互联网的普及, 党校图书馆也逐渐实现了资源的数字化和特色化。在数字化高速发展的今天, 馆藏和网上资源共同组成一个藏馆, 而与线下实体资源比起来, 线上的资源更加丰富。对于党校图书馆来说, 网上的资源也是其提升自身信息服务能力的重要因素, 党校图书馆要https://www.99xueshu.com/w/ikey34yvb9db.html
7.光盘行动存在的问题精选4篇四、光盘存储技术未来发展的趋势 随着高科技的不断推广和运用,图书馆资料的存储技术已经有了很明显的提升,现展中,新环境构成下图书馆资料储存中光盘媒介的应用,大大提高工作人员的工作效率,使图书馆的管理技术和管理水平得到了快速提升,对于推动我国图书馆事业的持续发展具有重要现实意义。 http://www.paomian.net/fanwen/all/581206.html
8.期刊工作发展趋势四川省社会科学院天府智库社科院简介图书馆期刊工作要适应新形势的变化,必须与时俱进、不断创新。未来期刊工作呈现出如下发展趋势。 第一节 采访难度加大 共建共享成风 随着期刊数量的剧增和载体形式多样化,期刊本身的分合更为频繁,期刊发行的渠道增多,期刊评价系统的多样化,这些因素使未来期刊的采访难度增大。为了共同克服采访工作中碰到的难题、提高效益http://www.sass.cn/911064/3682.aspx
9.2016年度报告年度报告及章程规划重庆市渝北区图书馆2016年渝北区图书馆在全馆职工的共同努力下,在区文化委的坚强领导下,以中央、市、区《关于加快构建现代公共文化服务体系的实施意见》为指导,紧紧围绕“读者第一,服务至上”的宗旨,圆满完成了各项工作任务。现将2016年工作总结和2017年工作计划汇报如下: https://www.cqybtsg.org.cn/index.php?c=article&id=483
10.科学网—医学信息利用的新发展此外,全面参与数字化教育、授课教学管理及技术管理,与教师开展合作,共同设计多媒体教学课件、网站和课程主页,并协作发展图书馆信息网络,创建面向E-Learning的数字图书馆,目前也已成为众多图书馆涉足E-Learning领域开展服务方向之一,包括我国北京大学图书馆、清华大学图书馆等少数图书馆在内。 (四)E-learning主要发展趋势 https://blog.sciencenet.cn/blog-280034-389540.html
11.图书馆个人工作总结(通用15篇)我校图书馆阅览室和藏书室面积较小,不符合上级文件精神,如果管理工作跟不上,进入合格图书馆行列就有困难。我上任之初认识到重新规划图书馆的重要性,决心要用合理的制度管理带动起我校图书馆的发展。 二、建立图书馆档案资料管理,力求完整明确 我校图书馆原始资料很少,基础工作比较薄弱,我认真地研读了《上海市中小学https://www.oh100.com/a/202303/6303762.html
12.图书馆年度工作个人总结(精选12篇)在工作中,能够运用马克思主义立场、观点和方法,分析、研究和解决图书馆工作中的各种实际问题,积极应对现代高校图书馆的发展趋势和发展方向。充分肯定和调动新校区图书馆各部门的开拓创新能力,使各部们之间协调发展,各尽其责,理论水平得到了长足的进步。 二、岗位职责履行 https://www.aixizuo.com/article/48934.html