抢鲜实测腾讯最新AI视频模型!超写实质感,还会自动切镜头混元知名企业

一只戴着红色围巾的企鹅闯进了火热的AI视频战场。

刚刚,腾讯混元发布了AI视频生成大模型。

AI文生视频功能已经在腾讯元宝上线,大家可以点击“腾讯元宝App-AI应用-AI视频”来申请试用。企业客户可通过腾讯云提供服务接入,API同步开放内测申请。

腾讯元宝AI视频页面

据官方数据,与国内外多个顶尖模型的评测对比显示,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先,在人物、人造场所等场景下表现尤为出色。

更夸张的是,混元视频生成模型的参数量达130亿,腾讯直接对外开源了,包含模型权重、推理代码、模型算法等完整模型,企业和个人开发者可以在HuggingFace、Github上免费使用和开发生态插件。

这可是目前最大的视频开源模型。市面上免费的AI视频产品很少,腾讯这把还是太豪了。

近几个月来,海内外闭源的AI视频模型已经卷到飞起,腾讯这时候开源的模型效果究竟如何?

“AI新榜”参与了最近混元视频的小范围内测,已经上线的文生视频默认生成时长为5秒,支持中英文双语输入,可以选择多种视频尺寸和清晰度,该有的基本功能都有了。

根据我们的测试案例来看,混元视频模型擅长写实的视觉风格,对于提示词的理解遵循比较出色,运动幅度也比较大,画面质量在一众AI视频产品中位于前列。

尤其令人惊喜的是,混元视频原生支持多镜头切换,可以在5秒内保持同一主体自动切镜。

基于混元视频,我们生成了这条AI猫猫泡温泉的短视频,有没有萌到你呢?

混元文生视频五大能力实测

我们从视觉风格、语义理解、运动表现、运镜和文字生成5个方面,对混元文生视频进行了实测。

1.视觉风格

先来看看混元在面对多元化风格提示词的适应性和表现力,官方预设的风格包括写实、动画、电影、黑白和赛博朋克。

一位正在弹钢琴的小女孩,背后挂满星星灯,温暖的家庭客厅,摆满了圣诞装饰,镜头从小女孩的背后平移环绕到侧面,特写与中景交替,柔和暖光,童话般梦幻。

乍一看,这个例子很像现实拍摄的场景,除了“星星灯”的位置不对以外,整体的光影和氛围感很真实、温馨,小女孩的手指也未出现畸变,运镜很平稳。

圣诞老人坐着雪橇滑行在下着雪的街道,街道两旁是乐高积木搭建的房屋,屋顶上覆盖着厚厚的积雪,全景镜头,镜头略微推近,乐高动画风格,具有乐高积木的独特质感。场景中充满了童趣和幻想,展现出一个充满欢乐和奇迹的圣诞节。

乐高动画风格的圣诞创意街景非常生动,甚至雪橇的运动还模拟出了乐高积木坚硬的感觉。

卓别林正在流水线上忙碌地工作,双手拿着扳手不停地拧螺丝,使用黑白电影风格拍摄,默片,老电影,中景,StaticHigh-qualityBlackandwhite

黑白风格的画面还有胶片特有的颗粒感,卓别林的形象也比较准确,不过现实中其他名人或IP形象为避免侵权是无法生成的,比如马斯克、Hellokitty。

总的来说,混元基本能在呈现特定艺术风格和元素的同时,保持画面的整体美感与和谐性,但整体效果仍偏写实。

2.语义理解

文生视频最关键的部分就是提示词,不仅关系到生成视频的视觉一致性,也决定着最终生成内容能否满足创作者的预期表达。

一般来说,建议大家输入具体的、结构化的提示词,包括主体特征、场景描述、情感氛围、光线运用和运镜控制等,可以参考以下格式:

用法1:提示词=主体+场景+运动用法2:提示词=主体(主体描述)+场景(场景描述)+运动(运动描述)+(镜头语言)+(氛围描述)+(风格表达)用法3:提示词=主体+场景+运动+(风格表达)+(氛围描述)+(运镜方式)+(光线)+(景别)

懒得想提示词的话,我们创建了一个优化AI视频提示词的智能体,有需要的玩家可以移步腾讯元宝使用。

据腾讯介绍,混元视频模型在技术上引入多模态大模型作为文本编码器,可以更好地理解复杂文本,emoji都能理解,一两百字的提示词不在话下,但是目前5秒时长不建议写这么长。

混元本身也提供了两种优化提示词的模式:Prompt增强和导演模式。

Prompt增强旨在增强视频生成模型对用户意图的理解,从而更准确地解释所提供的说明。

导演模式会增强对构图、光照和摄像机移动等方面的描述,倾向于生成具有更高视觉质量的视频,但这种强化有时也可能会导致丢失一些语义细节。所以大家还要具体需求来选择使用。

像这个小女孩抱着发光熊的例子就开启了导演模式,自动增加了前后移动的运镜效果,泰迪熊的光效柔和自然,小女孩的动作逻辑也很合理。

一个小女孩在温馨的卧室,穿着睡衣抱着一个发光的泰迪熊,梦幻童话风。

而下面这两个提示词本身比较详细,没有开启导演模式。

日漫风格,动画,一个10岁左右的中国小女孩,黑色短发,面容可爱,穿着红色连衣裙和白色运动鞋。她坐在时光机上,脸上露出兴奋和好奇的表情。时光机启动后开始加速,穿越时空隧道。隧道内的光线和色彩不断变化,形成流动的光影效果。镜头从时光机的侧面缓慢跟随,捕捉时光机启动和加速的全过程。场景充满未来感和奇幻氛围,传递出一种冒险和探索的感觉。

可以看到,混元对于复杂的提示词理解还是比较到位的,关键信息都表现出来了,部分细节略有缺失或不一致。

3.运动控制

AI能否根据提示词准确再现主体和场景的动作特征,是否具备真实、自然、流畅的物理表现力,是目前AI生成视频模型的一大难题。同时,运动表现也是衡量画面连贯性的重要标准,细腻流畅的动态细节通常能大大提升画面的真实感。

动态元素常涉及主体的动作、场景的变化以及整体节奏的把控,这些都要求AI生成模型具备高度的物理理解能力和画面细节的动态呈现能力。

戴墨镜的老绅士,拄着拐杖缓慢走在欧洲小镇街道,两旁是咖啡馆和书店,氛围怀旧忧郁,固定镜头,自然光,晨光洒在地面。

一个老人走路的简单动作,混元对于视频主体“戴墨镜的绅士”、场景背景的欧洲小镇街道、两旁的咖啡馆与书店基本都准确呈现,与提示词中的描述一致,老人走路的步伐和拄拐动作也基本协调流畅,氛围方面确实有一种怀旧和忧郁感。

一只可爱的泰迪熊毛绒玩偶在桌面上像人一样跳舞,左右手挥动,双脚交替跳跃,然后转身向上蹦,写实风格,泰迪熊没有穿衣服,脖子上有个小小的黑色领结。

混元文生视频可以根据“[主体描述]+[动作描述]+[然后、过了一会等连接词]+[动作描述2]”的提示词格式,生成两个连贯动作。

可以看到这个视频中的小熊动作非常流畅连贯,除了转身之外,提示词提到的所有动作都完成了,并且在运动过程中保持了主体和背景的一致。

4.运镜

自然流畅的镜头语言如推拉、平移、升降等,以及丝滑的切镜,是展现视频场景的空间感和叙事层次感的关键。

混元本身也有一个“丝滑运镜”的模式,据我们的实测,打开这个模式可以让运镜更流畅平滑,消除镜头移动中的生硬或不自然过渡。

我们在提示词里也加入了对镜头角度、移动方式、景别切换的描述,来看看生成效果。

一名穿连帽衫的涂鸦艺术家,手持喷漆罐创作壁画,城市暗巷,墙面布满色彩鲜艳的涂鸦,艺术家快速挥舞手臂喷涂,颜色渐渐覆盖墙面,街头文化风,色彩浓烈,热血且充满创造力,快速切镜,捕捉喷涂动作与画面细节交替,特写展示喷漆与颜料,中景展现完整画作。

不愧是原生支持切镜,混元准确呈现了喷涂的动作和镜头切换,喷漆和涂鸦的细节也较为细腻。

一辆复古敞篷车快速行驶在沿海公路上,一侧是湛蓝大海,一侧是悬崖峭壁,驾驶者头戴圆形墨镜和丝巾,背景风景逐渐被抛在身后,从近景切换到远景,展现海岸线的壮丽,清晨的阳光,带有些许柔和的金色光晕。

这个例子更是令人惊艳,从驾驶者的第一视角很自然地切换到驾驶者的特写,女人面部的光影明暗变化质感很强,不过墨镜上的映像是固定不变的,不太符合实际。

通常,图生视频可以更好地保持主体一致性,但需要先批量生图再生成视频,现在混元在文生视频上升级了转场切镜能力,简化了操作流程,可以进一步提高视频创作效率。

5.文字生成

相比AI图像模型,目前AI视频模型生成文字的表现普遍不够精准,可以生成较短的英文字母和数字,而生成的中文还无法辨认。

比如混元可以生成英文“AIGC”,彩色灯效也能同时呈现,不过可控性一般,需要多次尝试。

镜头缓缓推近,一面昏暗的墙上有一个灯箱闪烁了几次,然后亮起文字“AIGC”,发出彩色的灯光,赛博朋克风格。

数字也可以生成,我们尝试用草莓来组成数字“6”,虽然草莓掉落的运动还有点问题,但数字形状是准确的。

高速镜头拍摄,把许多草莓向上抛向空中,然后镜头变成俯视拍摄,草莓落到桌面上组成了数字“6”,黑色背景,美食摄影,明亮。

总的来说,腾讯混元AI视频表现出了还不错的综合能力,中英文提示词生成的效果差不多,但也存在一些老生常谈的局限,例如细节处理失真,可控性有待提升,水墨等视觉风格还不够多样化,物理运动和镜头切换可能有不符合常理的地方。

腾讯想要做大AI视频生态

毫无疑问,腾讯混元的入局,让AI视频生成领域的竞争进一步升级。

从技术上看,混元视频基于跟Sora类似的DiT架构,并在架构设计上进行多处升级。混元视频还对多个专项能力进行了微调,包括画质、高动态、艺术镜头、手写、转场、连续动作等,未来将持续迭代增强可控性。

以后我们再提到海内外AI视频产品的封神榜,混元一定是其中的头号玩家。

更重要的是,腾讯选择了走开源这条路,准备将AI视频的生态越做越大。

要知道,相较于图像生成社区,目前,视频生成社区的生态尚未形成气候。一方面,图像生成领域有一批非常成熟的底层模型,并在开源环境下催生了活跃、繁荣的开发者社区。独立开发者可以基于底模和各种Lora,实现1+1>2的效果。

而主流的视频生成模型多为闭源,据腾讯介绍,视频开源模型与闭源模型差距巨大,不仅是算力、数据的巨大差距,而且领先的机构都在闭门造车,与社区脱节。

从年初以来,腾讯混元系列模型的开源速度不断加快。此前,腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。

如今混元视频也全面开源,基于腾讯混元系列的开源模型,开发者及企业无需从头训练,即可直接用于推理,并能基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力,加速行业创新步伐。

据腾讯透露,未来混元视频还将上线图生视频模型、视频配音模型、驱动2D照片数字人等新能力,让未来AI内容创作更加高效。

THE END
1.如何在Illustrator中旋转和镜像对象若要以对象的中心点为轴镜像对象,请选择“对象”>“变换”>“镜像”,或双击“镜像”工具。 若要以其他参考点为轴来镜像对象,请按住 Alt 键 (Windows) 或 Option 键 (Mac OS),并在文档窗口中的任意位置单击。 在“镜像”对话框中,选择镜像对象时所要基于的轴。您可以基于水平轴、垂直轴或具有一定角度的轴https://helpx.adobe.com/cn/illustrator/using/rotating-reflecting-objects.html
2.ai镜像工具怎么使用用法如下:操作设备:戴尔灵越7400 操作系统:win10 操作程序:AI 2021 2.91 1、首先打开需要编辑的AI文件,选择想要编辑的图形。2、然后点击选择左侧中的“镜像工具”。3、然后鼠标光标变成十字图标,点击想要的镜像中心。4、然后按下“alt”,松开鼠标就完成了。https://zhidao.baidu.com/question/370456088373256812.html
3.ai镜像工具怎么使用的方法第1步、点击钢笔工具,绘制一个要镜像的三角形出来。 第2步、点击镜像工具,可以点击要镜像的二个点。 第3步、然后三角形就镜像出来了。 第4步、如果要以直线为镜像参照线。那就选中三角形。点击镜像工具,此教程由软件自学网首发,点击直线。 第5步、然后就可以镜像到直线的另一边了。第https://m.rjzxw.com/jiaocheng/14491.html
4.ai镜像工具怎么使用的方法(图文)最需网第1步、点击钢笔工具,绘制一个要镜像的三角形出来。 第2步、点击镜像工具,可以点击要镜像的二个点。 第3步、然后三角形就镜像出来了。 第4步、如果要以直线为镜像参照线。那就选中三角形。点击镜像工具,点击直线。 第5步、然后就可以镜像到直线的另一边了。 https://www.zuixu.com/down/87858.html
5.AI里镜像工具怎么应用啊2、选择工具V选中小的圆角矩形,找到工具栏中镜像工具;https://edu.iask.sina.com.cn/jy/jvd0dQJTWl.html
6.AI镜像工具插件使用介绍大家好,我是小溜,相信大家对于AI的插件多少都有些了解,大部分插件还是非常有用的,那么今天小溜我主要给大家分享一个,AI镜像工具插件的使用介绍,希望本文内容可以帮助到大家,感兴趣的小伙伴可以关注了解一下。 想要更深入的了解“AI”可以点击免费试听溜溜自学网课程>> 工具/软件 电脑型号:联想(Lenovo)天逸510S; https://mobilezixue.3d66.com/article/details_120579.html
7.ai镜像工具怎么快速绘制图形?ai镜像花朵图形的技巧Illustrator教程ai镜像工具怎么快速绘制图形?ai中的工具很多,想要使用镜像功能简单的将线条变成花朵,下面我们就来那看ai镜像花朵图形的技巧,需要的朋友可以参考下 ChatGPT & MidJourney 绘图免魔法无限使用 【点击领取】 ai中想要绘制一些有规律的图形,我们不需要用手去一点一点画出来,而是想办法用已有基本图形生成新的图形,比如使用https://www.jb51.net/Illustrator/763225.html
8.在ai里如何绘制真实云朵如何在AI中画圆?如何在ai ai画半圆的方法:在画板的空白区域画圆和矩形绘制。ai镜像工具怎么样快绘制Graphics inaiWe want绘制有些规则图形可以直接用现有的基本图形工具完成,那么具体应该怎么用呢?2.5D插画如何绘制-如何使用AI 绘制2.5D插画如何使用AI 绘制2.5D插画众所周知,现在很多横幅广告都会使用2.5D等距插画绘制http://chengdu.cdxwcx.cn/article/iopcig.html
9.ai中使用镜像工具的详细操作今天18183小编讲解了在ai中使用镜像工具步骤,下文就是关于在.ai中使用镜像工具的教程,一起来学习吧。 ai中使用镜像工具的详细操作 点击下方图片进入网盘下载保存Adobe全系列软件绿色版--全家桶 首先打开此软件,然后用选择工具把要镜像处理的图像选中。 接着在选中的形态下,点击工具箱中的镜像工具,或按快捷键O。 https://m.18183.com/soft/4397654.html
10.ipad怎么使用ai软件?ipad可以使用AI设计软件吗?iPad铅笔工具 在iPad上使用 铅笔工具 具有一些设备独有的出色功能.首先,通过停止路径(无需从屏幕释放Apple Pen),可以创建 角点.这对于在仍使用一条连续线的同时分离曲线非常有用! 6. 如何在Illustrator for iPad上使用镜像工具 桌面应用程序上的对称对象 https://www.yutu.cn/news_19112.html
11.如何使用AI绘画工具开启镜像功能AI百科在AI 绘画领域,镜像工具是一个强大的功能,它可以帮助艺术家轻松地创建对称或反转图像。在本文中,我们将介绍如何在不同的 AI 绘画工具中开启镜像功能,并探讨其在艺术创作中的应用。 Midjourney Midjourney 中的镜像功能称为 "镜像模式"。要启用镜像模式,请在提示中添加以下关键词: https://heiti.cn/ai/25081.html
12.alpine基吹像如何启动镜像工具ai快捷键alpine 基础镜像 如何启动 镜像工具ai快捷键 最近在学习AI的基本操作,总结了一些快捷键的使用方法,利用快捷键可以提高制图效率,从而达到更好的体验效果,以下是一些最基本的快捷键的使用。** 工具栏 ** 临时使用抓手工具:空格 默认前景色和背景色:D 放大镜工具:Zhttps://blog.51cto.com/u_16213592/10713996
13.全球AI工具箱轻松使用最新ChatGPT4.0,无任何限制【全球AI工具箱】当下最火的ChatGPT4.0,国内无任何限制,打开直接使用 一、 什么是ChatGPT镜像? ChatGPT镜像是指将ChatGPT模型和相关的软件环境打包成一个可部署的镜像文件。镜像文件可以在不同的计算机或服务器上进行部署和运行,使得ChatGPT模型可以在本地或私有网络中使用。 https://cloud.tencent.com/developer/news/1243334
14.超全,国内超好用的ai工具箱合集ai超全系统工具箱大集合gpt五、 ai工具百宝箱 超全,国内超好用的ai工具箱合集,含有各种最新的ai工具。 ai写作、ai绘画、ai生成视频你、镜像网站。 各种网站应有尽有。 一、chatgpt知识库 https://diri1.notion.site/diri1/ChatGPT-102f0a2a6dd649a0a69a1ebebed3a965 二、 ai工具合集 https://blog.csdn.net/qq_20179331/article/details/130007956
15.AI镜像快捷键:快速掌握AI操作技巧创业仆你还在为繁琐的AI操作步骤而苦恼吗?想要快速上手AI工具,提升工作效率?别担心!今天就来教你几个AI镜像快捷键,让你轻松掌握AI操作技巧,秒变AI达人! 一、AI镜像快捷键是什么? AI镜像快捷键,指的是将一些常用的AI操作步骤,通过快捷键的方式进行快速操作。类似于我们使用电脑时,用“Ctrl + C”复制、“Ctrl + V”https://cyepu.com/55885.html
16.用AI软件中的镜像翻转功能简单制作文字翻页渐变投影实操案例教程用AI软件制作文字渐变叠加投影效果实操案例教程来了,今天来分享的文章是用AI工具制作文字翻页的效果,大家可以学习一下! 1.选择文字工具,输入我们所需要输入的文字(教程演示的为HUA HAO NI YE HAO),然后右击将文字创建轮廓 2.将文字旋转90度,并填充黑白渐变 https://www.mgzxzs.com/mp/43/7235.html