SORA:AReviewonBackground,Technology,Limitations,andOpportunitiesofLargeVisionModels
图1:Sora:人工智能驱动的视觉生成的突破
Abstract
我们首先追踪Sora的发展,并调查用于构建这个“世界模拟器”的基本技术。然后,我们详细描述了Sora在从电影制作和教育到营销等多个行业的应用和潜在影响。我们讨论了广泛部署Sora需要解决的主要挑战和局限性,例如确保安全和无偏见的视频生成。最后,我们讨论了Sora和视频生成模型的未来发展,以及该领域的进步如何实现人与人工智能互动的新方式,提高视频生成的生产力和创造力。
Introduction导言
自2022年11月发布ChatGPT以来,人工智能技术的出现标志着重大转变,重塑了互动,并深入融入了日常生活和行业的各个方面[1,2]。基于这一势头,OpenAI于2024年2月发布了Sora,一种文本到视频生成的人工智能模型,可以从文本提示生成现实或富有想象力的场景视频。与以前的视频生成模型相比,Sora的特点是能够制作长达1分钟的高质量视频,同时保持对用户文本说明的遵守[3]。Sora的这一进步是长期人工智能研究任务的体现,即使人工智能系统(或人工智能代理)具备理解运动中的物理世界并与之互动的能力。这涉及开发人工智能模型,这些模型不仅能够解释复杂的用户指令,而且能够应用这种理解,通过动态和上下文丰富的模拟来解决现实世界的问题。
图2:文本到视频生成中的Sora示例。文本说明给OpenAISora模型,它根据说明生成三个视频
Sora展示了准确解释和执行复杂人类指令的非凡能力,如图2所示。该模型可以生成详细的场景,其中包括多个角色,这些角色在复杂的背景下执行特定操作。研究人员将Sora的熟练程度不仅归因于处理用户生成的文本提示,还归因于辨别场景中元素的复杂相互作用。Sora最引人注目的方面之一是其长达一分钟的视频的能力,同时保持了高视觉质量和引人注目的视觉一致性。与只能生成短视频剪辑的早期模型不同,Sora的一分钟视频创作具有渐进感和从第一帧到最后一帧的视觉一致旅程。
此外,Sora的进步显而易见,它能够制作具有细致入微的运动和互动描述的扩展视频序列,克服了早期视频生成模型特征的较短剪辑和更简单的视觉渲染的限制。这种能力代表了人工智能驱动的创意工具的飞跃,允许用户将文本叙事转换为丰富的视觉故事。总体而言,这些进步显示了Sora作为世界模拟器的潜力,可以为所描绘场景的物理和上下文动态提供细致入微的见解。[3]。
这些补丁类似于语言模型中的单词令牌,为Sora提供了用于构建视频的详细视觉短语。Sora的文本到视频生成由扩散变压器模型执行。从充满视觉噪音的框架开始,模型迭代地删除图像,并根据提供的文本提示引入具体细节。本质上,生成的视频通过多步细化过程出现,每一步都使视频更加符合所需的内容和质量。
HighlightsofSora.亮点
提高模拟能力:大规模训练Sora归功于其模拟物理世界各个方面的非凡能力。尽管缺乏明确的3D建模,但Sora表现出与动态相机运动和长距离一致性的3D一致性,包括对象持久性,并模拟与世界的简单互动。此外,Sora耐人寻味地模拟了像《我的世界》这样的数字环境,由基本政策控制,同时保持视觉保真度。这些紧急能力表明,缩放视频模型在创建人工智能模型以模拟物理和数字世界的复杂性方面是有效的。
提高创造力:想象一下,通过文本勾勒出一个概念,无论是简单的对象还是完整的场景,并在几秒钟内看到逼真或高度风格化的视频。Sora允许加速设计过程,以更快地探索和细化想法,从而显著提高艺术家、电影制片人和设计师的创造力。
推动教育创新:视觉辅助工具长期以来一直是理解教育中重要概念不可或缺的一部分。有了Sora,教育工作者可以轻松地将课程计划从文本转向视频,以吸引学生的注意力并提高学习效率。从科学模拟到历史戏剧化,可能性是无限的。
增强可访问性:增强视觉领域的可访问性至关重要。Sora通过将文本描述转换为视觉内容来提供创新的解决方案。这种能力使所有个人,包括有视力障碍的人,能够积极参与内容创作,并以更有效的方式与他人互动。因此,它提供了一个更具包容性的环境,每个人都有机会通过视频表达他或她的想法。
LimitationsandOpportunities限制与机遇虽然Sora的成就凸显了人工智能的重大进步,但挑战仍然存在。描绘复杂的动作或捕捉微妙的面部表情是模型可以增强的领域之一。此外,道德考虑因素,如减轻生成内容中的偏见和防止有害的视觉输出,强调了开发人员、研究人员和更广泛的社区负责任地使用的重要性。确保Sora的产出始终是安全和无偏见的是一个主要挑战。视频生成领域正在迅速发展,学术和行业研究团队取得了不懈的进步。相互竞争的文本到视频模型的出现表明,Sora可能很快就会成为动态生态系统的一部分。这种协作和竞争环境促进了创新,从而提高了视频质量和新的应用程序,这有助于提高工人的生产力,使人们的生活更加有趣。
Background背景
2.1History历史
在计算机视觉(CV)领域,在深度学习革命之前,传统的图像生成技术依赖于基于手工特征的纹理合成[5]和纹理映射[6]等方法。然而,这些方法产生复杂生动图像的能力有限。生成对抗网络(GANs)[7]和变体自动编码器(VAEs)[8]的引入标志着一个重要的转折点,因为它在各种应用中具有卓越的功能。随后的发展,如流量模型[9]和扩散模型[10],以更高的细节和质量进一步增强了图像生成。人工智能生成内容(AIGC)技术的最新进展使内容创建民主化,使用户能够通过简单的文本指令生成所需的内容[11]。
在过去的十年里,生成CV模型的开发采取了各种途径,如图3所示。正如BERT[13]和GPT[14]所证明的那样,在NLP中成功应用变压器架构[12]后,这种格局开始发生明显变化。在CV中,研究人员通过将变压器架构与视觉组件相结合,将这一概念进一步化,允许将其应用于下游的CV任务,如视觉变压器(ViT)[15]和Swin变压器[16]。在变压器成功的同时,扩散模型在图像和视频生成领域也取得了重大进展[10]。扩散模型提供了一个数学上合理的框架,用于使用U-Nets[17]将噪声转换为图像,其中U-Net通过学习预测和减轻每个步骤的噪声来促进这一过程。
自2021年以来,人工智能的重点一直是能够解释人类指令的生成语言和视觉模型,称为多模态模型。例如,CLIP[18]是一个开创性的视觉语言模型,它将变压器架构与视觉元素相结合,促进了其对大量文本和图像数据集的训练。通过从一开始就整合视觉和语言知识,CLIP可以在多模态生成框架中充当图像编码器。另一个值得注意的例子是稳定扩散[19],这是一个多功能的文本到图像人工智能模型,以其适应性和易用性而闻名。它采用变压器架构和潜在扩散技术来解码文本输入,并生成各种风格的图像,进一步说明了多模态人工智能的进步。
图3:视觉领域生成性人工智能的历史
2.2AdvancedConcepts
高级概念
ScalingLawsforVisionModels.愿景模型的缩放法则对于LLM的缩放法则,人们很自然地问,视觉模型的开发是否遵循类似的缩放法则。最近,Zhai等人[24]证明,具有足够训练数据的ViT模型的性能计算前沿大致遵循(饱和)幂定律。随后,谷歌研究[25]提出了一个高效和稳定地训练22B参数ViT的配方。结果显示,使用冷冻模型产生嵌入,然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型(LVM),与这些缩放原则保持一致,揭示了文本到视频生成的几种紧急能力。这一重大进展凸显了LVM取得像在LLM中看到的那样进步的潜力。
EmergentAbilities.涌现能力.LLM中的紧急能力是在某些尺度上表现出的复杂行为或功能——通常与模型参数的大小有关——开发人员没有明确编程或预期这些行为或功能。这些能力被称为“紧急”,因为它们来自模型在各种数据集上的全面训练,以及其广泛的参数计数。这种组合使模型能够形成连接并得出超越单纯模式识别或死记背的推断。通常,无法通过从小规模模型的性能中推断来直接预测这些能力的出现。虽然许多LLM,如ChatGPT和GPT-4,都表现出紧急能力,但在Sora出现之前,展示可比能力的视觉模型一直很少。根据Sora的技术报告,这是第一个表现出已确认的紧急能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。
除了其紧急能力外,Sora还展示了其他值得注意的能力,包括指令跟随、视觉提示工程和视频理解。Sora功能的这些方面代表了视觉领域的重大进展,将在其余部分进行探索和讨论。
Technology技术3.1OverviewofSora概述
图4:逆向工程:Sora框架概述
3.2DataPre-processing数据预处理
3.2.1
VariableDurations,Resolutions,AspectRatios
图5:Sora可以生成灵活尺寸或分辨率从1920x1080p到1080x1920p以及介于两者之间的任何图像。
图6:Sora(右)和模型的修改版本(左)之间的比较,该模型将视频裁剪成正方形——这是模型训练的常见做法——突出了优势。
对原生大小的数据进行训练,显著改善了生成视频的构图和框架。实证发现表明,通过保持原始宽高比,Sora实现了更自然、更连贯的视觉叙事。Sora和在均匀裁剪的正方形视频上训练的模型之间的比较显示了明显的优势,如图6所示。Sora制作的视频表现出更好的取景,确保在场景中完全捕捉主体,而不是由方形裁剪导致的有时截断视图。
3.2.2UnifiedVisualRepresentation
统一的视觉表现法
3.2.3VideoCompressionNetwork
视频压缩网格
图8:ViT将图像拆分为固定大小的补丁,线性嵌入每个补丁,添加位置嵌入,并将生成的矢量序列输入标准变压器编码器。
总之,我们反向工程了两种基于VAE或其变体(如VQ-VQE)的补丁级压缩方法,因为补丁操作更灵活地处理不同类型的视频。由于Sora旨在生成高保真视频,因此使用大补丁大小或内核大小进行高效压缩。在这里,我们期望使用固定大小的补丁来实现简单性、可扩展性和训练稳定性。但也可以使用不同大小的补丁[39]来使潜在空间中整个帧或视频的尺寸保持一致。然而,它可能会导致无效的位置编码,并给解码器生成具有不同大小的潜在补丁的视频带来挑战。
3.2.4SpacetimeLatentPatches
时空潜斑
压缩网络部分仍然存在一个关键问题:在将补丁输入扩散变压器的输入层之前,如何处理潜在空间维度的变异性(即来自不同视频类型的潜在特征块或补丁的数量)。在这里,我们讨论了几个解决方案。
根据Sora的技术报告和相应的参考资料,补丁n'包(PNP)[40]可能是解决方案。PNP在单个序列中打包来自不同图像的多个补丁,如图10所示。这种方法的灵感来自自然语言处理[41]中使用的示例打包,该方法通过丢弃令牌来适应可变长度输入的高效训练。在这里,补丁化和令牌嵌入步骤需要在压缩网络中完成,但Sora可能会像扩散变压器一样进一步修补变压器令牌的潜伏[4]。
无论是否有第二轮补丁,我们需要解决两个问题,即如何以紧凑的方式打包这些代币,以及如何控制哪些代币应该被丢弃。对于第一个问题,使用一种简单的贪婪方法,在第一个序列中添加示例,并有足够的剩余空间。一旦无法再安装示例,序列就会填充填充令牌,从而产生批处理操作所需的固定序列长度。如此简单的打包算法可以导致显著的填充,这取决于输入长度的分布。另一方面,我们可以控制我们采样的分辨率和帧,通过调整序列长度和限制填充来确保高效包装。
对于第二个问题,一个直观的方法是删除类似的令牌[42,43,33,44],或者像PNP一样,应用下降费率调度器。然而,值得注意的是,3D一致性是Sora的良好属性之一。在训练期间,丢弃令牌可能会忽略细粒度的细节。因此,我们认为OpenAI可能会使用超长的上下文窗口,并从视频中打包所有令牌,尽管这样做在计算上是昂贵的,例如,多头注意力[45,46]运算符在序列长度上表现出二次成本。具体来说,来自长时视频的时空潜在补丁可以打包在一个序列中,而来自几个短时视频的时空潜伏补丁可以串联在另一个序列中。
3.2.5Discussion讨论
3.2.6DiffusionTransformer
扩散变压器
图11:DiT(左)和U-ViT(右)的总体框架
3.3Modeling建模
此外,DiffiT使用两种混合分层架构,分别在像素空间和潜在空间中进行高效去异,并在各种生成任务中实现了新的最先进的结果。总体而言,这些研究显示,在使用视觉变压器进行图像潜在扩散方面取得了有希望的结果,为未来其他模式的研究铺平了道路。
结合这些方法和技术,ImagenVideo不仅可以生成高保真度的视频,而且具有非凡的可控性,其制作各种艺术风格的视频、文本动画和内容的能力就证明了这一点。
(b)视频LDM堆栈。视频LDM首先生成稀疏的关键帧,然后用相同的潜在扩散模型临时插值两次,以实现高帧率。最后,将潜在视频解码为像素空间,并可选地应用视频上采样器扩散模型。
3.3.1Discussion讨论
Cascadediffusionmodelsforspatialandtemporalup-sampling.
3.4LanguageInstructionFollowing
语言教学遵循
用户主要通过自然语言指令(称为文本提示符)参与生成性人工智能模型[62,63]。模型指令调优旨在提高AI模型准确遵循提示的能力。这种改进的提示跟踪能力使模型能够产生更类似于人类对自然语言查询的响应的输出。我们从回顾大型语言模型(LLM)和文本到图像模型(如DALL·E3)的教学技术开始讨论。为了增强文本到视频模型遵循文本说明的能力,Sora采用了类似于DALL·E3的方法。该方法涉及训练描述性字幕员,并利用字幕员生成的数据进行微调。由于指令调优,Sora能够满足广泛的用户请求,确保对指令中的细节一丝不苟,并生成精确满足用户需求的视频。
3.4.1LargeLanguageMod-els大型语言模型
LLM遵循指令的能力已被广泛探索[64,65,66]。这种能力允许LLM在没有示例的情况下阅读、理解和适当地响应描述看不见的任务的指令。通过对格式化为指令[64,66]的任务进行微调,可以获得并增强提示跟随能力,称为指令调优。Wei等[65]表明,在看不见的任务上,指令调优的LLM明显优于未调优的LLM。指令遵循能力将LLM转变为通用任务求解器,标志着AI发展史上的范式转变。
3.4.2Text-to-Image
从文本到图像转换
DALL·E3中遵循的指令通过标题改进方法解决,其假设是模型训练的文本图像对的质量决定了生成的文本到图像模型的性能[67]。数据质量差,特别是嘈杂的数据和省略大量视觉信息的短字幕的普遍性,导致许多问题,例如忽视关键字和单词顺序,以及误解用户意图[21]。标题改进方法通过用详细的描述性标题重新描述现有图像来解决这些问题。该方法首先训练图像字幕器,这是一个视觉语言模型,以生成精确和描述性的图像字幕。然后,由字幕器生成的描述性图像字幕用于微调文本到图像模型。
具体来说,DALL·E3遵循对比字幕(CoCa)[68],联合训练具有CLIP[26]架构和语言模型目标的图像字幕。此图像字幕器包含图像编码器、用于提取语言信息的单模态文本编码器和多模态文本解码器。它首先使用单模态图像和文本嵌入之间的对比损失,然后是多模态解码器输出的字幕损失。由此产生的图像标题进一步微调了对涵盖主要对象、周围环境、背景、文本、样式和着色的图像的高度详细描述。
3.4.3Text-to-Video
文本到视频的转换
为了提高后续教学能力,Sora采用了类似的字幕改进方法。这种方法是通过首先训练能够为视频制作详细描述的视频字幕器来实现的。然后,此视频字幕器应用于训练数据中的所有视频,以生成高质量的(视频,描述性字幕)用于微调Sora,以提高其指令跟随能力。
Sora的技术报告[3]没有透露视频字幕如何培训的细节。鉴于视频字幕器是一个视频到文本的模型,有很多方法可以构建它。一个直截了当的方法是利用CoCa架构进行视频字幕,方法是将视频的多个帧输入图像编码器[68],称为VideoCoCa[69]。VideoCoCa以CoCa为基础,重新使用图像编码器预训练的权重,并将其独立应用于采样视频帧。生成的帧令牌嵌入被扁平化并串联成一长串的视频表示。然后,这些扁平的帧令牌由生成池器和对比池器处理,它们与对比损失和字幕损失共同训练。构建视频字幕器的其他替代方案包括mPLUG-2[70]、GIT[71]、FrozenBiLM[72]等。最后,为了确保用户提示与训练数据中那些描述性标题的格式一致,Sora执行了一个额外的提示扩展步骤,其中GPT-4V用于将用户输入扩展到详细的描述性提示。
3.4.4Discussion讨论
遵循指令的能力对于Sora生成一分钟长的视频至关重要,这些视频具有忠实于用户意图的复杂场景。根据Sora的技术报告[3],这种能力是通过开发一个可以生成长而详细的字幕的字幕来获得的,然后用于训练模型。然而,为培训此类字幕者而收集数据的过程是未知的,而且可能是劳动密集型的,因为它可能需要对视频进行详细的描述。此外,描述性视频字幕可能会使视频的重要细节产生幻觉。我们认为,如何改进视频字幕需要进一步调查,对于提高文本到图像模型的指令遵循能力至关重要。
3.5PromptEngineering提示工程
3.5.1TextPrompt文本提示符
文本提示工程对于指导文本到视频模型(例如Sora[3])制作视觉上引人注目的视频,同时精确满足用户规格至关重要。这包括制定详细的描述,以指导模型有效弥合人类创造力和人工智能执行能力之间的差距[76]。Sora的提示涵盖了广泛的场景。最近的作品(例如,VoP[77]、Make-A-Video[28]和Tune-A-Video[78])表明,即时工程如何利用模型的自然语言理解能力来解码复杂的指令,并将其呈现为有凝聚力、生动和高质量的视频叙事。如图15所示,“一个时尚的女人走在霓虹灯下的东京街道上......”是一个精心制作的文本提示,它确保Sora生成一个与预期愿景非常一致的视频。提示工程的质量取决于单词的仔细选择、所提供细节的具体性以及对模型输出影响的理解。例如,图15中的提示详细指定了场景的动作、设置、角色外观,甚至所需的情绪和氛围。
图15:关于文本到视频生成的提示工程的案例研究,使用颜色编码来描述创作过程。以蓝色突出显示的文本描述了Sora产生的元素,例如对时尚女性的描绘。相比之下,黄色文本突出了模型对动作、设置和角色外观的解释,展示了精心制作的提示如何转化为生动动态的视频叙事。
3.5.2ImagePrompt图像的提示
图像提示作为待生成视频内容和其他元素(如字符、设置和情绪)的视觉锚[79]。此外,文本提示可以指示模型对这些元素进行动画化,例如,添加层层运动、互动和叙事进展,使静态图像栩栩如生[27,80,81]。使用图像提示允许Sora通过利用视觉和文本信息将静态图像转换为动态、叙事驱动的视频。
在图16中,我们展示了人工智能生成的视频,包括“穿着贝雷帽和高领毛衣的柴伊努”、“一个独特的怪物家庭”、“形成“SORA”一词的云”和“在历史大厅内驾驭海浪的冲浪者”。这些例子展示了使用DALL·E生成的图像提示Sora可以实现什么。
图16:此示例说明了引导Sora的文本到视频模型生成的图像提示。红色盒子在视觉上锚定了每个场景的关键元素——各种设计的怪物,云层形成拼写“SORA”,以及面对巨大潮汐的华丽大厅中的冲浪者。
3.5.3VideoPrompt
视频提示符的提示
视频提示也可以用于视频生成,如[82,83]所示。最近的作品(例如,Moonshot[84]和Fast-Vid2Vid[85])表明,好的视频提示需要具体和灵活。这确保了模型在特定目标上获得明确的方向,例如对特定对象和视觉主题的描绘,并允许在最终输出中进行富有想象力的变化。
例如,在视频扩展任务中,提示可以指定扩展的方向(向前或向后)以及扩展的上下文或主题。在图17(a)中,视频提示指示Sora向后扩展视频,以探索导致原始起点的事件。当通过视频提示进行视频到视频编辑时,如图17(b)所示,模型需要清楚地了解所需的转换,例如更改视频的风格、设置或氛围,或更改照明或情绪等微妙方面。在图17(c)中,提示指示Sora连接视频,同时确保视频中不同场景中对象之间的平稳过渡。
图17:这些示例说明了Sora模型的视频提示技术:(a)视频扩展,其中模型将序列向后推到原始素材,(b)视频编辑,根据文本提示符转换设置等特定元素,以及(c)视频连接,其中两个不同的视频提示无缝混合,以创建连贯的叙事。每个过程都由一个视觉锚引导,由一个红色框标记,确保生成的视频内容的连续性和准确性。
3.5.4Discussion讨论
提示工程允许用户引导人工智能模型生成符合其意图的内容。例如,文本、图像和视频提示的组合使用使Sora能够创建内容,这些内容不仅在视觉上引人注目,而且与用户的期望和意图非常一致。虽然之前关于提示工程的研究一直专注于LLM和LVM的文本和图像提示符[86,87,88],但我们预计对视频生成模型的视频提示将越来越感兴趣。
3.6Trustworthiness可信赖性
3.6.1SafetyConcern安全问题
例如,引入了基于梯度技术的新颖且可解释的对抗性攻击方法AutoDAN[103],以实现系统旁路。在最近的一项研究中,研究人员探讨了法学硕士努力抵制“越狱攻击”的两个原因:相互竞争的目标和不匹配的概括[106]。除了文本攻击外,视觉越狱还威胁到多模态模型(例如GPT-4V[90]和Sora[3])的安全。最近的一项研究[107]发现,大型多模态模型更加脆弱,因为额外的视觉输入的连续性和高维性使其对对抗性攻击更弱,代表了扩展的攻击面。
3.6.2OtherExploitation其他开拓
大量的研究致力于从各个角度剖析幻觉问题。这包括旨在评估不同模型和场景中幻觉的程度和性质的努力[109、96、110、111]。这些评估为幻觉的发生方式和原因提供了宝贵的见解,为制定降低其发生率的策略奠定了基础。同时,大量研究集中在设计和实施这些大型模型中减少幻觉的方法[112,113,114]。
可信度的另一个重要方面是公平和偏见。开发不会使社会偏见永久化或加剧的模型至关重要,这是一个首要问题。这一优先事项源于一种认识,即这些模型中编码的偏见可能会加剧现有的社会不平等,导致歧视性结果。
该领域的研究,正如Gallegos等人的工作所证明的那样。[115],Zhang等人。[116]、Liang等人[117]和Friedrich等人[118],致力于一丝不苟地识别和纠正这些固有的偏见。目标是培养公平运作的模式,公平对待所有个人,不偏向种族、性别或其他敏感属性。这不仅涉及检测和缓解数据集中的偏见,还涉及设计可以积极抵消此类偏见传播的算法[119,120]。
3.6.3Alignment调整
3.6.4Discussion讨论
从Sora(特别是其技术报告)中,我们总结了一些有见地的发现,这些发现可能为未来的工作提供翔实的指导方针:
(1)模型和外部安全的综合保护:随着模型变得更加强大,特别是在生成内容方面,确保它们不被滥用来产生有害内容(如仇恨言论[129]和虚假信息[92,91])已成为一个严重的挑战。除了调整模型本身外,外部安全保护也同样重要。这包括内容过滤和审查机制、使用权限和访问控制、数据隐私保护,以及透明度和可解释性的增强。例如,OpenAI现在使用检测分类器来判断给定视频是否由Sora生成[130]。此外,还部署了文本分类器来检测潜在有害的文本输入[130]。
(3)跨学科合作的必要性:确保模型的安全不仅仅是一个技术问题,还需要跨学科合作。为了应对这些挑战,来自法律[131]和心理学[132]等各个领域的专家需要共同努力,制定适当的规范(例如,什么是安全的,什么是不安全的?)、政策和技术解决方案。跨学科合作的需求大大增加了解决这些问题的复杂性。
Applications应用程序
随着以Sora为例的视频传播模型作为前沿技术出现,它们在不同研究领域和行业的采用正在迅速加速。这项技术的影响远远超出了单纯的视频创作,为从自动内容生成到复杂决策过程的任务提供了变革潜力。在本节中,我们深入研究了视频扩散模型的当前应用,强调了Sora不仅展示了其能力,而且彻底改变了解决复杂问题的方法的关键领域。我们的目标是为实际部署场景提供广阔的视角(见图18)。
Figure18:ApplicationsofSora.
4.1Movie电影
传统上,创作电影杰作是一个艰巨而昂贵的过程,通常需要几十年的努力、尖端设备和大量的财务投资。然而,先进视频生成技术的出现预示着电影制作的新时代,在这个时代,从简单的文本输入中自主制作电影的梦想正在成为现实。
研究人员通过将视频生成模型扩展到电影创作中,冒险进入了电影生成领域。MovieFactory[133]应用扩散模型从ChatGPT[89]制作的精心制作的脚本中生成电影风格的视频,代表了一个重大的飞跃。在后续行动中,MobileVidFactory[134]可以自动生成仅使用用户提供的简单文本的垂直移动视频。Vlogger[135]使用户可以编写一分钟长的vlog。这些发展体现在Sora毫不费力地生成迷人的电影内容的能力上,标志着电影制作民主化的关键时刻。
它们提供了对未来的一瞥,在那里任何人都可以成为电影制片人,大大降低了进入电影行业的障碍,并为电影制作引入了一个新颖的维度,将传统讲故事与人工智能驱动的创造力相结合。这些技术的影响不仅仅是简化。他们承诺重塑电影制作的格局,使其在不断变化的观众偏好和分销渠道时更容易获得和多才多艺。
4.2Education教育
长期以来,教育内容的景观一直由静态资源主导,尽管这些资源具有价值,但往往无法满足当今学生的不同需求和学习风格。视频传播模型处于教育革命的最前沿,提供了前所未有的机会,以显著增强学习者参与度和理解的方式定制和动画教育材料。
这些先进技术使教育工作者能够将文本描述或课程大纲转换为动态的、引人入胜的视频内容,根据个人学习者的特定风格和兴趣量身定制[136、137、138、139]。此外,图像到视频编辑技术[140、141、142]为将静态教育资产转换为互动视频提供了创新途径,从而支持一系列学习偏好,并有可能提高学生的参与度。
通过将这些模型整合到教育内容创作中,教育工作者可以制作关于无数主题的视频,使复杂的概念对学生来说更容易理解和吸引人。使用Sora彻底改变教育领域,体现了这些技术的变革潜力。这种向个性化、动态教育内容的转变预示着教育的新时代。
4.3Gaming游戏
游戏行业不断寻找方法来突破现实主义和沉浸感的界限,但传统游戏开发往往与预渲染环境和脚本事件的局限性作斗争。通过实时扩散模型效果生成动态、高保真的视频内容和逼真的声音,承诺克服现有约束,为开发人员提供工具,以创建不断发展的游戏环境,有机地响应玩家的动作和游戏事件[143,144]。这可能包括生成不断变化的天气条件,改变景观,甚至在飞行中创建全新的设置,使游戏世界更具沉浸感和响应能力。一些方法[145,146]还从视频输入中合成逼真的冲击声音,增强了游戏音频体验。
随着Sora在游戏领域的整合,可以创造无与伦比的沉浸式体验,吸引和吸引玩家。如何开发、玩和体验游戏将进行创新,并为讲故事、互动和沉浸感开辟新的可能性。
4.4Healthcare医疗保健
尽管有生成能力,但视频扩散模型擅长理解和生成复杂的视频序列,使它们特别适合识别体内的动态异常,如早期细胞凋亡[147]、皮肤病变进展[148]和不规则的人类运动[149],这对早期疾病检测和干预策略至关重要。此外,像MedSegDiff-V2[150]和[151]这样的模型利用变压器的力量以前所未有的精度分割医疗图像,使临床医生能够以更高的准确性在各种成像模式中确定感兴趣的领域。
将Sora整合到临床实践中,不仅有望完善诊断过程,还能个性化患者护理,根据精确的医学成像分析提供量身定制的治疗计划。然而,这种技术集成伴随着它自己的一系列挑战,包括需要强有力的数据隐私措施和解决医疗保健中的道德考虑。
4.5Robotics机器人
视频扩散模型现在在机器人学中发挥着重要作用,展示了一个机器人可以生成和解释复杂视频序列以增强感知[152,153]和决策[154,155,156]的新时代。这些模型解锁了机器人的新功能,使它们能够与环境交互,并以前所未有的复杂性和精确度执行任务。将网络规模扩散模型引入机器人[152]展示了利用大规模模型来增强机器人视觉和理解的潜力。潜在扩散模型用于语言指导的视频预测[157],允许机器人通过预测视频格式动作的结果来理解和执行任务。此外,机器人研究对模拟环境的依赖已通过能够创建高度逼真的视频序列的视频扩散模型创新地解决了[158,159]。这使得机器人能够生成多样化的训练场景,缓解了现实世界数据稀缺带来的限制。我们相信,将Sora等技术整合到机器人领域,有望实现突破性发展。通过利用Sora的力量,机器人的未来将取得前所未有的进步,机器人可以无缝导航并与其环境互动。
Discussion讨论
Sora在精确理解和实施人类复杂指令方面表现出非凡的天赋。该模型擅长创建带有各种角色的详细视频,所有视频都设置在精心制作的设置中。Sora的一个特别令人印象深刻的属性是它能够制作长达一分钟的视频,同时确保讲故事的一致性和引人入胜。与之前专注于较短视频片段的尝试相比,这标志着一个显著的改进,因为Sora的扩展序列表现出清晰的叙事流程,并从头到尾保持视觉一致性。此外,Sora通过生成捕获复杂动作和互动的更长视频序列来脱颖而出,超越了早期模型的限制,这些模型只能处理短剪辑和基本图像。这一进步标志着人工智能驱动的创意工具向前迈出了一大步,使用户能够将书面故事转换为生动的视频,其细节和复杂性达到了以前无法达到的水平。
5.1Limitations局限性
ChallengesinPhysicalRealism.物理现实主义的挑战。Sora作为一个模拟平台,表现出一系列限制,破坏了其在准确描述复杂场景方面的有效性。最重要的是它在复杂场景中对物理原理的处理不一致,导致无法准确复制特定的因果示例。例如,消耗部分cookie可能不会产生相应的咬痕,这说明系统偶尔会偏离物理合理性。这个问题延伸到运动模拟,Sora产生的运动挑战现实的物理建模,例如物体的非自然变换或椅子等刚性结构的不正确模拟,导致不切实际的物理相互作用。当模拟对象和角色之间的复杂互动时,挑战会进一步增加,偶尔会产生倾向于幽默的结果。
LimitationsinHuman-computerInteraction(HCI).
在人机交互方面的局限性。Sora虽然在视频生成领域表现出潜力,但在HCI方面面临重大限制。这些局限性主要体现在用户-系统交互的一致性和效率上,特别是在对生成的内容进行详细修改或优化时。例如,用户可能会发现很难精确指定或调整视频中特定元素的呈现,例如动作细节和场景过渡。此外,Sora在理解复杂语言指令或捕获微妙的语义差异方面的局限性可能导致视频内容不能完全满足用户的期望或需求。这些缺点限制了Sora在视频编辑和增强方面的潜力,也影响了用户体验的整体满意度。
UsageLimitation.使用限制。关于使用限制,OpenAI尚未确定公众访问Sora的具体发布日期,强调在广泛部署之前对安全和准备就绪采取谨慎的态度。这表明Sora可能仍然需要在安全、隐私保护和内容审查等领域进行进一步的改进和测试。此外,目前,Sora只能生成长达一分钟的视频,根据已发布的案例,大多数生成的视频只有几十秒长。这种限制限制了其在需要更长内容显示的应用程序中的使用,例如详细的教学视频或深入的故事讲述。这种限制降低了Sora在内容创作方面的灵活性。
5.2Opportunities机会
Academy.学院
(1)OpenAI引入Sora标志着一个战略转变,鼓励更广泛的人工智能社区利用扩散和变压器技术,深入探索文本到视频模型。这项倡议旨在将重点转向直接从文本描述中创建高度复杂和细致入微的视频内容的潜力,这是一个有望彻底改变内容创作、讲故事和信息共享的前沿。
(2)与传统的调整大小或种植方法相比,对Sora进行本地数据培训的创新方法是学术界的突破性灵感。它通过强调利用未经修改的数据集的好处开辟了新的途径,从而创建了更先进的生成模型。
Industry.工业
(1)Sora目前的能力标志着视频模拟技术进步的一条充满希望的道路,突出了在物理和数字领域显著增强真实感的潜力。Sora的前景通过文本描述创造高度逼真的环境,为内容创作带来了充满希望的未来。这种潜力延伸到革命性的游戏开发,提供了一个未来的一瞥,在这个未来,沉浸式生成的世界可以以前所未有的轻松和准确性制作。
Society.社会
(1)虽然利用文本到视频技术取代传统电影制作的前景仍然遥遥无期,但Sora和类似平台在社交媒体上创作内容具有变革潜力。当前视频长度的限制并没有削弱这些工具在使每个人都能获得高质量视频制作方面产生的影响,使个人能够在不需要昂贵设备的情况下制作引人注目的内容。它代表了在TikTok和Reels等平台上赋予内容创作者权力的重大转变,带来了创造力和参与度的新时代。
(3)记者和新闻机构也可以使用Sora快速生成新闻报道或解释性视频,使新闻内容更加生动和引人入胜。这可以显著增加新闻报道的覆盖范围和受众参与度。通过提供可以模拟现实环境和场景的工具,Sora为视觉故事提供了强大的解决方案,使记者能够通过以前难以制作或昂贵的引人入胜的视频来传达复杂的故事。总之,Sora在营销、新闻和娱乐领域彻底改变内容创作的潜力是巨大的。
Conclusion结论
文:YixinLiu,KaiZhang,YuanLi,ZhilingYan,ChujieGao,RuoxiChen,ZhengqingYuan,YueHuang,HanchiSun,JianfengGao,LifangHe,LichaoSun,LehighUniversity,MicrosoftResearchReferences