OpenAI文生视频方案Sora技术浅析

例如,2023年2月,Runway通过社区Discord发布视频生成模型Gen-1,2023年4月,发布支持text-to-video的视频生成模型Gen-2,2023年11月29日,Pika发布了网页端1.0产品。

一位资深的朋友的观点,算法角度,在大数据量下,生成式模型框架都很优雅统一,视频的编码方式也是领域常见的思路,在文本描述上用了gpt-v模型自动加标注的方式产生了很多文本视频对应数据。最大的壁垒,很可能是海量数据下训练的工程能力和GPU资源,应该是其他团队未曾触达过的数据量和机器数量,这也是深度学习时代一直以来的经验。

本文主要来看看这方面的工作,并看看知识图谱多模态的一个工作,感觉这个方向将是个趋势,供大家一起参考。

1、一个huggingface、国海证券对文生视频的论述

文生视频由文生图、图生视频这两部组成,其技术发展大致分为图像拼接生成、GAN/VAE/Flow-based生成、自回归模型生成、扩散模型生成几个阶段。

其实现技术也经历了多个变化,如下所示。

具体来看,

第一波文生图模型包括VQGAN-CLIP、XMC-GAN和GauGAN2、VAE,以Text2Filter为代表

紧随其后的是OpenAI在2021年初发布的广受欢迎的基于transformer的DALL-E、2022年4月的DALL-E2,以及由StableDiffusion和Imagen开创的新一波扩散模型。

其中:

GAN由生成器和判别器构成,生成器类似于小偷,生成器生成图片;判别器类似于警察,负责判断是生成器生成图片还是真实图片。

VAE由编码器及解码器构成,其使得图片能够编码成易于表示的形态,并且这一形态能够尽可能无损地解码回原真实图像。

生成过程分为两步:首先,利用条件VAE模型从文本中提取出要点,即静态和通用的特征,生成视频的基本背景;再借助GAN框架中的神经网络生成视频细节。

StableDiffusion的巨大成功催生了许多产品化的扩散模型,例如DreamStudio和RunwayMLGEN-1,同时也催生了一批集成了扩散模型的产品,例如Midjourney。

受文本(GPT-3)和图像(DALL-E)中大规模预训练Transformer模型的成功启发,文生视频研究的第二波浪潮采用了Transformer架构。

其思想思路为:输入文本后利用Transformer模型编码,将文本转化为视频令牌,进行特征融合后输出视频。

其中,Phenaki是基于Transformer框架进行文生视频的代表之一,其突破了文生视频的时长限制进行任意时长视频生成。

第三波主要以基于扩散的架构为特征,代表为Make-A-Video、VideoLDM、Text2Video-Zero、Runway-Gen1、Runway-Gen2以及NUWA-XL。

其思想在于通过预训练模型进行文本特征提取后,再进行文本到图片,图片到视频的生成,过程中需基于扩散模型进行。简单来说,扩散模型即在图片上逐渐添加高斯噪声再进行反向操作。

其中,Make-A-Video生成视频主要思路为首先接受文字指令,然后利用CLIP文字解码将其转化为向量;

最后,利用TemporalSuper-Resolution(TSR)进行帧插值以补充关键细节,最后利用两个空间超分辨率模型升级各个帧的分辨率。

扩散模型在生成多样化、超现实和上下文丰富的图像方面取得了显著成功,这一波模型是由VideoDiffusionModels(VDM)开创,将扩散模型推广至视频领域。

2、openai关于sora的官方技术报告

根据其官方论述,针对不同时长、分辨率和宽高比的视频及图像,openai联合训练了基于文本条件的扩散模型,采用了Transformer架构,能够处理视频和图像潜在编码的时空片段。最大型号的模型Sora,能生成高质量的一分钟视频。

1)语言理解与指令-视频训练数据

首先,训练了一个能够生成详细描述的模型,然后利用这个模型为训练集里的所有视频创建文字说明,使用描述性强的视频说明进行训练,不仅能提高文字的准确度,还能显著提升视频的整体质量。也就是说,采用DALL·E3中引入的重新字幕技术(re-captioningtechnique),首先训练一个高度描述性的字幕模型(descriptivecaptionermodel),然后使用它为训练集中的所有视频生成文本标题。

如DALL·E3一样,还使用GPT把用户的简短提示转化成详尽的说明,再将这些说明送给视频生成模型,使得Sora能够根据用户的指令,制作出高品质的视频。

实际上,文生视频模型通常在大型文本-视频对数据集上进行训练。这些数据集中的视频通常被分成短的、固定长度的块,最常用的文本-视频数据集WebVid由1070万个文本-视频对(视频时长5.2万小时)组成,并包含一定量的噪声样本,这些样本中的视频文本描述与视频内容是非相干的。其他数据集试图通过聚焦特定任务或领域来解决这个问题,例如:

Howto100M数据集包含13600万个视频剪辑,其中文本部分描述了如何一步一步地执行复杂的任务,例如烹饪、手工制作、园艺、和健身;

QuerYD数据集则聚焦于事件定位任务,视频的字幕详细描述了目标和动作的相对位置;

CelebV-Text是一个包含超过7万个视频的大规模人脸文本-视频数据集,用于生成具有逼真的人脸、情绪和手势的视频。

2)基本架构

这块的工作可以参考:

3)视频的类token化-视频补丁patches

在大语言模型的中,tokenizer使得任何长度和内容的文本都能编码成语言模型可以直接处理(输入/输出)的对象,即embeddings,大语言模型通过使用tokens作为统一处理代码、数学及多种自然语言的高效方式,实现了不同数据类型间的无缝转换。

针对文本生成视频领域,引入了视觉补丁(patches)这一视觉数据表现形式,embeddings在Sora中的对应物称为visualpatches,tokenizer对应为videocompressionnetwork。

这块可以参照对应的工作:

在具体实现上,先将视频数据压缩到低维度潜在空间,再将其分解成时空补丁,从而实现视频到补丁的转化。

Sora在这种压缩的潜在空间中接受训练,并能够生成新的视频内容。此外,我们还开发了一个解码器,能够将这些潜在表征还原为像素级的视频图像。

在生成新视频内容时,可以通过将这些随机初始化的补丁按照需要的大小排列成网格,来控制最终视频的大小和形式。

1、MMKG的构建范式

MMKG构建范式主要包括两种,一个是用KG符号标注图像,另一个是将KG符号接地到图像上。

第一种范式优先考虑视觉实体/概念、关系和事件的提取,这对于动态创建KGs至关重要,例如场景和事件图谱。然而,这种方法在充分表示不常见的(即长尾)知识方面遇到了挑战,主要是由于在不同的上下文中反复描述常见的现实世界实体。监督方法的使用进一步加剧了这些挑战,因为它们本质上受到现有标签有限范围的限制。此外,该系统需要大量的预处理,包括制定特定规则,创建预定实体列表,以及应用预训练的检测器和分类器。

2、MMKG的演变过程

表III提供了各种mmkg的统计数据。

值得注意的是,一般意义上最早的MMKG可以追溯到ImageNet(2009),这是一种基于WordNet结构的大规模图像本体。尽管具有丰富的语义层次结构和数百万带注释的图像,但ImageNet作为一个A-MMKG,主要用于对象分类,其知识组件通常未得到充分利用。

NEIL通过关系提取、数据标记和分类器/检测器学习的循环从互联网构建视觉知识。然而,NEIL的可扩展性是有限的,因为它需要大量的计算来对2273个对象的400K个视觉实例进行分类,而典型的KGs需要数十亿个实例。

VisualGenome提供了对象、属性和关系的密集标注。然而,它主要帮助场景理解任务,如图像描述和问题回答。ImageGraph根植于Freebase,通过网络爬虫解析图像搜索结果并应用启发式数据清理规则(例如,重复数据删除和排序)进行组合,专注于对视觉概念进行推理,实现关系预测和多关系图像检索。

IMGpedia将WikimediaCommons可视化数据与DBpedia元数据连接起来,代表了对mmkg的进一步扩展。IMGpedia强调视觉描述符和相似关系,支持视觉语义查询,但受其常识和百科知识范围的限制。

当前具有代表性的N-MMKG本体和使用这些本体的相应MMKG示例。

目前的kg感知理解和推理研究管道,通常包括四个关键阶段的知识整合。请注意,研究通常采用这些阶段中的一个或多个。

3、多模态知识图谱领域的分类

4、知识图谱与多模态学习集成的综合概述

5、多模态知识图谱的构建及其在下游多模态任务中的应用

本文主要介绍了openai-sora的一些实现思路,回顾了文生视频的一些典型的技术演化,并对知识图谱与大模型的融合进行了论述,里面涉及到许多技术报告,可以进一步看看。

THE END
1.第5集汉字的演变第5集 汉字的演变三乐大掌柜 陕西 0 打开网易新闻 体验效果更佳北京大妈捡漏280万,买价值500万的房子,邻居一句话吓得立马退房 历史老字号 18跟贴 打开APP 不可能“雷声大雨点小”!台媒:赵春山解读大陆惩戒台5位名嘴! 小李同学加油 129跟贴 打开APP 周秉昆失业在街头徘徊,意外救下摔伤老头,哪料老头身份不简单 https://m.163.com/v/video/VYHT0DF13.html
2.在线教学发展轨迹在线教学的发展是一个迭代的过程,在线教学的教、学、评价、管理等整个过程都可以在网上开展。综合来说,在线教学平台的功能可以分为六大类型, 一是上传学习资源,如教学大纲、备课流程、文本资源、音视频资源、流媒体课件(三分屏)、互动学习课件(如模拟)、互动练习课件、AR/VR/MR课件、链接开放教育资源、辅助材料连结https://nic.hyit.edu.cn/info/1131/1615.htm
3.教育的演变:在线学习的兴起课件.pptx教育的演变:在线学习的兴起课件.pptx 16页内容提供方:精品大课件 大小:33.08 MB 字数:约1.34千字 发布时间:2024-03-09发布于广东 浏览人气:41 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)教育的演变:在线学习的兴起课件.pptxhttps://m.book118.com/html/2024/0306/8106112001006043.shtm
4.《看学汉字带孩子领略汉字演变过程》全集动漫剧情简介 :看动画,学汉字,带孩子领略汉字演变过程;从学前到小学阶段都适用的识字课程,避免孩子一读就错,提升识字能力,通过汉字了解中国历史文化,增长见闻,学习古人品德,提升综合素养;轻松易懂的溯源故事,帮助孩子轻松识字,认字、记忆深刻。 选集共40集 第1-15集第16-30集第31-40集 https://imovie.soso.com/cartoon/mnqxe5dpn5xf6nzrg4ztonajx62ndj52xll5nnhyxkrnpu6b5tbnjov227lndxnr4s473m6m.html
5.鹤城机关建设网中共齐齐哈尔市直属机关工作委员会(二)从机关党组织到派出机构的演变过程 1.机关党组织与机关工委的沿革。一是从机关党组织诞生到派出机构。从1928年第一个机关基层党组织诞生到1988年中央派出机构经历了60余年。其中,党的七大规定“各级党政机关均须设立机关基层党组织”。党的八大将机关基层党组织的职能作用写进了党章。当时,党政机关中的党组织,http://www.hcjgjs.gov.cn/show.aspx?NewsID=20837
6.祝智庭胡姣技术赋能后疫情教育创变:线上线下融合教学新样态在混成学习环境中,学生以亲临课堂学习为主、在线学习为辅。混成学习包含混成班和混成校两种应用形式。其中,“1个在校班组+n名居家生”混成班的方式,在校学生按组面对面上课,在家的学生借助媒体异地学习;“2个在校班组合并+n名居家生”混成班的方式,在校学生在两个班级分组学习,其中一个班级在主讲教师的指导下https://www.eduwest.com/html/2021/qianyanlingyu_0330/402.html
7.生命之书:365天的静心冥想最新章节克里希那穆提著学习和累积知识是两回事。学习是不断地在进行的一种觉察的活动,而不是从累积的事物中采取行动。大部分的人都把知识变成了记忆、概念和经验,然后基于这些东西来采取行动。换句话说,我们总是从知识、学会的技术、过往的经验和传统或自己的偏好来采取行动;基于这样的背景、经验和传统,我们做出了各种举动。在这个过程中https://m.zhangyue.com/readbook/12807854/4.html
8.研究性学习:春节的起源及其现代演变1、理论学习法 (1) 查阅资料法。收集并了解关于春节的起源、历史演变以及与春节相关的传统习俗和活动的文字资料和图片说明,例如对联、年画、守岁等。 (2)文献研究法。阅读有关春节起源和发展的相关书籍、学术论文,以及互联网上的权威文章,以获取更深入的理解和全面的视角。 https://www.meipian.cn/50tk0eqq
9.国家自然基金委:近期5个项目申报通知及指南汇总研究极端暴雨条件下水土保持措施对地表水土过程的影响,阐明极端暴雨条件下的流域水沙演变过程与规律,揭示水土保持措施对水沙过程的调控机制、群体效应及阈值;评估黄土高原水土流失重点治理区水土保持措施治理潜力,提出黄土高原水土保持措施空间优化方案与对策。 http://www.cepaedu.cn/news/zrsb/1658.html
10.华东师范大学333教育综合专业学位研究生入学考试大纲1、系统掌握中国教育史的基本知识,把握教育思想演变、教育制度发展、教育实施进程的基本线索,特别是主要教育家的教育思想、重 要的教育制度、重大的教育事件。 2、认真阅读和准确理解有关中国教育史的基本文献,特别是其中的代表性材料,培养严谨、踏实的学风,掌握学习教育历史的基本方法。 3、能够运用教育史学的基本原理https://www.gaodun.com/kaoyan/sh/1220934.html
11.山东第一医科大学附属省立医院(山东省立医院)2024年公开招聘聘用①详细的个人简历:需包含从高中阶段开始的学习经历演变过程; ②本人身份证、岗位要求的学历和学位证书(从高中阶段开始上传)、职业资格证书、住院医师规范化培训合格证明; ③尚未取得毕业证的普通高校2024年毕业生应聘的,须提供教育部学籍在线报告扫描件和毕业生就业推荐表,并应于2024年8月31日前取得相应学历学位证书;https://www.sph.com.cn/Html/News/Articles/32374.html
12.原则,原则瑞·达利欧,瑞·达利欧,原则小说全文阅读3.1 意识到错误是事物演变过程中的自然连带部分 a. 把失败变成好事。 b. 不要为你自己或他人的错误而懊恼,要珍爱它! 3.2 不要纠结于一时的成败,要放眼于达成目标 a. 不要纠结于“埋怨”还是“赞美”,而要专注于“准确”还是“不准确”。 3.3 观察错误模式,判断是否因缺点引起 https://www.wenxue88.com/yuanze/yz_0300.html
13.高盛百页人工智能生态报告:美国仍是主导力量,中国正高速成长(附stack 的演变过程以及和 AI 之间的对应关系 蓝色=专有供应商,橙色 =开源,绿色 =云服务(注意:一些供应商,如 IBM 和 Microsoft 都是专有服务和云服务) 图17:生产中的机器学习:如何在机器学习管道中利用各种开源和云技术 图18:机器学习管道中的关键开源项目。可用的项目\支持公司和风险投资 https://www.jiqizhixin.com/articles/2016-12-12-4
14.西安市优质教育资源共享平台(五)汉字演变展图篇………97 (六)拓展阅读识字篇………102 (七)识字教案篇………105 1.绿野仙踪之汉字历险记………(八)汉字学习考查篇………114 一、二年级争当汉字之星活动安排………114 西安高新第一小学2019-2020年度第二学期“汉字之星”获奖名单……115 (九)教师论文篇………119 趣味识字 快乐http://www.xaeduyun.cn/s26ag/acommonapp/csite/ablog/cblog/ablog/cblog.mblogBrowse.do?blogid=2c90816679e42f6d017a09f1cff3042c
15.newalgorithms,andregretbounds在线线性规划我们研究了随机输入模型下的在线线性规划(OLP) 问题,其中约束矩阵的列以及目标函数中的相应系数是 i.i.d. 来自未知分布,并随着时间的推移依次显示。 几乎现有的在线算法是基于学习线性程序 (LP) 的对偶最优解/价格,他们的分析集中在总目标值和求解约束矩阵和目标中所有系数均为非负的打包 LP。 然而,两个主要的https://blog.csdn.net/weixin_43889128/article/details/125448755
16.思科网络技术学院教程(第6版):网络简介下述特色通过概述每章介绍的主题,帮助读者科学地分配学习时间。 目标:位于每章开头,列出了该章将介绍的核心概念。本书列出的目标与在线课程相同,但通过发问的方式促使读者在阅读过程中找到这些问题的答案。 注意:这些简短的补充内容指出了有趣的事实、节省时间的方法和重要的安全问题。 https://www.epubit.com/bookDetails?id=N15003