等不及了!马斯克突然开源Grok:3140亿参数巨无霸,免费可商用!全球首个类Sora也抢先开源了!源代码埃隆马斯克视频生成模型tensorflow

代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型——

就是说,这是当前开源模型中参数量最大的一个。

消息一出,Grok-1的GitHub仓库已揽获4.5k标星,并且还在库库猛涨。

那么,话不多说,来看看马斯克这波为怼OpenAI,究竟拿出了什么真东西。

Grok-1说开源就开源

此次开源,xAI发布了Grok-1的基本模型权重和网络架构。

具体来说是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用(例如对话)进行微调。

结构上,Grok-1采用了混合专家(MoE)架构,包含8个专家,总参数量为314B(3140亿),处理Token时,其中的两个专家会被激活,激活参数量为86B。

单看这激活的参数量,就已经超过了密集模型Llama2的70B,对于MoE架构来说,这样的参数量称之为庞然大物也毫不为过。

不过,在GitHub页面中,官方也提示,由于模型规模较大(314B参数),需要有足够GPU和内存的机器才能运行Grok。

这里MoE层的实现效率并不高,选择这种实现方式是为了避免验证模型的正确性时需要自定义内核。

模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。

而且这个“足够的GPU”,要求不是一般的高——YC上有网友推测,如果是8bit量化的话,可能需要8块H100。

除了参数量前所未有,在工程架构上,Grok也是另辟蹊径——

没有采用常见的Python、PyTorch或Tensorflow,而是选用了Rust编程语言以及深度学习框架新秀JAX。

而在官方通告之外,还有许多大佬通过扒代码等方式揭露了Grok的更多技术细节。

比如来自斯坦福大学的AndrewKeanGao,就针对Grok的技术细节进行了详细解释。

首先,Grok采用了使用旋转的embedding方式,而不是固定位置embedding,旋转位置的embedding大小为6144,与输入embedding相同。

当然,还有更多的参数信息:

除了Gao,还有英伟达AI科学家EthanHe(何宜晖)指出,在专家系统的处理方面,Grok也与另一知名开源MoE模型Mixtral不同——

Grok对全部的8个专家都应用了softmax函数,然后从中选择top2专家,而Mixtral则是先选定专家再应用softmax函数。

而至于有没有更多细节,可能要看官方会不会发布进一步的消息了。

另外,值得一提的是,Grok-1采用的是Apache2.0license,也就是说,商用友好。

为怼OpenAI怒而Open

大家伙知道,马斯克因为OpenAI不Open,已经向旧金山高等法院提起诉讼,正式把OpenAI给告了。

不过当时马斯克自己搞的Grok也并没有开源,还只面向的付费用户开放,难免被质疑双标。

大概是为了堵上这个bug,马斯克在上周宣布:

本周,xAI将开源Grok。

有xAI新晋员工感慨说:

这将是激动人心的一年,快系好安全带吧。

有人已经期待起Grok作为一个开源模型,进一步搅动大模型竞争的这一池水。

不过,也并不是每个人都买马斯克的账:

不过说归说,多线并进的马斯克,最近大事不止开源Grok这一件。

SpaceX则完成了第三次星舰发射,虽然最后功败垂成,但又史无前例地迈进了一大步。

推特则开源了推荐算法,然后迎来了一波自然流量新高峰。

别人都是youcanyouup,nocannobb…马斯克不一样,bbup不选择,边喊边干,还都干成了。

别等OpenAI了,全球首个类Sora抢先开源!

所有训练细节/模型权重全公开,成本仅1万美

【导读】OpenAISora还没用上,国产Sora刚刚正式宣布全面开源!「Open-Sora1.0」所有的训练细节模型权重全面开源,1万美元64块GPU复现,训练成本直降46%。

不久前OpenAISora以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。

继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sora1.0」——涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球AI热爱者共同推进视频创作的新纪元。

先睹为快,我们先看一段由Colossal-AI团队发布的「Open-Sora1.0」模型生成的都市繁华掠影视频。

Open-Sora1.0生成的都市繁华掠影

这仅仅是Sora复现技术冰山的一角,关于以上文生视频的模型架构、训练好的模型权重、复现的所有训练细节、数据预处理过程、demo展示和详细的上手教程,Colossal-AI团队已经全面免费开源在GitHub。

全面解读Sora复现方案

接下来,我们将深入解读Sora复现方案的多个关键维度,包括模型架构设计、训练复现方案、数据预处理、模型生成效果展示以及高效训练优化策略。

模型架构设计

模型采用了目前火热的DiffusionTransformer(DiT)[1]架构。

STDiT结构示意图

整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的VariationalAutoencoder(VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(textembedding)一起训练STDiT扩散模型。

在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(promptembedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。

模型的训练流程

训练复现方案

我们向该团队了解到,Open-Sora的复现方案参考了StableVideoDiffusion(SVD)[3]工作,共包括三个阶段,分别是:

1.大规模图像预训练;

2.大规模视频预训练;

3.高质量视频数据微调。

每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。

训练方案三阶段

第一阶段:大规模图像预训练

第一阶段通过大规模图像预训练,借助成熟的文生图模型,有效降低视频预训练成本。

作者团队向我们透露,通过互联网上丰富的大规模图像数据和先进的文生图技术,我们可以训练一个高质量的文生图模型,该模型将作为下一阶段视频预训练的初始化权重。

同时,由于目前没有高质量的时空VAE,他们采用了StableDiffusion[5]模型预训练好的图像VAE。该策略不仅保障了初始模型的优越性能,还显著降低了视频预训练的整体成本。

第二阶段:大规模视频预训练

我们了解到,这个阶段需要使用大量视频数据训练,保证视频题材的多样性,从而增加模型的泛化能力。第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。

其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。

Colossal-AI团队使用了PixArt-alpha[2]的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5[6]模型作为文本编码器。同时他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。

第三阶段:高质量视频数据微调

第三阶段对高质量视频数据进行微调,显著提升视频生成的质量。

作者团队提及第三阶段用到的视频数据规模比第二阶段要少一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。

作者团队表示,在Open-Sora的复现流程中,他们使用了64块H800进行训练。

第二阶段的训练量一共是2808GPUhours,约合7000美元。第三阶段的训练量是1920GPUhours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。

数据预处理

为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练,包括公开视频数据集下载,长视频根据镜头连续性分割为短视频片段,使用开源大语言模型LLaVA[7]生成精细的提示词。

作者团队提到他们提供的批量视频标题生成代码可以用两卡3秒标注一个视频,并且质量接近于GPT-4V。最终得到的视频/文本对可直接用于训练。

借助他们在GitHub上提供的开源代码,我们可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。

基于数据预处理脚本自动生成的视频/文本对

模型生成效果展示

下面我们来看一下Open-Sora实际视频生成效果。比如让Open-Sora生成一段在悬崖海岸边,海水拍打着岩石的航拍画面。

再让Open-Sora去捕捉山川瀑布从悬崖上澎湃而下,最终汇入湖泊的宏伟鸟瞰画面。

除了上天还能入海,简单输入prompt,让Open-Sora生成了一段水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋。

Open-Sora还能通过延时摄影的手法,向我们展现了繁星闪烁的银河。

如果你还有更多视频生成的有趣想法,可以访问Open-Sora开源社区获取模型权重进行免费的体验。

值得注意的是,作者团队在Github上提到目前版本仅使用了400K的训练数据,模型的生成质量和遵循文本的能力都有待提升。例如在上面的乌龟视频中,生成的乌龟多了一只脚。Open-Sora1.0也并不擅长生成人像和复杂画面。

作者团队在Github上列举了一系列待做规划,旨在不断解决现有缺陷,提升生成质量。

高效训练加持

除了大幅降低Sora复现的技术门槛,提升视频生成在时长、分辨率、内容等多个维度的质量,作者团队还提供了Colossal-AI加速系统进行Sora复现的高效训练加持。

通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。

同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8xH800)可以无阻碍地进行1分钟的1080p高清视频训练任务。

此外,在作者团队的报告中,我们也发现STDiT模型架构在训练时也展现出卓越的高效性。

和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。

THE END
1.承认吧!计算机真的能自己生成方案了,一键图纸生成…众人皆可!Noah:我的操作过程简洁,无需学习;只需填表就可以生成设计方案。所以只要是了解方案设计流程的设计师们都可以直接上手。 三问诺亚: 3、真的可以做到让计算机自己生成方案? Noah:是的。客观的讲我可以根据您的具体需求,在规定的模式下生成无数种方案,同时提供准确的数据指标对比和成果分析图纸。 http://www.archcollege.com/archcollege/2020/07/47846.html
2.商务网站建设方案(精选12篇)针对此网站,我们预计在10-12个工作日,其中不包括会员注册模块和静态页面生成,如果贵公司要求,我们预计在15个工作日完成 六、后期服务 1、本公司提供系统使用说明书,对客户进行技术上的指导 2、对网站系统进行免费一年的管理和维护 七、网站方案报价 1、不包括静态页面生成技术和会员注册,报价为2800元 https://www.ruiwen.com/jianshefangan/5430104.html
3.酷家乐怎么生成短视频?酷家乐多个方案批量生成短视频的技巧酷家乐中设计方案想要生成视频,该怎么实现呢?下面我们就来看看酷家乐多个方案批量生成短视频的技巧 分享酷家乐如何将多个方案批量生成短视频的经验。 首先打开软件,点击「批量制作」,右侧会出现各式各样的视频模板,你可以根据不同的类型,构图,风格来筛选各种模板。https://www.jb51.net/softjc/893996.html
4.u钙网:免费logo设计在线生成器U钙网提供了免费的基础服务,用户可以无限制地免费下载设计出的logo。对于需要更高级服务的用户,U钙网可能提供额外的付费服务,具体的价格信息可以在官方网站上查看或直接联系客服获取。 常见问题解答 Q1: 如何开始设计一个logo? A1: 用户只需访问U钙网,输入所需的文字信息,智能AI系统就会自动生成多个logo设计方案供用https://www.zhanid.com/daohang/uugai.html
5.丢盖网免费logo设计生成,logo在线制作丢盖网是一个专注于在线LOGO设计的便捷工具,它提供了一个用户友好的平台,允许用户通过简单的输入来生成专业的LOGO设计方案。以下是关于丢盖网的一些详细信息: 网站功能:丢盖网允许用户通过输入LOGO名字来生成海量的LOGO方案,并且用户可以直接无限制地免费下载这些设计方案。这使得它成为寻求快速且经济实惠LOGO设计解决方案https://www.bgrdh.com/sites/37603.html
6.广告宣传合同范本(通用20篇)甲方委托乙方执行举办于___年___月___日的“ 活动”乙方负责向甲方提供活动实施细化方案制定、活动执行、活动现场布置、道具设计及制作、安装等代理事宜(具体事项以附件约定为准)。 二、费用及付款方式 1、合同总价款 合同总价款:¥ 元整,(大写:___人民币 )。 2、本合同承揽费用已经包含https://www.jy135.com/hetongfanben/1076151.html
7.商标设计商标设计logo免费生成器商标标志logo免费一键生成方案少,质量不确定 提高商标注册率,为何我们能做到 传统服务 设计公司 完成设计 设计提交 客户 确定方案 委托注册 代理公司 提交注册 注册效率低 万动力 万动力 设计方案 设计提案 注册率低 重新设计 牛人查重 注册排查 提交注册 客户 提交注册 注册效率高 https://www.wandongli.com/trademark/
8.第三波!2024年1月精选实用设计工具合集优设网网站的图片内容主题覆盖了几个主流的领域,比如商业、美食和静物,在图片的下载页面,你不仅可以直接下载图片素材,而且还有基于图片生成的配色方案供你使用,直接使用这个配色方案,可以让图片和整体设计更加协调。 6、免费的矢量 SVG 涂鸦素材 https://illustrations.run/scribbles-mix/https://www.uisdc.com/2024-1-design-resources-vol3
9.网旗云科酒店网络解决方案智能无线AP一同组成完备的无线覆盖方案,为用户提供便捷的WLAN服务。该设备 内置PORTAL认证服务,并可与计费系统联动生成无线账号,方便用户使用。支持 无线用户使用状态统计,支持AP固件统一升级。 技术参数: 功能及技术指标 具体参数要求 CPU 双核处理器,频率≥1.2GHz 内存 ≥128M FLASH ≥16M 网络接口 ≥5个10/100/10http://www.net-flag.com/jiudianhangyejijuefangan/78.html
10.UIColors:免费的在线配色工具,专为整体色彩搭配设计新媒派UI Colors 是一个免费的在线配色工具,专为提供色彩搭配整体解决方案而设计。用户可以选择一种颜色,UI Colors 会自动生成与之搭配的多种颜色,并将这些颜色组合成一个用色范例, UI Colors简介: UI Colors 是一个免费的在线配色工具,专为提供色彩搭配整体解决方案而设计。用户可以选择一种颜色,UI Colors 会自动https://pidoutv.com/sites/22297.html
11.某同学取一定浓度盐酸与石灰石反应.将生成的气体通入澄清石灰水中某同学取一定浓度盐酸与石灰石反应,将生成的气体通入澄清石灰水中,始终未见浑浊。为了弄清原因,他设计以下方案,进行探究、验证,请你帮他补充完整以下内容。 问题猜想 实验步骤 实验现象 实验结论 原因一:石灰水已完全变质 取少量未通入CO2的澄清石灰水于试管中,向试管中滴加__试剂。 http://www.1010jiajiao.com/czhx/shiti_id_0d445a4046859ee08b39a5649fd3190d
12.10个建筑AI工具,从设计到施工全覆盖!肯定有你从来没听过的利用Midjourney或者Stable Diffusion来生成建筑图片,大家都已经比较熟悉,我们也曾用很大篇幅,讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。 今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫描应用、施工管理等方向,和你聊聊10款不同的AI工具,看看有没有你没听说过https://www.hxsd.com/information/9177/
13.吉祥物ip设计方案素材网站图片免费下载UMEOW原创IP设计 吉祥物案例 631 小前拳 潮兔中国年 3 上海万有瘾力设计 交通设计集团IP吉祥物设计方案 39 jio克Jack 卷云闪创 智能家居吉祥物设计方案卡通IP设计 8 末裔Mia_San_Mia 不是喂amao AI 客服、数字人定制/生成,SD图片生成等热门 AI 解决方案钜惠进行时,一站式搞定广告 https://www.zcool.com.cn/tag/ZMzEwMjMxMg==.html
14.洛阳市采取19项措施持续提升自然资源要素保障能力市县对政府投资房屋建筑类项目、社会投资带方案出让类项目、社会投资中小型工程项目,由项目责任主体同步组织编制建设工程设计方案、施工图设计方案,纳入土地出让方案,实施带方案供地。对政府投资基础设施线性工程类项目,可由项目建设单位(即住建、交通、公路、水电气暖管线单位)作为责任主体,组织开展方案设计,实施带方案供地。https://www.henan.gov.cn/2022/06-13/2466992.html
15.版下载2024官方最新版KOOLVR电脑版官方免费下载设计方案一键生成 在酷家乐平台上设计的方案可在Kool VR中一键生成相应的VR体验方案,设计过程无需高配电脑,任意联网电脑均可设计。 效果逼真交互多样 生成的方案经过专业游戏引擎烘焙,光影效果逼真。在VR环境内可进行点对点移动,开关灯,煤气灶,水龙头,电视,以及橱柜的门等操作。 http://www.onlinedown.net/soft/1226926.htm
16.美间设计在线软装设计工具美间(www.meijian.com)是专注于家居设计营销谈单的网站,在线软装设计工具,10秒搞定设计方案。美间同时还免费提供海量正版设计素材、软装和提案PPT模板、海报模板等。美间,让设计更简单,更高效!http://meijian.com/
17.GJG广联达钢结构建模:革新钢铁建筑设计BIM免费教程三维建模技术可以将设计对象以立体模型的形式呈现出来,方便设计人员对结构进行观察和分析。参数化建模技术可以通过设定不同的参数值来生成不同的结构模型,从而实现设计的灵活性和可变性。自动化设计技术可以根据设计要求和规范要求,自动生成符合要求的结构设计方案,大大减轻了设计人员的负担。http://www.tuituisoft.com/bim/90375.html
18.PPT演讲实用技巧但这种颜色可能与咱们预设的背景色很不协调,想更改吗?那么可以点击菜单命令“格式-幻灯片设计”,在打开的“幻灯片设计”任务窗格下方的“编辑配色方案…”。在弹出的“编辑配色方案”对话框中,点击“自定义”选项卡,然后就可以对超链接或已访问的超链接文字颜色进行相应的调整了。https://www.yjbys.com/edu/yanjiang/44914.html
19.技术革命!SUAPP灵感动画和实时渲染上线!教程文章设计师在方案展示阶段,可以通过灵感动画功能快速将方案转为视频,在设计展示和客户沟通时更加顺利。灵感动画支持“图生视频”和“视频滤镜”两大版块。在进行生成视频操作时,设计师通过简单选择动画模式、风格、摄像机运动、动画强度等参数,甚至画面文字描述进行辅助,是全新的智能视觉体验。https://www.sketchupbar.com/article-869-1.html
20.劳动主题活动设计方案(通用15篇)为确保活动顺利开展,常常需要预先准备活动方案,活动方案具有内容条理清楚,步骤清晰的特点。活动方案应该怎么制定呢?下面是小编帮大家整理的劳动主题活动设计方案(通用15篇),希望对大家有所帮助。 劳动主题活动设计方案1 在“五一”国际劳动节来临之际,我校决定开展以“红领巾爱劳动”为主题的系列活动。 https://www.yuwenmi.com/fanwen/huodongfangan/2907627.html
21.实验设计方案范文解析图2甲中NaOH浓溶液除去乙酸乙酯中混有的少量乙酸,乙酸乙酯在NaOH浓溶液中会发生水解而影响乙酸乙酯的产量,方案设计不严密,故选项A错误。图2乙中的目的是用AgNO3溶液除去氯气中的少量氯化氢,氯气能与水反应生成盐酸和次氯酸,与AgNO3反应生成AgCl沉淀,促进氯气与水反应, AgNO3溶液也能吸收氯气,所以选项B方案设计错https://www.haoqikan.com/haowen/9876.html
22.航测成图技术设计方案5 技术方案 5.1 航空摄影:本次航摄资料利用无人机搭载高分辨率数码相机拍摄。按照1:1000比例尺成图要求及无人机飞行相关要求设计飞行实施。 5.2 像片控制测量:采用RTK测量或双频接收机双参考站模式按快速静态方式施测。 采用区域网布点法,航向按照8-10条基线,旁向1-2条航线布设像片平高控制点的原则进行布点。 https://www.celiang.net/18430.html
23.小程序Logo一键生成器:为企业提供极简设计解决方案2. 快速生成:用户只需选择自己喜欢的设计方案,一键生成Logo,即可快速获取小程序Logo设计方案。 3. 全程免费:小程序Logo一键生成器是免费的,无需任何付费,没有水印,为企业省去了设计费用。 小程序Logo一键生成器的使用非常简单,只需打开在线工具,选择自己喜欢的设计方案,再根据不同需要进行个性化调整,就能轻松生成一https://www.bamuwu.com/details/3144