打开AI生成视频的盲盒——专访AI创作先锋卡兹克中国科普作家网|ai人工智能生成视频软件_在线设计

中国科幻研究中心张子瑞2023-12-2919:49

导语

AIGC（人工智能生成内容）的创作风潮正在全球范围内蔓延，为广大创作者实现科幻想象提供了新的动力。为了深入探讨AIGC在科幻创作领域的影响，笔者进行了一系列精彩的访谈。本期特邀的受访嘉宾是卡兹克。

AI创作的奇幻漂流

Q：为何取名“数字生命卡兹克”，有什么寓意吗？您是从什么时候开始应用AI进行创作的？

2022年12月，随着ChatGPT和AI绘图的兴起，我发现这些工具极大地契合了我的需求，特别是对于像我这样追求效率的“懒人”来说。我将探索这些新工具的过程视作一种游戏，不断寻找新的技巧来提高效率，就像玩游戏一样。我沉迷于探索各种模态和工具，正是这种游戏化的心态，让我在AIGC应用和创新的道路上越走越远。

图2：郭帆导演与卡兹克的合照

在2023年8至9月期间，我也跟其他的一些影视从业者进行了一些交流，可以感觉到大家都带着一种焦虑的心态，似乎还未完全确定AI技术能在多大程度上帮助影视行业降低成本、提高效率，甚至是否有可能彻底颠覆整个行业。AI技术究竟是仅仅作为辅助工具，还是能成为改变行业游戏规则的关键因素，那时候大家都还在探索中。

在最近两个月（2023年11月至12月），我发现大家的焦虑似乎减轻了很多。很多影视从业者开始将AI视为一项实用的工具，一个可以被整合进影视制作流程，用以提高效率和降低成本的工具。举个例子，影视行业可以先利用AI软件进行初步剪辑，然后在此基础上进行更精细的编辑。以后Al技术可能会有非常多类似的优化，以此促进创作效率的提升。

图3：名人再现系列作品

至于题材选择，我倾向于避免写实或实拍类型，如爱情片或纪录片。因为在这些领域，AI的作用可能不如实际拍摄。而对于特效密集型的电影，例如科幻电影的几乎所有场景都需要进行概念设计，所以这类电影的制作流程更像大型流水线作业，里面有非常多的工序。在这种情况下，AI可以在某些环节提供降本增效的优势，例如在分镜、色彩调整或概念设计方面提供辅助。在动态预演方面，我也可以利用AI快速制作几个镜头调度，以探索成本效益。

Q：在您的AI创作过程中，遇到哪些共性问题？

比如我使用pika1.0（AI视频生成工具）做了一个特别的镜头，场景是一个小女孩在烟花下祈福。我需要的是一种运镜效果，镜头从低处缓缓上升，捕捉到烟花在空中绽放的瞬间。为了达到这一效果，我制作了超过100段短视频，最终勉强完成了一个持续11秒的可用镜头。pika每次只能生成4秒钟，生成好第一段4秒后，得继续再加4秒，每次加时，制作难度都在增加，呈指数级增长。尽管如此，经过半小时多的不懈努力，我最终还是生成出了这个镜头。但如果要自己从头开始制作这样的镜头，难度是相当大的。

图4-1：话题谈到的镜头

图4-2：失败镜头

前沿AI技术体验

Q：你现在有没有碰到过新技术解决老问题的情况？现在在创作过程中最常用的工具有哪些？这其中有哪些AI应用固化下来？

在探索AI视频领域时，我发现新技术能够有效解决许多长期存在的问题。回想起我最初制作视频时，控制物体运动和构图是一个挑战。比如，在编辑过程中，我可以在某种程度上控制构图，但有时候视频中的某些动态效果可能并不符合我的预期。我有时想要修改这些动态，或添加更有趣的元素，但这在传统工具中很难实现。然而，pika推出的一款名为“视频扩展”的工具彻底改变了这一局面。现在，我可以调整视频的比例，缩小原有画面或将其移至右侧来进行扩展。这大大增强了我在构图上的控制力。此外，pika的区域修改功能允许我对视频中的不理想动态进行调整，解决了我之前无法解决的问题。现在，我至少有了更多的选择来改进作品。总的来说，这些新技术为我解决了过去的许多痛点。

常用工具方面，说实话，尽管市面上出现了许多新工具，但在我看来，真正的“大哥”还是那几个，它们的迭代速度更快。从2023年8月份至今，我的工作流程基本没有太大变化——在AI绘图方面，我依然使用Midjourney和StableDiffusion（AI绘画工具），但最近加入了DALL·E3（OpenAI出品的绘图工具），因为它在语义理解方面实在是太出色了，我有时会用它做一些底图。至于声音处理，我使用SVC和elevenlabs的TTS（均为AI语音合成工具），这两个工具已经成为我的标准配置。偶尔我也会尝试使用国内的“出门问问”中的“魔音工坊”。在照片驱动的AI工具方面，我主要使用“奇妙元”。创作AI视频时主要使用PIKA和runway。还是这些工具，但他们自己迭代速度会更快。

图5：上述工具组图

Q：近期“文字生成视频”非常火热，请谈谈对这个技术的理解。与此前“文字生成图片”等技术相比，有何发展？目前这项技术的局限和发展出路又在何方？还有哪些可能的技术路径吗？

实际上，“文字生成视频”和“文字生成图片”在本质上并没有太大区别。如果大家体验过runway就会发现，“文字生成图片”实际上是“文字生成视频”制作过程中的一个阶段，它的流程是这样的：首先生成四张图像，然后基于选定的图像，再去生成视频。我通常会先用一段文字来生成这个四秒视频的第一帧，然后以这一帧为起点，向后推进，预测每一秒视频的画面，但可控性很差。

视频生成的发展路径，按照目前所采用的扩散技术很难解决。现在我注意到有两条路：

第一条路，利用物理引擎来辅助。runway最近发布了一项公告，他们计划招募人员来开发一个“世界模型”。这个模型旨在解决现有技术的局限性，因为目前的技术主要是从第一帧向后扩散，而没有考虑背后的物理规律。例如，一个水杯从空中掉落到地上时会破碎，但现有的技术并不了解这些物理规律，包括光影变化等。所以他们实际上缺少一个物理引擎或者是“世界模型”来告诉他们这些规律。我知道斯坦福有一个团队也在研究这个问题，但是他们已经研究了快一年，实际上还没有什么成果。这是一条可能的道路，如果能够解决这个问题，效果可能会非常好。

图6：runway公告（图片来自runway官网）

图7商汤科技Story-to-Motion模型论文

图8-2AI3D测评内容

AI赋能个人成长

Q：除了AI艺术创作，还用AI做过哪些有趣的尝试？

实际上，在我看来，AI目前在很多领域的实际应用并不多。它主要被用于内容创作和商业产品开发方面。在其他领域，使用AI的机会相对较少，因为它的现有机制限制了它的应用范围，使其无法融入广泛的娱乐行业或用于更有趣的活动。

图9：用ChatGPT写高考作文

Q：作为与AI协同的资深玩家，您认为人类创作的优势在哪里？

我始终认为人类在创意方面具有独特的优势。这种创意源于人类独特的思维方式和讲故事的能力，这些能力从智人时代延续至今，一直是维系社会的关键。我们通常称之为创意。虽然之前我也曾赞扬AI的创意能力，认为它在某些方面超越了人类的边界，但经过长期使用和观察，我的观点有所变化。例如，AI能够编写出“今晚我吃了一个桌子和一个凳子”这样超乎寻常的句子。但这真的算是创意吗？它更像是一种偏离人类常识的表达。虽然AI在医药领域，如帮助开发靶向药物等方面表现出色，但在文学创作上，它真的能超越人类吗？我现在认为并非如此。AI可以用来写剧本、绘图、制作视频，但在创意方面仍有局限。即便我用AI写了许多剧本和标题，它们的创意逻辑似乎都相当简单，只是基于现有数据集的排列组合。

当模型参数变得更大，或者像OpenAI这样的公司放松道德和场景的束缚时，情况可能会有所改变。很多公司现在为了解决幻觉问题，对AI模型进行了严格的对齐，限制它只能表达知识库中已有的内容。但人类的创意往往源于胡编乱造。如果有公司能够在底层算法上取得突破，同时放宽对AI的限制，那么AGI（通用人工智能）时代的到来就不再是遥不可及的梦想了。

图10：AI生成创意图片“今晚我吃了一个桌子和凳子”（DALL·E3生成）

受访者简介

卡兹克

卡兹克，原名张仁杰。互联网基金行业设计总监、AI业务总监，ChatFund负责人。公众号“数字生命卡兹克”主理人，与AI共创的《流浪地球3》“预告片”获全网千万播放量。

THE END

打开AI生成视频的盲盒——专访AI创作先锋卡兹克中国科普作家网

5款AI视频生成工具介绍

ai自动生成视频的软件有哪些？3款剪辑工具分享

ai自动生成视频软件ai智能剪辑工具推荐

抖音AI生成软件是什么：揭秘抖音AI视频创作工具

AI视频大师AI视频一键生成

ai短视频生成器十大AI视频自动生成器推荐

AI图生视频工具app下载AI图生视频工具安卓版下载v1.1.3.4

提升自媒体影音创作效率，推荐你试试这10款AI工具！

AI智能自动生成短视频软件,批量制作自媒体短视频利器万彩微影,送会员激活码

打开AI生成视频的盲盒——专访AI创作先锋卡兹克中国科普作家网

2024年8个最佳AI视频生成工具

推荐哪个AI软件能一键生成影视解说文案及视频内容创作工具