中国科幻研究中心张子瑞2023-12-2919:49
导语
AIGC(人工智能生成内容)的创作风潮正在全球范围内蔓延,为广大创作者实现科幻想象提供了新的动力。为了深入探讨AIGC在科幻创作领域的影响,笔者进行了一系列精彩的访谈。本期特邀的受访嘉宾是卡兹克。
AI创作的奇幻漂流
Q:为何取名“数字生命卡兹克”,有什么寓意吗?您是从什么时候开始应用AI进行创作的?
2022年12月,随着ChatGPT和AI绘图的兴起,我发现这些工具极大地契合了我的需求,特别是对于像我这样追求效率的“懒人”来说。我将探索这些新工具的过程视作一种游戏,不断寻找新的技巧来提高效率,就像玩游戏一样。我沉迷于探索各种模态和工具,正是这种游戏化的心态,让我在AIGC应用和创新的道路上越走越远。
图2:郭帆导演与卡兹克的合照
在2023年8至9月期间,我也跟其他的一些影视从业者进行了一些交流,可以感觉到大家都带着一种焦虑的心态,似乎还未完全确定AI技术能在多大程度上帮助影视行业降低成本、提高效率,甚至是否有可能彻底颠覆整个行业。AI技术究竟是仅仅作为辅助工具,还是能成为改变行业游戏规则的关键因素,那时候大家都还在探索中。
在最近两个月(2023年11月至12月),我发现大家的焦虑似乎减轻了很多。很多影视从业者开始将AI视为一项实用的工具,一个可以被整合进影视制作流程,用以提高效率和降低成本的工具。举个例子,影视行业可以先利用AI软件进行初步剪辑,然后在此基础上进行更精细的编辑。以后Al技术可能会有非常多类似的优化,以此促进创作效率的提升。
图3:名人再现系列作品
至于题材选择,我倾向于避免写实或实拍类型,如爱情片或纪录片。因为在这些领域,AI的作用可能不如实际拍摄。而对于特效密集型的电影,例如科幻电影的几乎所有场景都需要进行概念设计,所以这类电影的制作流程更像大型流水线作业,里面有非常多的工序。在这种情况下,AI可以在某些环节提供降本增效的优势,例如在分镜、色彩调整或概念设计方面提供辅助。在动态预演方面,我也可以利用AI快速制作几个镜头调度,以探索成本效益。
Q:在您的AI创作过程中,遇到哪些共性问题?
比如我使用pika1.0(AI视频生成工具)做了一个特别的镜头,场景是一个小女孩在烟花下祈福。我需要的是一种运镜效果,镜头从低处缓缓上升,捕捉到烟花在空中绽放的瞬间。为了达到这一效果,我制作了超过100段短视频,最终勉强完成了一个持续11秒的可用镜头。pika每次只能生成4秒钟,生成好第一段4秒后,得继续再加4秒,每次加时,制作难度都在增加,呈指数级增长。尽管如此,经过半小时多的不懈努力,我最终还是生成出了这个镜头。但如果要自己从头开始制作这样的镜头,难度是相当大的。
图4-1:话题谈到的镜头
图4-2:失败镜头
前沿AI技术体验
Q:你现在有没有碰到过新技术解决老问题的情况?现在在创作过程中最常用的工具有哪些?这其中有哪些AI应用固化下来?
在探索AI视频领域时,我发现新技术能够有效解决许多长期存在的问题。回想起我最初制作视频时,控制物体运动和构图是一个挑战。比如,在编辑过程中,我可以在某种程度上控制构图,但有时候视频中的某些动态效果可能并不符合我的预期。我有时想要修改这些动态,或添加更有趣的元素,但这在传统工具中很难实现。然而,pika推出的一款名为“视频扩展”的工具彻底改变了这一局面。现在,我可以调整视频的比例,缩小原有画面或将其移至右侧来进行扩展。这大大增强了我在构图上的控制力。此外,pika的区域修改功能允许我对视频中的不理想动态进行调整,解决了我之前无法解决的问题。现在,我至少有了更多的选择来改进作品。总的来说,这些新技术为我解决了过去的许多痛点。
常用工具方面,说实话,尽管市面上出现了许多新工具,但在我看来,真正的“大哥”还是那几个,它们的迭代速度更快。从2023年8月份至今,我的工作流程基本没有太大变化——在AI绘图方面,我依然使用Midjourney和StableDiffusion(AI绘画工具),但最近加入了DALL·E3(OpenAI出品的绘图工具),因为它在语义理解方面实在是太出色了,我有时会用它做一些底图。至于声音处理,我使用SVC和elevenlabs的TTS(均为AI语音合成工具),这两个工具已经成为我的标准配置。偶尔我也会尝试使用国内的“出门问问”中的“魔音工坊”。在照片驱动的AI工具方面,我主要使用“奇妙元”。创作AI视频时主要使用PIKA和runway。还是这些工具,但他们自己迭代速度会更快。
图5:上述工具组图
Q:近期“文字生成视频”非常火热,请谈谈对这个技术的理解。与此前“文字生成图片”等技术相比,有何发展?目前这项技术的局限和发展出路又在何方?还有哪些可能的技术路径吗?
实际上,“文字生成视频”和“文字生成图片”在本质上并没有太大区别。如果大家体验过runway就会发现,“文字生成图片”实际上是“文字生成视频”制作过程中的一个阶段,它的流程是这样的:首先生成四张图像,然后基于选定的图像,再去生成视频。我通常会先用一段文字来生成这个四秒视频的第一帧,然后以这一帧为起点,向后推进,预测每一秒视频的画面,但可控性很差。
视频生成的发展路径,按照目前所采用的扩散技术很难解决。现在我注意到有两条路:
第一条路,利用物理引擎来辅助。runway最近发布了一项公告,他们计划招募人员来开发一个“世界模型”。这个模型旨在解决现有技术的局限性,因为目前的技术主要是从第一帧向后扩散,而没有考虑背后的物理规律。例如,一个水杯从空中掉落到地上时会破碎,但现有的技术并不了解这些物理规律,包括光影变化等。所以他们实际上缺少一个物理引擎或者是“世界模型”来告诉他们这些规律。我知道斯坦福有一个团队也在研究这个问题,但是他们已经研究了快一年,实际上还没有什么成果。这是一条可能的道路,如果能够解决这个问题,效果可能会非常好。
图6:runway公告(图片来自runway官网)
图7商汤科技Story-to-Motion模型论文
图8-2AI3D测评内容
AI赋能个人成长
Q:除了AI艺术创作,还用AI做过哪些有趣的尝试?
实际上,在我看来,AI目前在很多领域的实际应用并不多。它主要被用于内容创作和商业产品开发方面。在其他领域,使用AI的机会相对较少,因为它的现有机制限制了它的应用范围,使其无法融入广泛的娱乐行业或用于更有趣的活动。
图9:用ChatGPT写高考作文
Q:作为与AI协同的资深玩家,您认为人类创作的优势在哪里?
我始终认为人类在创意方面具有独特的优势。这种创意源于人类独特的思维方式和讲故事的能力,这些能力从智人时代延续至今,一直是维系社会的关键。我们通常称之为创意。虽然之前我也曾赞扬AI的创意能力,认为它在某些方面超越了人类的边界,但经过长期使用和观察,我的观点有所变化。例如,AI能够编写出“今晚我吃了一个桌子和一个凳子”这样超乎寻常的句子。但这真的算是创意吗?它更像是一种偏离人类常识的表达。虽然AI在医药领域,如帮助开发靶向药物等方面表现出色,但在文学创作上,它真的能超越人类吗?我现在认为并非如此。AI可以用来写剧本、绘图、制作视频,但在创意方面仍有局限。即便我用AI写了许多剧本和标题,它们的创意逻辑似乎都相当简单,只是基于现有数据集的排列组合。
当模型参数变得更大,或者像OpenAI这样的公司放松道德和场景的束缚时,情况可能会有所改变。很多公司现在为了解决幻觉问题,对AI模型进行了严格的对齐,限制它只能表达知识库中已有的内容。但人类的创意往往源于胡编乱造。如果有公司能够在底层算法上取得突破,同时放宽对AI的限制,那么AGI(通用人工智能)时代的到来就不再是遥不可及的梦想了。
图10:AI生成创意图片“今晚我吃了一个桌子和凳子”(DALL·E3生成)
受访者简介
卡兹克
卡兹克,原名张仁杰。互联网基金行业设计总监、AI业务总监,ChatFund负责人。公众号“数字生命卡兹克”主理人,与AI共创的《流浪地球3》“预告片”获全网千万播放量。