我们现在如此依赖的强大人工智能,在未来的某一天会走向何方?我们是否已触及了数据时代的顶峰?Ilya带我们回顾过去十年,并大胆预测AI的未来
Ilya核心观点:
LLM预训练将结束,数据是AI的化石燃料,超级智能是AI领域的未来,超级智能的演化步骤是:代理、推理、理解和自我意识,我们将来要处理的AI系统将是高度不可预测的
以下是Ilya在NeurIPS2024接受颁奖的主题演讲DataisthefossilfuelofAl全文
开场致谢
我首先要感谢组织者选择我们的论文给予支持,这真是太棒了。同时,我还要感谢我的杰出合作者OriolVignales和Kwokli,他们刚才还站在你们面前。
回顾:十年前的演讲
现在你们看到的是一张截图,来自10年前,2014年在蒙特利尔的NeurIPS会议上我做的类似演讲。那时我们还很天真。照片上是当时的我们(“之前”)
这是现在的我们(“之后”)。现在,我希望我看起来更成熟,更有经验
今天我想谈谈这项工作本身,并进行一个10年的回顾。因为这项工作中有很多观点是正确的,但也有一些不太正确。我们可以回顾一下,看看发生了什么,以及它是如何逐渐演变成今天的样子的
我们做了什么?
我们先来回顾一下我们当时做了什么。我会展示10年前那次演讲的幻灯片。总的来说,我们做了以下三件事:
就这么简单。现在我们深入探讨一下细节
深度学习的假设
这是因为,如果你相信深度学习的“教条”,认为人工神经元和生物神经元是相似的,或者至少没有太大的不同,并且你相信神经元是缓慢的,那么任何人类能够快速完成的事情,只要世界上有一个人能够在一秒内完成,那么一个10层的神经网络也能做到。逻辑是这样的:你只需要提取他们的连接方式,然后将其嵌入到你的人工神经网络中。
核心思想:自回归模型
这是当时演讲的另一张幻灯片,上面写着“我们的核心思想”。你可能认出来至少一个东西:这里正在发生自回归的过程。这张幻灯片到底在说什么?它在说,如果你有一个自回归模型,它能很好地预测下一个token,那么它实际上会捕获、抓住下一个序列的正确分布
这在当时是一个相对较新的想法。这并不是第一个自回归神经网络。
但我认为,这是第一个我们真正相信,如果训练得足够好,就能得到任何想要的结果的自回归神经网络。在当时,我们的目标是(现在看来很平常,但当时非常大胆)机器翻译
LSTM:Transformer之前的技术
接下来我要展示一些你们很多人可能从未见过的古老历史:LSTM。对于不熟悉的人来说,LSTM是在Transformer出现之前,可怜的深度学习研究人员使用的东西。它基本上是一个旋转了90度的ResNet。你可以看到它集成了残差连接(现在被称为残差流),但也有一些乘法运算。它比ResNet稍微复杂一点。这就是我们当时用的
并行计算:管道并行
另一个我想强调的特点是并行计算。我们使用了管道并行,每个GPU处理一层。使用管道并行明智吗?现在看来,管道并行并不明智。但我们当时没那么聪明。通过使用8个GPU,我们获得了3.5倍的速度提升
结论:规模化假设
当时演讲的结论幻灯片
可以说是最重要的幻灯片,因为它阐述了规模化假设的开端:如果你有非常大的数据集,并且训练非常大的神经网络,那么成功就是必然的。如果你愿意往好的方面想,可以说,这确实就是之后发生的事情。
核心理念:连接主义
如果你相信人工神经元有点像生物神经元,那么你就有信心相信大型神经网络(即使它们不完全像人类大脑那么大)可以被配置来完成我们人类所做的大部分事情。当然还是有差异,因为人类大脑会自我重构,而我们现在最好的学习算法需要大量的数据。人类在这方面仍然更胜一筹。
预训练时代
我认为所有这些都引领了预训练时代的到来。GPT-2模型、GPT-3模型、缩放法则,我要特别感谢我的前合作者:AlecRadford、GerritKaplan和DariaAmodei,他们的工作至关重要。预训练是今天我们看到所有进步的驱动力。超大型神经网络,在海量数据集上训练
预训练的终结,但预训练终将结束。为什么?因为虽然算力在不断增长,但数据并没有无限增长,因为我们只有一个互联网。你甚至可以说,数据是人工智能的化石燃料。它被创造出来,我们使用它,并且已经达到了数据峰值,不会有更多的数据了。我们只能处理现有的数据。尽管我们还有很多路要走,但我们只有一个互联网。
下一步是什么?
接下来我将稍微推测一下未来会发生什么。当然,很多人都在推测。你可能听说过“智能体”(agents)这个词。人们觉得智能体是未来。更具体一点,但也有点模糊的是合成数据。如何生成有用的合成数据仍然是一个巨大的挑战。还有推理时的算力优化,以及最近在o1模型中看到的,这些都是人们在预训练之后尝试探索的方向。
生物学启示:不同物种的大脑缩放
我还想提一个生物学的例子,我觉得非常有趣。多年前,我也在这个会议上看到一个演讲,演讲者展示了一个图表,显示哺乳动物的身体大小和大脑大小之间的关系。演讲者说,在生物学中,一切都很混乱,但这里有一个特例,即动物的身体大小和大脑大小之间存在紧密的关系
我当时对这个图表产生了好奇,并开始在谷歌上搜索。其中一个图片结果是这样的:你可以看到各种哺乳动物,非人类灵长类动物也是如此。但接下来是人科动物,如尼安德特人,他们和人类的进化关系很近。有趣的是,人科动物的脑体缩放指数具有不同的斜率。
这意味着,生物学中存在一个例子,它展示了某种不同的缩放方式。这很酷。另外,我要强调一下,x轴是对数刻度。所以,事物是有可能不同的。我们目前所做的事情,是我们第一个知道如何进行缩放的事情。毫无疑问,这个领域的所有人都会找到下一步的方向。
关于未来的推测
现在我想花几分钟推测一下更长远的未来,我们都将走向何方?我们正在取得进步,这真是太棒了。如果你是10年前就入行的,你会记得当时的技术有多么不成熟。即便你觉得深度学习是理所当然的,但亲眼看到它取得的进步还是令人难以置信。我无法向那些最近两年才加入这个领域的人传达这种感觉。但我要谈谈超级智能,因为这显然是这个领域的未来。
超级智能在性质上将与我们今天拥有的智能截然不同。我希望在接下来的几分钟里,给你一些具体的直觉,让你感受到这种不同。
现在我们拥有了强大的语言模型,它们是很棒的聊天机器人,它们甚至能做一些事情,但它们也常常不可靠,有时会感到困惑,同时在某些任务上又具有超人的表现。如何协调这种矛盾目前还不清楚。
但最终,以下情况将会发生:
这些系统将真正具有智能体的性质。而现在,它们在任何有意义的层面上都不是智能体,或者说只有非常微弱的智能体性质。它们会进行真正的推理
我还要强调一点,关于推理:
一个系统越能进行推理,就变得越不可预测。我们现在使用的模型都是可预测的,因为我们一直在努力复制人类的直觉。我们大脑在一秒钟内的反应,本质上就是直觉。所以我们用一些直觉训练了模型。但推理是不可预测的。原因之一是,好的国际象棋AI对人类国际象棋高手来说是不可预测的
预测未来是不可能的,一切皆有可能。但最后,我还是要以乐观的态度结束我的演讲