NeurIPS2024Ilya重磅演讲：预训练将结束，接下来是超级智能「自我意识」智能体人工智能神经网络|learningonlinemanipal_在线学习

我们现在如此依赖的强大人工智能，在未来的某一天会走向何方？我们是否已触及了数据时代的顶峰？Ilya带我们回顾过去十年，并大胆预测AI的未来

Ilya核心观点：

LLM预训练将结束，数据是AI的化石燃料，超级智能是AI领域的未来，超级智能的演化步骤是：代理、推理、理解和自我意识，我们将来要处理的AI系统将是高度不可预测的

以下是Ilya在NeurIPS2024接受颁奖的主题演讲DataisthefossilfuelofAl全文

开场致谢

我首先要感谢组织者选择我们的论文给予支持，这真是太棒了。同时，我还要感谢我的杰出合作者OriolVignales和Kwokli，他们刚才还站在你们面前。

回顾：十年前的演讲

现在你们看到的是一张截图，来自10年前，2014年在蒙特利尔的NeurIPS会议上我做的类似演讲。那时我们还很天真。照片上是当时的我们（“之前”）

这是现在的我们（“之后”）。现在，我希望我看起来更成熟，更有经验

今天我想谈谈这项工作本身，并进行一个10年的回顾。因为这项工作中有很多观点是正确的，但也有一些不太正确。我们可以回顾一下，看看发生了什么，以及它是如何逐渐演变成今天的样子的

我们做了什么？

我们先来回顾一下我们当时做了什么。我会展示10年前那次演讲的幻灯片。总的来说，我们做了以下三件事：

就这么简单。现在我们深入探讨一下细节

深度学习的假设

这是因为，如果你相信深度学习的“教条”，认为人工神经元和生物神经元是相似的，或者至少没有太大的不同，并且你相信神经元是缓慢的，那么任何人类能够快速完成的事情，只要世界上有一个人能够在一秒内完成，那么一个10层的神经网络也能做到。逻辑是这样的：你只需要提取他们的连接方式，然后将其嵌入到你的人工神经网络中。

核心思想：自回归模型

这是当时演讲的另一张幻灯片，上面写着“我们的核心思想”。你可能认出来至少一个东西：这里正在发生自回归的过程。这张幻灯片到底在说什么？它在说，如果你有一个自回归模型，它能很好地预测下一个token，那么它实际上会捕获、抓住下一个序列的正确分布

这在当时是一个相对较新的想法。这并不是第一个自回归神经网络。

但我认为，这是第一个我们真正相信，如果训练得足够好，就能得到任何想要的结果的自回归神经网络。在当时，我们的目标是（现在看来很平常，但当时非常大胆）机器翻译

LSTM：Transformer之前的技术

接下来我要展示一些你们很多人可能从未见过的古老历史：LSTM。对于不熟悉的人来说，LSTM是在Transformer出现之前，可怜的深度学习研究人员使用的东西。它基本上是一个旋转了90度的ResNet。你可以看到它集成了残差连接（现在被称为残差流），但也有一些乘法运算。它比ResNet稍微复杂一点。这就是我们当时用的

并行计算：管道并行

另一个我想强调的特点是并行计算。我们使用了管道并行，每个GPU处理一层。使用管道并行明智吗？现在看来，管道并行并不明智。但我们当时没那么聪明。通过使用8个GPU，我们获得了3.5倍的速度提升

结论：规模化假设

当时演讲的结论幻灯片

可以说是最重要的幻灯片，因为它阐述了规模化假设的开端：如果你有非常大的数据集，并且训练非常大的神经网络，那么成功就是必然的。如果你愿意往好的方面想，可以说，这确实就是之后发生的事情。

核心理念：连接主义

如果你相信人工神经元有点像生物神经元，那么你就有信心相信大型神经网络（即使它们不完全像人类大脑那么大）可以被配置来完成我们人类所做的大部分事情。当然还是有差异，因为人类大脑会自我重构，而我们现在最好的学习算法需要大量的数据。人类在这方面仍然更胜一筹。

预训练时代

我认为所有这些都引领了预训练时代的到来。GPT-2模型、GPT-3模型、缩放法则，我要特别感谢我的前合作者：AlecRadford、GerritKaplan和DariaAmodei，他们的工作至关重要。预训练是今天我们看到所有进步的驱动力。超大型神经网络，在海量数据集上训练

预训练的终结,但预训练终将结束。为什么？因为虽然算力在不断增长，但数据并没有无限增长，因为我们只有一个互联网。你甚至可以说，数据是人工智能的化石燃料。它被创造出来，我们使用它，并且已经达到了数据峰值，不会有更多的数据了。我们只能处理现有的数据。尽管我们还有很多路要走，但我们只有一个互联网。

下一步是什么？

接下来我将稍微推测一下未来会发生什么。当然，很多人都在推测。你可能听说过“智能体”（agents）这个词。人们觉得智能体是未来。更具体一点，但也有点模糊的是合成数据。如何生成有用的合成数据仍然是一个巨大的挑战。还有推理时的算力优化，以及最近在o1模型中看到的，这些都是人们在预训练之后尝试探索的方向。

生物学启示：不同物种的大脑缩放

我还想提一个生物学的例子，我觉得非常有趣。多年前，我也在这个会议上看到一个演讲，演讲者展示了一个图表，显示哺乳动物的身体大小和大脑大小之间的关系。演讲者说，在生物学中，一切都很混乱，但这里有一个特例，即动物的身体大小和大脑大小之间存在紧密的关系

我当时对这个图表产生了好奇，并开始在谷歌上搜索。其中一个图片结果是这样的：你可以看到各种哺乳动物，非人类灵长类动物也是如此。但接下来是人科动物，如尼安德特人，他们和人类的进化关系很近。有趣的是，人科动物的脑体缩放指数具有不同的斜率。

这意味着，生物学中存在一个例子，它展示了某种不同的缩放方式。这很酷。另外，我要强调一下，x轴是对数刻度。所以，事物是有可能不同的。我们目前所做的事情，是我们第一个知道如何进行缩放的事情。毫无疑问，这个领域的所有人都会找到下一步的方向。

关于未来的推测

现在我想花几分钟推测一下更长远的未来，我们都将走向何方？我们正在取得进步，这真是太棒了。如果你是10年前就入行的，你会记得当时的技术有多么不成熟。即便你觉得深度学习是理所当然的，但亲眼看到它取得的进步还是令人难以置信。我无法向那些最近两年才加入这个领域的人传达这种感觉。但我要谈谈超级智能，因为这显然是这个领域的未来。

超级智能在性质上将与我们今天拥有的智能截然不同。我希望在接下来的几分钟里，给你一些具体的直觉，让你感受到这种不同。

现在我们拥有了强大的语言模型，它们是很棒的聊天机器人，它们甚至能做一些事情，但它们也常常不可靠，有时会感到困惑，同时在某些任务上又具有超人的表现。如何协调这种矛盾目前还不清楚。

但最终，以下情况将会发生：

这些系统将真正具有智能体的性质。而现在，它们在任何有意义的层面上都不是智能体，或者说只有非常微弱的智能体性质。它们会进行真正的推理

我还要强调一点，关于推理：

一个系统越能进行推理，就变得越不可预测。我们现在使用的模型都是可预测的，因为我们一直在努力复制人类的直觉。我们大脑在一秒钟内的反应，本质上就是直觉。所以我们用一些直觉训练了模型。但推理是不可预测的。原因之一是，好的国际象棋AI对人类国际象棋高手来说是不可预测的

预测未来是不可能的，一切皆有可能。但最后，我还是要以乐观的态度结束我的演讲

THE END

NeurIPS2024Ilya重磅演讲：预训练将结束，接下来是超级智能「自我意识」智能体人工智能神经网络

NeurIPS2024Ilya重磅演讲：预训练将结束，接下来是超级智能「自我意识」智能体人工智能神经网络

LLM比之前预想的更像人类，竟也能三省吾身

LLM比之前预想的更像人类，竟也能三省吾身