IlyaSutskever：预训练模式已经走到尽头算法知识库大模型神经网络ilya|在线训练和离线训练_在线学习

首发的V1版本是用的一个语义浓缩workflow做的，但经过改写后可能会丢失一些细微的意思，影响大家咬文嚼字。所以还是重新制作了一个直译版本，就是V2。

正文

IlyaSutskever:

感谢组织者选择这篇论文（SequencetoSequenceLearningwithNeuralNetworks）获奖，这让我非常高兴。我还要感谢我出色的共同作者和合作伙伴OriolVinyals和QuocLe。

这里有一张图片，是10年前2014年在蒙特利尔NeurIPS会议上类似演讲的截图。那是一个更加单纯的时期。这些照片展示了我们的对比：这是之前的样子，这是之后的样子。现在我们希望变得更有经验了。

在这里，我想回顾一下这项工作本身，做一个10年的回顾。这项工作中很多观点是正确的，但也有一些不太准确。让我们回顾一下，看看事情是如何逐渐发展到今天的。

我们将通过展示10年前同一个演讲的幻灯片来介绍我们做了什么。我们的工作可以用以下三点来总结：这是一个在文本上训练的autoregressivemodel（自回归模型），它是一个大型神经网络，使用了大规模数据集。就这么简单。现在让我们深入了解更多细节。

这是10年前的一张幻灯片，看起来还不错——深度学习假说。我们当时提出，如果你有一个拥有10层的大型神经网络，它就能完成人类在一瞬间能做到的任何事情。为什么我们要特别强调人类在一瞬间能做到的事情？为什么要特别强调这一点？

实际上，如果你相信深度学习的教条，即人工神经元和生物神经元是相似的或至少差异不大，而且你相信真实的神经元运行速度较慢，那么任何我们（人类）能快速完成的事情——这里我指的是全世界任何一个人——如果世界上有一个人能在一瞬间完成某项任务，那么一个10层的神经网络也能完成。这是可以推导出来的，你只需要把这些连接嵌入到你的人工神经网络中即可。

这是演讲中的另一张幻灯片，上面写着我们的主要想法。你可能能够认出其中的一两个要点，特别是这里涉及了某种自回归的内容。那么它实际上在表达什么呢？这张幻灯片实际上在说，如果你有一个自回归模型，而且它能够很好地预测下一个token，那么它就能够获取、捕捉并掌握后续序列的正确分布。这在当时是一个相对较新的概念。虽然它并不是历史上第一个自回归神经网络，但我认为它是第一个让我们真正相信，只要训练得足够好，就能得到你想要的任何结果的自回归神经网络。在我们当时的案例中，是那个现在看来很普通，但在当时却极其大胆的翻译任务。

现在我要向你们展示一些你们中很多人可能从未见过的远古历史——LSTM。对于不熟悉的人来说，LSTM是在Transformer出现之前，深度学习研究人员所使用的工具。它基本上就是一个旋转90度的ResNet。这就是LSTM，它比ResNet更早出现。它有点像一个稍微复杂一点的ResNet。你可以看到那里有一个积分器，现在被称为残差流，但还包含了一些乘法运算。它稍微复杂一些，但那就是我们当时所做的。它就是一个旋转90度的ResNet。

00:05:02

这个早期演讲中另一个值得强调的特点是我们使用了并行化。但这不是普通的并行化，我们使用了流水线处理，这从每个GPU一层的设置就可以看出来。使用流水线处理是明智的选择吗？现在我们知道这并不明智，但当时我们并不知道这一点。我们使用这种方法，通过8个GPU获得了3.5倍的速度提升。

从某种意义上说，当时演讲的结论幻灯片是最重要的，因为它阐述了可以说是规模化假说的开端：如果你有一个非常大的数据集，并训练一个非常大的神经网络，那么成功是有保证的。如果从宽容的角度来看，这确实就是后来发生的事情。

当然仍然存在差异。我差点忘了说，确实存在差异，因为人类大脑能够自我重新配置，而我们现在使用的最好的学习算法需要与参数数量相当的数据点。在这方面，人类仍然更胜一筹。

说到这些大语言模型，我认为它们的发展要归功于预训练时代。预训练时代就是我们所说的GPT-2模型、GPT-3模型、scalinglaw的时代。我想特别感谢我的前同事们：AlecRadford、JaredKaplan和DarioAmodei，是他们真正让这项工作成功。这引领了预训练时代的到来，这就是我们今天所看到的所有进展的驱动力——超大规模神经网络在海量数据集上的训练。

00:07:56

我们现在所知的预训练模式无疑将会结束。预训练将会结束。为什么会结束呢？因为虽然通过更好的硬件、更好的算法和更大的集群，计算能力在不断增长，这是毋庸置疑的。所有这些因素都在持续增加我们的计算能力。

但数据并没有增长，因为我们只有一个互联网。你甚至可以说，数据就像AI领域的化石燃料一样——它是以某种方式被创造出来的，现在我们使用它，我们已经达到了数据峰值，不会再有更多了。我们必须利用现有的数据。这些数据仍然能让我们走得很远，但事实就是我们只有一个互联网。

因此，我想在这里稍微推测一下未来的发展方向。实际上，我不需要推测，因为很多人都在进行推测。我会提到这些推测。你可能听说过agent这个词。这是个很常见的概念，我确信最终会有所突破，人们都认为agent将是未来发展的重要方向。另一个更具体但也更模糊的方向是合成数据。但合成数据究竟意味着什么？弄清这一点是一个巨大的挑战，我相信不同的人在这方面都取得了各种有趣的进展。还有推理时的计算，这一点最近在o1模型中得到了最生动的体现。这些都是人们试图探索预训练之后发展方向的例子，都是非常有价值的方向。

00:09:53

我想提到一个来自生物学的例子，我认为这个例子非常有趣。很多年前在这个会议上，我看到一个演讲者展示了一张图表，这张图表显示了哺乳动物的体型大小与脑容量之间的关系，以质量为单位。在那次演讲中，我清楚地记得他们说，在生物学中一切都很混乱，但这里有一个罕见的例子，显示了动物体型和大脑之间存在着非常紧密的关系。

后来我偶然对这张图产生了兴趣，就去谷歌搜索。在谷歌图片中，我发现了一张很有意思的图。这张图里你可以看到各种哺乳动物，还有非人类灵长类动物，它们都遵循着基本相同的规律。但当你看到原人时——据我所知，原人是人类在进化过程中的近亲，包括尼安德特人、能人等等，它们都在这里——有趣的是，它们的脑容量与体重的比例关系呈现出不同的斜率。

这很有意思，因为它展示了一个先例，显示生物学中确实存在着某种不同的规律。顺便说一下，我想强调的是，这个X轴是以对数形式显示的——你可以看到是从100到1000、10000、100000，同样在质量单位上是从1克、10克、100克到1000克。这说明事物确实可以呈现出不同的模式。

00:12:18

现在我们有了令人难以置信的语言模型和chatbots，它们确实能够完成一些任务，但它们也会莫名其妙地表现不可靠，在展现超人性能的evals上也会感到困惑。这确实很难调和，但最终，这些系统将真正具有主体性（agentic）。目前的系统在任何有意义的层面上都称不上是主体，这可能说得有点过，它们只是刚刚开始表现出非常、非常轻微的主体性。

我们将不得不应对这些高度不可预测的AI系统。它们将能够从有限的数据中理解事物，不会感到困惑。这些都是现在的重大限制。我并不是在讨论如何实现，也不是在说具体什么时候，我只是说这些都会发生。当这些特性与自我意识结合在一起时——这是必然的，因为自我意识是系统发展的关键组成部分，它是我们自己世界模型中不可或缺的要素——当所有这些特质结合在一起时，我们将拥有与今天完全不同特质和属性的系统。当然，它们将具有令人难以置信的惊人能力。但是这样的系统会带来什么样的问题，我就留给大家去想象了，这与我们现在习惯的完全不同。可以说，预测未来确实是不可能的。各种可能性都存在，就用这个振奋人心的注解作为结束吧。非常感谢。

00:16:44

观众1:

我是这样看这个问题的：如果你或某个人有特定的见解，觉得我们都太过肤浅了，因为大脑显然在做一些我们还没有实现的事情，而这些是可以做到的，那么他们就应该去追求它。就我个人而言，我并没有这样的见解。不过，这要取决于你从什么抽象层次来看待问题。也许我可以这样说：人们一直很渴望开发生物启发式AI。从某种程度上说，你可以说生物启发式AI已经取得了惊人的成功，因为所有的深度学习本质上都是生物启发式AI。但另一方面，这种生物启发其实非常、非常有限。说到底，就是让我们使用神经元，这就是生物启发的全部内容了。而更详细的生物启发一直很难实现。但我不会排除这种可能性，我认为如果有人有特殊的见解，他们可能会发现一些有用的东西。

观众2:

我想问一个关于自动纠正的问题。你刚才提到推理可能是未来模型的一个核心特征，也可能是一个区分因素。我们在海报展示中看到，对于现今模型的幻觉问题，但我们现在分析模型是否产生幻觉时，因为没有推理能力，所以只能用统计分析，比如看某个标准差之类的方法。那么你觉得，在未来，具备推理能力的模型是否能够自我纠正呢？这会不会成为未来模型的一个核心特征？这样就能减少幻觉的发生，因为模型能够通过推理来识别自己什么时候在产生幻觉。呃...这个问题说得通吗？

对，答案也是肯定的。我觉得你描述的这种情况是非常有可能的。嗯...你其实可以去验证一下。说不定这种情况已经在今天的一些早期推理模型中出现了，我不太确定。但从长远来看，为什么不呢？

观众2:对，有点像MicrosoftWord的自动纠正功能，这是个核心功能。

嗯，但是把它称为自动纠正实在是大大低估了它。当你说到自动纠正的时候...这个功能远不止于此。不过撇开这一点不说，答案是肯定的。

00:20:04

观众3:

你知道，这些确实是人们应该多思考的问题。但关于应该创造什么样的激励机制这个问题，我觉得我不好说。我不敢确定地回答，因为你说的是创造某种从上层设计的管理体系，这个我不了解。

观众3:也可以是加密货币，比如说有Bittensor之类的。

00:22:13

观众4:你认为LLMs能否在分布外进行多跳推理泛化？

这个问题假设答案是是或否，但实际上不应该用是或否来回答。因为我们需要先明确：什么是分布外泛化？什么是分布内？什么是分布外？既然这是一个关于技术发展历程的演讲，我要说在很久以前，在人们使用深度学习之前，他们在机器翻译中使用的是字符串匹配和n-gram这样的技术。人们使用统计短语表，你能想象吗？他们有数万行复杂的代码，这真的是难以理解的。

所以我认为答案是：在某种程度上，LLM可能没有人类那么好。我认为人类确实能更好地泛化，但同时LLM确实也能在某种程度上进行分布外泛化。我认为这是一个拓扑学意义上的答案。

观点并不算是新观点，但在这个GenAI领域观点爆炸的时代，能够下判断、能够选择一种思路站台，则有着另外的意义。

当然有人说Ilya本身去开新的公司了，肯定会说旧道路不work了，屁股决定脑袋。说不定也可能是内部分歧导致他转向别的路线然后去开了新的公司，可能是互为因果。但确实这是一个很强的bias，参考的时候需要注意。

还看到有人评价说：Ilya认为应该寻找能让智力提升最快的方式，像在前面大脑重量图中，要优化这个斜率。但Ilya并没有下这个判断（明确说出来），只是用它举了一个例子，引发大家思考。

THE END

IlyaSutskever：预训练模式已经走到尽头算法知识库大模型神经网络ilya

IlyaSutskever：预训练模式已经走到尽头算法知识库大模型神经网络ilya

在线学习和离线学习淼淼兮予怀

机器学习术语表：机器学习基础知识 MachineLearning GoogleforDevelopers

蚂蚁金服核心技术：百亿特征实时推荐算法揭秘干货技术博文

共享学习：蚂蚁金服提出全新数据孤岛解决方案新浪财经

知识库检索匹配的服务化实践

Nature2017AlphaGoZero强化学习论文解读系列(二)

深度学习在计算广告中的应用随着机器学习特别是深度学习的不断发展，其广泛应用于计算广告投放流程的各个阶段。笔者最近对深度

新版本MindSpore1.3，打造无所不在的智能，诠释可以信赖的开源人工智能人工智能

利用NVIDIA组件提升GPU推理的吞吐

基于长短时记忆卷积神经网络的刀具磨损在线监测模型

改进克里金模型辅助的双档案在线数据驱动进化算法ImprovedKrigingModelAssistedTwoArchiveOnlineData

AWAC：使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

基于集成网络的离线到在线强化学习

拼客学院