IlyaSutskever:预训练模式已经走到尽头算法知识库大模型神经网络ilya

首发的V1版本是用的一个语义浓缩workflow做的,但经过改写后可能会丢失一些细微的意思,影响大家咬文嚼字。所以还是重新制作了一个直译版本,就是V2。

正文

IlyaSutskever:

感谢组织者选择这篇论文(SequencetoSequenceLearningwithNeuralNetworks)获奖,这让我非常高兴。我还要感谢我出色的共同作者和合作伙伴OriolVinyals和QuocLe。

这里有一张图片,是10年前2014年在蒙特利尔NeurIPS会议上类似演讲的截图。那是一个更加单纯的时期。这些照片展示了我们的对比:这是之前的样子,这是之后的样子。现在我们希望变得更有经验了。

在这里,我想回顾一下这项工作本身,做一个10年的回顾。这项工作中很多观点是正确的,但也有一些不太准确。让我们回顾一下,看看事情是如何逐渐发展到今天的。

我们将通过展示10年前同一个演讲的幻灯片来介绍我们做了什么。我们的工作可以用以下三点来总结:这是一个在文本上训练的autoregressivemodel(自回归模型),它是一个大型神经网络,使用了大规模数据集。就这么简单。现在让我们深入了解更多细节。

这是10年前的一张幻灯片,看起来还不错——深度学习假说。我们当时提出,如果你有一个拥有10层的大型神经网络,它就能完成人类在一瞬间能做到的任何事情。为什么我们要特别强调人类在一瞬间能做到的事情?为什么要特别强调这一点?

实际上,如果你相信深度学习的教条,即人工神经元和生物神经元是相似的或至少差异不大,而且你相信真实的神经元运行速度较慢,那么任何我们(人类)能快速完成的事情——这里我指的是全世界任何一个人——如果世界上有一个人能在一瞬间完成某项任务,那么一个10层的神经网络也能完成。这是可以推导出来的,你只需要把这些连接嵌入到你的人工神经网络中即可。

这是演讲中的另一张幻灯片,上面写着我们的主要想法。你可能能够认出其中的一两个要点,特别是这里涉及了某种自回归的内容。那么它实际上在表达什么呢?这张幻灯片实际上在说,如果你有一个自回归模型,而且它能够很好地预测下一个token,那么它就能够获取、捕捉并掌握后续序列的正确分布。这在当时是一个相对较新的概念。虽然它并不是历史上第一个自回归神经网络,但我认为它是第一个让我们真正相信,只要训练得足够好,就能得到你想要的任何结果的自回归神经网络。在我们当时的案例中,是那个现在看来很普通,但在当时却极其大胆的翻译任务。

现在我要向你们展示一些你们中很多人可能从未见过的远古历史——LSTM。对于不熟悉的人来说,LSTM是在Transformer出现之前,深度学习研究人员所使用的工具。它基本上就是一个旋转90度的ResNet。这就是LSTM,它比ResNet更早出现。它有点像一个稍微复杂一点的ResNet。你可以看到那里有一个积分器,现在被称为残差流,但还包含了一些乘法运算。它稍微复杂一些,但那就是我们当时所做的。它就是一个旋转90度的ResNet。

00:05:02

这个早期演讲中另一个值得强调的特点是我们使用了并行化。但这不是普通的并行化,我们使用了流水线处理,这从每个GPU一层的设置就可以看出来。使用流水线处理是明智的选择吗?现在我们知道这并不明智,但当时我们并不知道这一点。我们使用这种方法,通过8个GPU获得了3.5倍的速度提升。

从某种意义上说,当时演讲的结论幻灯片是最重要的,因为它阐述了可以说是规模化假说的开端:如果你有一个非常大的数据集,并训练一个非常大的神经网络,那么成功是有保证的。如果从宽容的角度来看,这确实就是后来发生的事情。

当然仍然存在差异。我差点忘了说,确实存在差异,因为人类大脑能够自我重新配置,而我们现在使用的最好的学习算法需要与参数数量相当的数据点。在这方面,人类仍然更胜一筹。

说到这些大语言模型,我认为它们的发展要归功于预训练时代。预训练时代就是我们所说的GPT-2模型、GPT-3模型、scalinglaw的时代。我想特别感谢我的前同事们:AlecRadford、JaredKaplan和DarioAmodei,是他们真正让这项工作成功。这引领了预训练时代的到来,这就是我们今天所看到的所有进展的驱动力——超大规模神经网络在海量数据集上的训练。

00:07:56

我们现在所知的预训练模式无疑将会结束。预训练将会结束。为什么会结束呢?因为虽然通过更好的硬件、更好的算法和更大的集群,计算能力在不断增长,这是毋庸置疑的。所有这些因素都在持续增加我们的计算能力。

但数据并没有增长,因为我们只有一个互联网。你甚至可以说,数据就像AI领域的化石燃料一样——它是以某种方式被创造出来的,现在我们使用它,我们已经达到了数据峰值,不会再有更多了。我们必须利用现有的数据。这些数据仍然能让我们走得很远,但事实就是我们只有一个互联网。

因此,我想在这里稍微推测一下未来的发展方向。实际上,我不需要推测,因为很多人都在进行推测。我会提到这些推测。你可能听说过agent这个词。这是个很常见的概念,我确信最终会有所突破,人们都认为agent将是未来发展的重要方向。另一个更具体但也更模糊的方向是合成数据。但合成数据究竟意味着什么?弄清这一点是一个巨大的挑战,我相信不同的人在这方面都取得了各种有趣的进展。还有推理时的计算,这一点最近在o1模型中得到了最生动的体现。这些都是人们试图探索预训练之后发展方向的例子,都是非常有价值的方向。

00:09:53

我想提到一个来自生物学的例子,我认为这个例子非常有趣。很多年前在这个会议上,我看到一个演讲者展示了一张图表,这张图表显示了哺乳动物的体型大小与脑容量之间的关系,以质量为单位。在那次演讲中,我清楚地记得他们说,在生物学中一切都很混乱,但这里有一个罕见的例子,显示了动物体型和大脑之间存在着非常紧密的关系。

后来我偶然对这张图产生了兴趣,就去谷歌搜索。在谷歌图片中,我发现了一张很有意思的图。这张图里你可以看到各种哺乳动物,还有非人类灵长类动物,它们都遵循着基本相同的规律。但当你看到原人时——据我所知,原人是人类在进化过程中的近亲,包括尼安德特人、能人等等,它们都在这里——有趣的是,它们的脑容量与体重的比例关系呈现出不同的斜率。

这很有意思,因为它展示了一个先例,显示生物学中确实存在着某种不同的规律。顺便说一下,我想强调的是,这个X轴是以对数形式显示的——你可以看到是从100到1000、10000、100000,同样在质量单位上是从1克、10克、100克到1000克。这说明事物确实可以呈现出不同的模式。

00:12:18

现在我们有了令人难以置信的语言模型和chatbots,它们确实能够完成一些任务,但它们也会莫名其妙地表现不可靠,在展现超人性能的evals上也会感到困惑。这确实很难调和,但最终,这些系统将真正具有主体性(agentic)。目前的系统在任何有意义的层面上都称不上是主体,这可能说得有点过,它们只是刚刚开始表现出非常、非常轻微的主体性。

我们将不得不应对这些高度不可预测的AI系统。它们将能够从有限的数据中理解事物,不会感到困惑。这些都是现在的重大限制。我并不是在讨论如何实现,也不是在说具体什么时候,我只是说这些都会发生。当这些特性与自我意识结合在一起时——这是必然的,因为自我意识是系统发展的关键组成部分,它是我们自己世界模型中不可或缺的要素——当所有这些特质结合在一起时,我们将拥有与今天完全不同特质和属性的系统。当然,它们将具有令人难以置信的惊人能力。但是这样的系统会带来什么样的问题,我就留给大家去想象了,这与我们现在习惯的完全不同。可以说,预测未来确实是不可能的。各种可能性都存在,就用这个振奋人心的注解作为结束吧。非常感谢。

00:16:44

观众1:

我是这样看这个问题的:如果你或某个人有特定的见解,觉得我们都太过肤浅了,因为大脑显然在做一些我们还没有实现的事情,而这些是可以做到的,那么他们就应该去追求它。就我个人而言,我并没有这样的见解。不过,这要取决于你从什么抽象层次来看待问题。也许我可以这样说:人们一直很渴望开发生物启发式AI。从某种程度上说,你可以说生物启发式AI已经取得了惊人的成功,因为所有的深度学习本质上都是生物启发式AI。但另一方面,这种生物启发其实非常、非常有限。说到底,就是让我们使用神经元,这就是生物启发的全部内容了。而更详细的生物启发一直很难实现。但我不会排除这种可能性,我认为如果有人有特殊的见解,他们可能会发现一些有用的东西。

观众2:

我想问一个关于自动纠正的问题。你刚才提到推理可能是未来模型的一个核心特征,也可能是一个区分因素。我们在海报展示中看到,对于现今模型的幻觉问题,但我们现在分析模型是否产生幻觉时,因为没有推理能力,所以只能用统计分析,比如看某个标准差之类的方法。那么你觉得,在未来,具备推理能力的模型是否能够自我纠正呢?这会不会成为未来模型的一个核心特征?这样就能减少幻觉的发生,因为模型能够通过推理来识别自己什么时候在产生幻觉。呃...这个问题说得通吗?

对,答案也是肯定的。我觉得你描述的这种情况是非常有可能的。嗯...你其实可以去验证一下。说不定这种情况已经在今天的一些早期推理模型中出现了,我不太确定。但从长远来看,为什么不呢?

观众2:对,有点像MicrosoftWord的自动纠正功能,这是个核心功能。

嗯,但是把它称为自动纠正实在是大大低估了它。当你说到自动纠正的时候...这个功能远不止于此。不过撇开这一点不说,答案是肯定的。

00:20:04

观众3:

你知道,这些确实是人们应该多思考的问题。但关于应该创造什么样的激励机制这个问题,我觉得我不好说。我不敢确定地回答,因为你说的是创造某种从上层设计的管理体系,这个我不了解。

观众3:也可以是加密货币,比如说有Bittensor之类的。

00:22:13

观众4:你认为LLMs能否在分布外进行多跳推理泛化?

这个问题假设答案是是或否,但实际上不应该用是或否来回答。因为我们需要先明确:什么是分布外泛化?什么是分布内?什么是分布外?既然这是一个关于技术发展历程的演讲,我要说在很久以前,在人们使用深度学习之前,他们在机器翻译中使用的是字符串匹配和n-gram这样的技术。人们使用统计短语表,你能想象吗?他们有数万行复杂的代码,这真的是难以理解的。

所以我认为答案是:在某种程度上,LLM可能没有人类那么好。我认为人类确实能更好地泛化,但同时LLM确实也能在某种程度上进行分布外泛化。我认为这是一个拓扑学意义上的答案。

观点并不算是新观点,但在这个GenAI领域观点爆炸的时代,能够下判断、能够选择一种思路站台,则有着另外的意义。

当然有人说Ilya本身去开新的公司了,肯定会说旧道路不work了,屁股决定脑袋。说不定也可能是内部分歧导致他转向别的路线然后去开了新的公司,可能是互为因果。但确实这是一个很强的bias,参考的时候需要注意。

还看到有人评价说:Ilya认为应该寻找能让智力提升最快的方式,像在前面大脑重量图中,要优化这个斜率。但Ilya并没有下这个判断(明确说出来),只是用它举了一个例子,引发大家思考。

THE END
1.onlinetraining和offlinetraining在深度学习中什么意思?文章浏览阅读1.6k次。在线学习与离线学习是两种不同的机器学习模式。离线学习用于处理大数据和复杂模型,需要完整数据集,训练完成后才应用模型。在线学习则按顺序处理数据,实时更新模型,适用于数据流场景,如监控视频分析。两种方式各有优劣,常结合使用,如离线预训练加https://blog.csdn.net/Adam897/article/details/129908295
2.相比于离线训练,在线训练的好处有什么?问答在线模型训练的流程如下图所示。在线模型训练意味着我可以用实时线上传输化的数据,然后用我们的实时机器学习模型训练框架去做训练。在线训练虽然数据是实时进来的,但你的模型并不是从 0 开始的。而是说我从离线先训练好这个模型,我站在离线模型的巨人的肩膀上,再往上去优化。 以上内容摘自《个性化推荐系统开发指南》https://developer.aliyun.com/ask/446535
3.推荐系统中模型训练及使用流程的标准化腾讯云开发者社区在实践中,我们对特征的采集、配置、处理流程以及输出形式进行了标准化:通过配置文件和代码模板管理特征的声明及追加,特征的选取及预处理等流程。由于使用哪些特征、如何处理特征等流程均在同一份配置文件中定义,因而,该方案可以保证离线训练和在线预测时特征处理使用方式的代码级一致性。https://cloud.tencent.com/developer/article/1539413
4.科学网—[转载]群视角下的多智能体强化学习方法综述对于大规模多智能体系统,处理数量和规模方面的动态变化是当前深度强化学习方法面临的突出挑战。基于学习(深度学习、强化学习)设计的迭代式问题求解方法是离线策略学习的基础范式。由于环境及对手的非平稳性,离线训练的蓝图策略通常很难直接运用于在线对抗。在线博弈对抗过程与离线利用模拟多次对抗学习博弈过程不同,博弈各方https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
5.蚂蚁金服核心技术:百亿特征实时推荐算法揭秘备注:弹性特征带来一个显著的优势:只要用足够强的L1稀疏性约束,在单机上就能调试任意大规模的特征训练,带来很多方便。我们的hashmap实现是KV化的,key是特征,value是vector的首地址。 离线训练优化 经过这样的改造后,在离线批量学习上,带来了以下变化: 在线训练优化 https://maimai.cn/article/detail?fid=1010621115&efid=mIQCHnkj0zjxlpygUmo5mg
6.粗排优化探讨得物技术离线在线一致性分析 待补充实际效果 四 样本设计 粗排相较于精排样本选择偏差(SSB)的问题更加严重,借鉴召回经验,可以通过适当采样减少偏差。采样设计的目的也是希望离线训练样本尽可能与线上分布一致。 样本选择方法 负样本可选范围: 曝光未点击样本; 全库除转化外样本; https://blog.itpub.net/70027824/viewspace-3000851/
7.基于Kmeans聚类的CSI室内定位AET基于指纹的定位模型分为离线训练阶段和在线定位阶段,模型如图1所示。 离线训练阶段的任务是建立一个位置指纹数据库。首先要选择参考点的位置,然后在每个参考点处测量来自信标的信号特征,最后处理信号特征保存在数据库中。这个数据库也被称为位置指纹地图。 http://www.chinaaet.com/article/3000057028
8.京东搜索在线学习探索实践参数更新:首先我们将用离线的 30 天的数据训练出来的模型参数导入 ps,之后 flink 的在线训练将实时更新参数,该 ps 直接服务于线上。目前在线和实时共用一套 ps,为了之后的稳定性要求,我们之后会将实时和在线分开。 模型校准:为了确保模型的准确性,支持天/周粒度的完整模型更新进行校准。 https://www.infoq.cn/article/Z6lL9VNskAH3BCxZS1A7
9.强化学习离线模型离线模型和在线模型推荐系统里非常常见,并且往往非常的隐蔽的一种数据分布不一致的情况被称之为冰山效应,也就是说离线训练用的是有偏的冰山上的数据,而在线上预估的时候,需要预测的是整个冰山的数据,包括大量冰面以下的数据!我们看下面这张图。左边是我们的Baseline,绿色的表示正样本,红色表示负样本,灰色部分表示线上由于推荐系统的“https://blog.51cto.com/u_14499/11815202
10.如何在本地(离线)使用PrivateGPT训练自定义AI聊天机器人PrivateGPT是一个新的开源项目,可以让你在AI聊天机器人界面中与你的文件进行私人互动。为了了解更多,让我们学习如何在本地使用PrivateGPT训练一个定制的人工智能聊天机器人。https://www.wbolt.com/how-train-ai-chatbot-using-privategpt-offline.html
11.基于多时间尺度多智能体深度强化学习无功电压控制方法与流程8.(2)将有载调压分接头(oltc)、电容器组(cb)和储能(es)均定义为智能体,在第一时间尺度阶段,搭建环境和智能体交互的马尔科夫决策过程的交互训练环境;在该过程的交互训练中,输入光伏、风机和负荷的预测数据,采用ddqn算法(double q network)进行离线训练无功优化离散动作策略;训练完毕,得到智能体oltc、cb和es的调https://www.xjishu.com/zhuanli/60/202110597000.html
12.飞桨开源框架的大规模分布式训练能力工业级稀疏参数弹性调度在线服务方面,ElasticCTR采用Paddle Serving中高吞吐、低延迟的稀疏参数预估引擎,高并发条件下是常见开源组件吞吐量的10倍以上。 3.可定制 用户可以通过统一的配置文件,修改训练中的训练方式和基本配置,包括在离线训练方式、训练过程可视化指标、HDFS上的存储配置等。除了通过修改统一配置文件进行训练任务配置外,ElasticCTRhttps://github.com/PaddlePaddle/ElasticCTR/
13.趋动云平台为工程师提供了在线的开发环境,内置多种 AI 算法库和开发工具,工程师可以在线编辑优化模型。另外在开发环境中,工程师可随时提交训练任务,在线训练和分析,实时进行模型优化。 ▌主要功能 AI 模型在线开发 深度整合算法开发环境,支持 JupyterLab/网页终端/ssh 登录等多种开发调试工具。 https://2d.ciftis.org/view/productmgr/productdetail?productId=50485