对话谷歌科学家:智能体是大模型落地重点,AI的未来是大小模型协作模态人工智能

随着行业内高阶推理模型的推出,再次彰显了强化学习在通往AGI道路上的重要性,也标志着大模型AI进入了一个全新阶段。

实际上,强化学习在整个AI领域早已有深刻影响。当年基于强化学习理论训练的AlphaGo、AlphaZero,都展现了超越人类的AI震撼。

对此,深度参与AlphaZero项目的GoogleDeepMind资深研究科学家NenadTomasev表示:「强化学习的能力使AI不再受人类知识的限制,而是能够超越这些限制,开辟新的可能性。」

随着强化学习被引入到大模型训练,传统的开发训练方式也正在被颠覆。Nenad表示:「未来,相比依赖单一的模型,我们会构建拥有多种能力的智能体。」

谷歌旗下机器学习社区Kaggle的CEOD.Sculley也表示:过去一年AI领域的进展,比之前的7年还多,开发范式已经完全被颠覆了。

01强化学习让AI拥有了「超人级」的能力

极客公园:Google如何看待AlphaZero技术的演进过程?特别是当它从特定领域扩展到更广泛应用时,你们从中有什么新的发现?

Nenad:AlphaZero无疑是强化学习领域的一个杰出成功案例,通过「自我博弈」应用于游戏领域,最初是国际象棋,这也是我们今天在一起讨论的原因。不过,强化学习的应用领域远不止AlphaZero。即便是当下的生成式人工智能和大语言模型,它们在实际使用中能够保持安全性和行为可控,很大程度上也得益于基于人类或机器学习反馈的强化学习机制。而我们也能看到这种机制在各种领域和场景中的成功案例。

关于AlphaZero本身,它确实是模型和应用领域的一次飞跃进步,这段探索历程非常有趣。

此外,我们还着重于系统的可解释性,理解AlphaZero深度神经网络中早期的人类级别概念和超越人类级别的概念。这种研究尤其重要,因为随着AI系统的不断发展,它们的「超人级」能力将会越来越多。这意味着我们不仅需要这些系统去完成强大而酷炫的任务,更需要从它们的知识和能力中学习。例如,在科学、经济或其他对社会具有重大影响的领域中,当一个AIAgent提出某些建议并表现出色时,我们并不希望这些系统只是完全自主地行动,而是成为供我们使用的工具。因此,问题在于:我们如何建立对这些系统的信任,与它们合作以实现更好的结果?此外,我们自己是否能通过与这些系统的互动让自己也成长并变得更强大?

极客公园:强化学习在AI领域正变得越来越重要,AlphaZero中的强化学习与大模型中的强化学习应用有怎样的区别?

Nenad:强化学习方法有很多种,总能找到它们之间的共性和差异。我认为,AlphaZero作为一种概念,其独特之处并不在于具体的软件实现,而是在于其拥有一个能够持续进行自我改进的循环,这使得它能够不断增强自身能力。

AlphaZero的突破在于它通过自我对弈生成自己的数据。这种能力使其不再受到人类知识的限制,而是能够超越这些限制,开辟新的可能性。我认为这是非常有趣的地方。

在AlphaZero之前,还有AlphaGo,但它没有AlphaZero的「零」特性。AlphaGo的起点是基于人类数据,然后通过多轮自我改进循环提升能力。因此,实际上这两种方法是可以结合起来使用的。在某些情况下,从一个预先存在的模型开始,然后在此基础上不断改进,是非常有用的。我们并不需要完全抛弃我们对一个问题已有的知识,而是可以以此为起点,继续提升。

在语言模型领域,也有一些论文尝试引入类似的自我改进循环。这些方法和框架很多,但有时会遇到瓶颈,那就是需要一个清晰的奖励信号,明确模型要优化的方向。因此,我认为当前的一个挑战是,在开发此类模型时,作为研究社区乃至整个社会,我们需要找到一种方法,为模型提供明确的目标和方向。而为了给出这个明确的目标,我们自己首先需要对「我们想要什么」和「我们想如何做到」有清晰的答案。这听起来似乎很简单,但在许多复杂领域,这实际上是一个非常困难的问题。

极客公园:强化学习的进步,总体上如何启发了你的研究工作?

Nenad:我认为,我们正迈向一个未来,在这个未来中,与其说我们始终依赖单一的模型,不如说我们会构建拥有多种能力的智能体。这些智能体可能由多个组件和子组件组成,根据不同的情况表现出不同的行为。关键在于让这些智能体能够在正确的环境中,调用合适的组件,展现正确的行为。在这一点上,强化学习可以发挥重要作用。

02智能体和多模态整合是未来的重点

极客公园:你认为下一个重要的发展方向是什么?特别是在实现更通用的AI系统方面,需要突破哪些关键技术瓶颈?

Nenad:现在有比以往更多的人在探索各种可能性,探索所有可能的选项。因此要准确预测未来三个月、六个月、十二个月、甚至五到十年后的情况是非常困难的。但我相信,所有人共同努力所带来的进步会让我们感到惊喜。有一些领域最近取得了显著的进展,我认为这是很自然的进步。

我们通常是从解决单一组件入手,例如,过去计算机视觉领域有像ImageNet这样的基准测试,尽管仍有改进空间,但这部分已经得到了很大的解决。同样的,自然语言处理也取得了巨大进展,虽然仍不完美,但在单一模态下的表现(已经很好了)。现在我们进入了多模态融合的多模型时代。比如,一个模型不仅能够生成文本,还能理解图像,甚至生成图像,或者处理音频等。有人已经在将各种模态信息连接在一起,这种结合对于模型的「落地性」(grounding)非常有帮助。所以模型能够更好地理解概念和语言,这对于实现真正的智能至关重要。

最近,在「规划和推理」(planningandreasoning)方面有不少研究成果发布。这是未来另一个关键领域。

此外,还有其他关键问题。例如,关于短期或长期记忆,当前语言模型可以利用上下文窗口,调用外部数据库或运行搜索并获取结果。这些能力已经超越了人类大脑可以即时处理的信息范围。语言模型可以调用外部工具,实现更复杂的功能。如果我们把人类作为参考,尽管「通用人工智能」(AGI)的定义本身还不清晰,我们可以观察到,即便是人类也无法解决所有的通用任务。比如蛋白质折叠问题,我们并不是靠人脑解决这个问题,而是需要专门的蛋白质折叠模型。这表明,人类也有局限性。虽然我们在技能获取的广度上是通用的,但我们仍需分解问题以找到具体解决方案。

在人工智能领域的漫长发展历史中,我们一直借鉴人类的能力。通过神经科学和心理学的视角,我们将人类大脑的技能和组件分解为独立的模块,试图在模型中实现这些能力。这种方法已经在语言、视觉、音频和传感器数据等单一模态领域取得了长足的进步。目前,我们几乎在每种模态上都有基础模型。

我认为,下一步的发展自然是整合这些独立的管道。未来的趋势是朝向一个更加「智能体化」(agentic)的方向发展:从单一模型过渡到一个能够整合多个子模型的智能系统。虽然可以设想一个巨大的、综合所有能力的联合模型,但更现实的短期目标可能是一个软件智能体(softwareagent),它调用多个子模型协同工作。智能体系统的关键在于如何将这些组件连接起来,并使整个联合系统能够按照预期运行。

03AI开发范式不再是数据主导,而是模型主导

极客公园:在过去几年中,你观察到AI的开发范式发生了什么样的根本性转变?这种转变对开发者和企业意味着什么?

首先,为解决一个问题,你需要先收集大量的数据,然后对这些数据进行细心筛选,也许还要进行一些「特征工程」,找出最重要的部分。

然后,训练一个尽可能简单的模型,找到一个「愚蠢」的起点。传统意义上,这意味着从一个非常简单的模型开始,比如「随机森林模型」(RandomForest)或「线性模型」,然后开始训练,只有在评估结果表明必要的时候,才增加模型复杂度。最终,得出一个适合部署的模型。

然而,在当下时代,这种范式已经完全不同了。需要再从收集数据集开始,而是先寻找一个模型。这个模型不是最简单的模型,而可能是最大、最复杂的模型,比如像GPT、Gemini这样的模型,或其他类似的模型。你甚至不需要收集任何数据,而是直接尝试一些提示词(prompt),看是否能够奏效。在相当大比例的情况下,它都能够奏效。这非常让人意外,但也非常有趣。

如果这些提示词不起作用,那接下来你可能会进行提示词优化(promptengineering),或者收集一些数据并将其添加到RAG数据库(ragdatabase)或长上下文窗口(longcontextwindow)中,也可能会利用一些控制流循环或其他工具,比如LangChain。如果这些方法仍然不起作用,那么可能需要试试微调(fine-tuning)。如果微调仍然失败,那时才需要收集大量数据并从零开始训练一个模型。

所以,对我来说,这个范式完全被颠倒了。这也意味着Kaggle必须随之进化。因此,我们调整了我们的竞赛设置,确保有更多的竞赛让人们体验、适应这种新的工作流程。

极客公园:千亿甚至万亿的模型被视为大公司的竞技,但小团队和独立研究者能做什么?

D.Sculley:我认为当下这波人工智能浪潮中最有趣的事之一,就是打破了几年前的一种预测:两三年前,有人认为,只有那些拥有大量计算资源,甚至接近无限算力的人,才能在这个领域继续取得突破性成果。然而,事实证明这并不正确。

实际上,人们只需很少的计算资源也能做出很出色的工作,因为现有的构建模块(buildingblocks)本身已经非常强大,并且可以以极具创新的方式加以利用和拓展。

极客公园:对AI产品的开发流程来说,具体区别是什么?

D.Sculley:我认为主要区别在于,我们将更容易创建我们想要实现的产品体验,且会变得更易维护。我个人的工作背景主要专注于可靠的机器学习,包括系统层面的。因此,我经常思考如何简化开发和维护的过程。

我个人认为,如果系统能实现一定程度的组件化或模块化,那么开发和维护起来会更加容易。举个例子,当我们作为开发者在创建一个应用时,如果我们能把需要实现的一组功能分解成两三个甚至四个独立的组件,并分别进行开发,这会让实现这些功能变得更加简单。这是一种假设,有些时候会成立,但在某些情况下可能并不适用。但总体而言,我认为这种开发流程能使我们以更低的成本创造出更好的产品。

极客公园:在这波AI浪潮中,你认为现在行业面临的关键问题是什么?一个AI社区能够在解决这些问题上扮演怎样的角色?

D.Sculley:是的,这里涉及几个不同的点。我们已经讨论过「发现」(discovery)的重要性,对我来说,这是最重要的事情。因为当你看到目前对AI开发的投资规模时,会感到很震撼。但我认为,真正「AINative」的应用案例尚未完全被发现。因此,「发现」是最重要的一个点。

但第二点,几乎同样重要,可以说是并列第一的,就是评估(evaluation)和压力测试(stresstesting)。评估一直以来都是AI开发的核心驱动力,追溯到20或30年前就是如此。

在当前世界,我们发现评估大型语言模型是一个非常棘手的问题,大家都知道这很重要。那么,为什么它会如此困难呢?这是因为这些大型模型的输入空间几乎是无限的,输出空间同样几乎无限。因此,为了真正了解这些模型表现良好的地方、它们何时表现良好以及可能失败的情况,你需要非常多样化的评估方法。

这是一个问题,而拥有一个庞大且高度多样化的社区正是解决这一问题的重要方式。这样,我们才能更好地了解和改进这些模型。

04未来不是一个模型决定一切,而是大小模型配合

极客公园:2025年,你期待AI领域发生怎样的变化?

目前我们可能觉得,拥有一个能够为所有系统处理一切的大型通用模型是一个很好的起点。但从长期来看,我认为更现实的方向是,我们的系统将由多个AI模型或智能体(agent)相互协作。这个趋势的重要性也不难理解。比如,当你运行一个系统,它需要调用一个专有的,或基于API的语言大模型,但同时你也希望对输出结果进行验证,以确保它完全符合你的应用需求。这时,拥有一个由应用开发者完全控制的小型模型可能就非常重要。这两个模型就会协作完成任务。

此外,我们还可以设想额外的模型用于任务的编排(orchestration)、分配(routing)或其他组件化的流程。这是我认为AI领域的发展方向,我们需要确保Kaggle社区能够参与到这个未来之中,从而使这类技术变得更加普及和易于开发。

极客公园:近年来,我们见证了从传统软件工程师到ML工程师的角色演变。现在随着大语言模型的兴起,你认为未来几年AI领域的人才需求和岗位定义会如何变化?企业该如何评估和管理这些新型人才?

比如说,如果你每天的工作是收集数据集、清理数据,这与坐在你旁边的人写大量代码有何关系?人们需要找到方法来评估这种工作的价值。我相信,未来我们将看到——当然我们现在已经在看到——行业对那些擅长通过提示词、RAG数据库、以及其他模型影响方式,与大语言模型交互的人有巨大需求。这种工作形式与传统机器学习不同。

接下来的挑战在于:如何使这些新工作角色正式化?如何确保所需的专业技能可以被很好地评估?以及如何确保这些人在公司中所创造的价值能够得到充分认可?我认为这是下一波技术浪潮需要解决的一个重要课题。

极客公园:你会给那些想在GenAI时代追求机器学习、数据科学职业的年轻人什么建议?

D.Sculley:首先,这是一个令人难以置信的,激动人心的时代。即便保守地说,人工智能也可能是历史上发展最快的领域。创新的速度比我们在任何其他科学技术领域中见过的都要快。这一点非常值得注意。如果你是一个刚起步的年轻人,我认为最好的建议就是不要等待,立即开始。

THE END
1.(DOL)多目标深度强化学习多目标强化学习我们提出了深度乐观线性支持学习(DOL)来解决高维多目标决策问题,其中目标的相对重要性是先验未知的。DOL 使用来自高维输入的特征,计算包含目标凸组合的所有潜在最优解的凸覆盖集。据我们所知,这是深度强化学习首次成功学习多目标策略。此外,我们还提供了一个带有两个实验的测试平台,作为深度多目标强化学习的基准。 https://blog.csdn.net/wq6qeg88/article/details/136811284
2.强化学习实现多目标优化代码实现多目标优化强化学习实现多目标优化代码实现 多目标 优化 多目标遗传算法 (本文中是NSGA-II) 其实该种算法较为取巧 多目标问题难点在于需要让多个目标尽可能处于最优解,不像传统的优化算法一样,用一个目标函数的值是否符合需求即可。 多个目标的情况下衡量是否最优属于向量优化问题,需要比较向量件的大小。https://blog.51cto.com/u_16099270/10886223
3.多目标的强化学习教程两篇均有代码腾讯云开发者社区多目标的强化学习教程-两篇均有代码 1 https://flyyufelix.github.io/2017/11/17/direct-future-prediction.html 有代码 Direct Future Prediction - Supervised Learning for Reinforcement Learning 2 原文https://www.oreilly.com/ideas/reinforcement-learning-for-complex-goals-using-tensorflow,https://cloud.tencent.com/developer/article/1160652
4.融合强化学习的多目标路径规划在现实世界中, 移动机器人需要在考虑多个目标的情况下进行路径规划, 如最短路径、最小能耗、最大效率等. 多目标强化学习算法, 例如NSGA-II和SPEA2等的应用, 使得机器人能够在不同目标之间进行权衡和优化. 现实环境中的路径规划在某些情况下, 机器人可能处于部分可观测环境中, 即无法直接观测到完整的状态信息. https://c-s-a.org.cn/html/2024/3/9418.html
5.云环境下基于强化学习的多目标任务调度算法期刊云环境下基于强化学习的多目标任务调度算法 童钊1 邓小妹2 陈洪剑 梅晶 叶锋 1.湖南师范大学 信息科学与工程学院,长沙,4100122.高性能计算与随机信息处理省部共建教育部重点实验室湖南师范大学 ,长沙,410012 在线阅读 下载 引用 收藏 分享 打印 摘要:针对云计算环境下的多目标任务调度问题,提出一种新的基于Q学习https://d.wanfangdata.com.cn/periodical/xxwxjsjxt202002010
6.面向多目标柔性作业车间调度的强化学习NSGA封硕等[14]将支持强化学习RNSGA-Ⅱ算法应用于无人机多目标三维航迹规划规划问题,通过动态优化种群间迁徙参数保持种群多样性,提高了收敛速度和收敛精度,但遗传操作方式单一减小了局部搜索空间。 根据上述研究内容的优势与不足,提出一种基于强化学习的改进NSGA-Ⅱ算法用于求解多目标柔性车间调度问题。首先,根据性别判定法http://qks.cqu.edu.cn/html/cqdxzrcn/2022/10/20221010.htm
7.[多智能体强化学习笔记]CM3:合作式多目标多阶段多智能体强化学习为了应对这两个挑战,我们将问题重组为一个新的两阶段问题,在学习多智能体合作之前先学习单智能体目标的实现,并推导出一个新的多目标多智能体策略梯度,该梯度具有局部信用分配的信用函数。 完整的体系结构称为CM3,在三个具有挑战性的多目标多智能体问题上,其学习速度明显快于现有算法的直接适应:困难编队中的合作导航https://zhuanlan.zhihu.com/p/451200587
8.一种基于约束多目标深度强化学习的挥发窑温度场优化方法.pdf一种基于约束多目标深度强化学习的挥发窑温度场优化方法.pdf,本发明涉及挥发窑温度场优化技术领域,具体公开了一种基于约束多目标深度强化学习的挥发窑温度场优化方法,包括以下步骤:步骤S1,以挥发窑的温度场作为决策变量,锌回收率、碳排放量作为优化目标,并考虑过程约https://max.book118.com/html/2023/1216/8143112042006016.shtm
9.基于强化学习的无人机灾后救援路径规划模型与方法研究而且,针对无人机多目标侦查路径规划问题,现有智能优化规划方法往往属于离线规划,当环境信息发生变化时需重新规划。这使得无人机需依赖高层统筹决策完成侦查任务,降低了无人机自主决策与适应环境能力。针对环境难建模与策略难适应问题,本文基于强化学习研究面向多目标(受灾点)侦查任务的无人机路径规划问题。针对受灾范围小https://wap.cnki.net/lunwen-1023421750.html
10.多目标排序在快手短视频推荐中的实践多目标精排:从手工融合到Learn To Rank 复杂多目标:Ensemble Sort和在线自动调参 重排序:Listwise、强化学习和端上重排序 总结和展望 01 快手短视频推荐场景介绍 1. 关于快手 快手主要的流量形态 有4个页面: ① 发现页:致力于让用户看见更大的世界,分为单列和双列两种形态。 https://maimai.cn/article/detail?fid=1603183032&efid=T7RIoRo14AcJUC_PIXWVhA
11.最新调查报告在调查中我们发现,中学生由于个人的学习基础、教育价值观和对未来的期望等方面的差异,使他们的学习需求具有纵向多层次和横向多目标的特点。学习需求的纵向多层次是指学生对所学知识的深度要求不一。高中毕业后准备就业的学生,只要求掌握基础知识;准备考高职或艺术类院校的学生,要求课程教学难易适度、学业成绩达中等水平https://www.unjs.com/fanwenwang/dcbg/20221231132953_6181799.html
12.基础教育调研报告(通用13篇)在调查中我们发现,中学生由于个人的学习基础、教育价值观和对未来的期望等方面的差异,使他们的学习需求具有纵向多层次和横向多目标的特点。 3、学习目的明确,但具有主观性和不协调性 对学生的问卷调查表明,89%的学生具有明确的学习目的。但是,通过对调查问卷的对比分析和对学生本人的考察,我发现,学生的学习目的具有严https://www.yjbys.com/diaoyanbaogao/3046209.html
13.新书出版!《强化学习:前沿算法与应用》机器之心强化学习近年来在广度和深度上均获得了快速发展,逐渐成为相关研究和开发人员需要学习和了解的必备知识之一。本书从经典强化学习出发深入浅出地介绍了模型学习、探索与利用、多目标学习、层次化学习、技能学习等算法,并衍生出一些新兴的研究领域如使用离线学习、表示学习元学习等提升算法的高效性和泛化能力。此外,结合智能https://www.jiqizhixin.com/articles/2023-07-10-6
14.基于帕累托优化的多目标强化学习方法和装置此外,为实现上述目的,本发明还提出一种计算机设备,所述计算机设备包括:存储器,处理器以及存储在所述存储器上并可在所述处理器上运行的基于帕累托优化的多目标强化学习程序,所述基于帕累托优化的多目标强化学习程序配置为实现如上文所述的基于帕累托优化的多目标强化学习方法。 https://www.xjishu.com/zhuanli/55/202210282413.html