对话谷歌科学家:智能体是大模型落地重点,AI的未来是大小模型协作模态人工智能

随着行业内高阶推理模型的推出,再次彰显了强化学习在通往AGI道路上的重要性,也标志着大模型AI进入了一个全新阶段。

实际上,强化学习在整个AI领域早已有深刻影响。当年基于强化学习理论训练的AlphaGo、AlphaZero,都展现了超越人类的AI震撼。

对此,深度参与AlphaZero项目的GoogleDeepMind资深研究科学家NenadTomasev表示:「强化学习的能力使AI不再受人类知识的限制,而是能够超越这些限制,开辟新的可能性。」

随着强化学习被引入到大模型训练,传统的开发训练方式也正在被颠覆。Nenad表示:「未来,相比依赖单一的模型,我们会构建拥有多种能力的智能体。」

谷歌旗下机器学习社区Kaggle的CEOD.Sculley也表示:过去一年AI领域的进展,比之前的7年还多,开发范式已经完全被颠覆了。

01强化学习让AI拥有了「超人级」的能力

极客公园:Google如何看待AlphaZero技术的演进过程?特别是当它从特定领域扩展到更广泛应用时,你们从中有什么新的发现?

Nenad:AlphaZero无疑是强化学习领域的一个杰出成功案例,通过「自我博弈」应用于游戏领域,最初是国际象棋,这也是我们今天在一起讨论的原因。不过,强化学习的应用领域远不止AlphaZero。即便是当下的生成式人工智能和大语言模型,它们在实际使用中能够保持安全性和行为可控,很大程度上也得益于基于人类或机器学习反馈的强化学习机制。而我们也能看到这种机制在各种领域和场景中的成功案例。

关于AlphaZero本身,它确实是模型和应用领域的一次飞跃进步,这段探索历程非常有趣。

此外,我们还着重于系统的可解释性,理解AlphaZero深度神经网络中早期的人类级别概念和超越人类级别的概念。这种研究尤其重要,因为随着AI系统的不断发展,它们的「超人级」能力将会越来越多。这意味着我们不仅需要这些系统去完成强大而酷炫的任务,更需要从它们的知识和能力中学习。例如,在科学、经济或其他对社会具有重大影响的领域中,当一个AIAgent提出某些建议并表现出色时,我们并不希望这些系统只是完全自主地行动,而是成为供我们使用的工具。因此,问题在于:我们如何建立对这些系统的信任,与它们合作以实现更好的结果?此外,我们自己是否能通过与这些系统的互动让自己也成长并变得更强大?

极客公园:强化学习在AI领域正变得越来越重要,AlphaZero中的强化学习与大模型中的强化学习应用有怎样的区别?

Nenad:强化学习方法有很多种,总能找到它们之间的共性和差异。我认为,AlphaZero作为一种概念,其独特之处并不在于具体的软件实现,而是在于其拥有一个能够持续进行自我改进的循环,这使得它能够不断增强自身能力。

AlphaZero的突破在于它通过自我对弈生成自己的数据。这种能力使其不再受到人类知识的限制,而是能够超越这些限制,开辟新的可能性。我认为这是非常有趣的地方。

在AlphaZero之前,还有AlphaGo,但它没有AlphaZero的「零」特性。AlphaGo的起点是基于人类数据,然后通过多轮自我改进循环提升能力。因此,实际上这两种方法是可以结合起来使用的。在某些情况下,从一个预先存在的模型开始,然后在此基础上不断改进,是非常有用的。我们并不需要完全抛弃我们对一个问题已有的知识,而是可以以此为起点,继续提升。

在语言模型领域,也有一些论文尝试引入类似的自我改进循环。这些方法和框架很多,但有时会遇到瓶颈,那就是需要一个清晰的奖励信号,明确模型要优化的方向。因此,我认为当前的一个挑战是,在开发此类模型时,作为研究社区乃至整个社会,我们需要找到一种方法,为模型提供明确的目标和方向。而为了给出这个明确的目标,我们自己首先需要对「我们想要什么」和「我们想如何做到」有清晰的答案。这听起来似乎很简单,但在许多复杂领域,这实际上是一个非常困难的问题。

极客公园:强化学习的进步,总体上如何启发了你的研究工作?

Nenad:我认为,我们正迈向一个未来,在这个未来中,与其说我们始终依赖单一的模型,不如说我们会构建拥有多种能力的智能体。这些智能体可能由多个组件和子组件组成,根据不同的情况表现出不同的行为。关键在于让这些智能体能够在正确的环境中,调用合适的组件,展现正确的行为。在这一点上,强化学习可以发挥重要作用。

02智能体和多模态整合是未来的重点

极客公园:你认为下一个重要的发展方向是什么?特别是在实现更通用的AI系统方面,需要突破哪些关键技术瓶颈?

Nenad:现在有比以往更多的人在探索各种可能性,探索所有可能的选项。因此要准确预测未来三个月、六个月、十二个月、甚至五到十年后的情况是非常困难的。但我相信,所有人共同努力所带来的进步会让我们感到惊喜。有一些领域最近取得了显著的进展,我认为这是很自然的进步。

我们通常是从解决单一组件入手,例如,过去计算机视觉领域有像ImageNet这样的基准测试,尽管仍有改进空间,但这部分已经得到了很大的解决。同样的,自然语言处理也取得了巨大进展,虽然仍不完美,但在单一模态下的表现(已经很好了)。现在我们进入了多模态融合的多模型时代。比如,一个模型不仅能够生成文本,还能理解图像,甚至生成图像,或者处理音频等。有人已经在将各种模态信息连接在一起,这种结合对于模型的「落地性」(grounding)非常有帮助。所以模型能够更好地理解概念和语言,这对于实现真正的智能至关重要。

最近,在「规划和推理」(planningandreasoning)方面有不少研究成果发布。这是未来另一个关键领域。

此外,还有其他关键问题。例如,关于短期或长期记忆,当前语言模型可以利用上下文窗口,调用外部数据库或运行搜索并获取结果。这些能力已经超越了人类大脑可以即时处理的信息范围。语言模型可以调用外部工具,实现更复杂的功能。如果我们把人类作为参考,尽管「通用人工智能」(AGI)的定义本身还不清晰,我们可以观察到,即便是人类也无法解决所有的通用任务。比如蛋白质折叠问题,我们并不是靠人脑解决这个问题,而是需要专门的蛋白质折叠模型。这表明,人类也有局限性。虽然我们在技能获取的广度上是通用的,但我们仍需分解问题以找到具体解决方案。

在人工智能领域的漫长发展历史中,我们一直借鉴人类的能力。通过神经科学和心理学的视角,我们将人类大脑的技能和组件分解为独立的模块,试图在模型中实现这些能力。这种方法已经在语言、视觉、音频和传感器数据等单一模态领域取得了长足的进步。目前,我们几乎在每种模态上都有基础模型。

我认为,下一步的发展自然是整合这些独立的管道。未来的趋势是朝向一个更加「智能体化」(agentic)的方向发展:从单一模型过渡到一个能够整合多个子模型的智能系统。虽然可以设想一个巨大的、综合所有能力的联合模型,但更现实的短期目标可能是一个软件智能体(softwareagent),它调用多个子模型协同工作。智能体系统的关键在于如何将这些组件连接起来,并使整个联合系统能够按照预期运行。

03AI开发范式不再是数据主导,而是模型主导

极客公园:在过去几年中,你观察到AI的开发范式发生了什么样的根本性转变?这种转变对开发者和企业意味着什么?

首先,为解决一个问题,你需要先收集大量的数据,然后对这些数据进行细心筛选,也许还要进行一些「特征工程」,找出最重要的部分。

然后,训练一个尽可能简单的模型,找到一个「愚蠢」的起点。传统意义上,这意味着从一个非常简单的模型开始,比如「随机森林模型」(RandomForest)或「线性模型」,然后开始训练,只有在评估结果表明必要的时候,才增加模型复杂度。最终,得出一个适合部署的模型。

然而,在当下时代,这种范式已经完全不同了。需要再从收集数据集开始,而是先寻找一个模型。这个模型不是最简单的模型,而可能是最大、最复杂的模型,比如像GPT、Gemini这样的模型,或其他类似的模型。你甚至不需要收集任何数据,而是直接尝试一些提示词(prompt),看是否能够奏效。在相当大比例的情况下,它都能够奏效。这非常让人意外,但也非常有趣。

如果这些提示词不起作用,那接下来你可能会进行提示词优化(promptengineering),或者收集一些数据并将其添加到RAG数据库(ragdatabase)或长上下文窗口(longcontextwindow)中,也可能会利用一些控制流循环或其他工具,比如LangChain。如果这些方法仍然不起作用,那么可能需要试试微调(fine-tuning)。如果微调仍然失败,那时才需要收集大量数据并从零开始训练一个模型。

所以,对我来说,这个范式完全被颠倒了。这也意味着Kaggle必须随之进化。因此,我们调整了我们的竞赛设置,确保有更多的竞赛让人们体验、适应这种新的工作流程。

极客公园:千亿甚至万亿的模型被视为大公司的竞技,但小团队和独立研究者能做什么?

D.Sculley:我认为当下这波人工智能浪潮中最有趣的事之一,就是打破了几年前的一种预测:两三年前,有人认为,只有那些拥有大量计算资源,甚至接近无限算力的人,才能在这个领域继续取得突破性成果。然而,事实证明这并不正确。

实际上,人们只需很少的计算资源也能做出很出色的工作,因为现有的构建模块(buildingblocks)本身已经非常强大,并且可以以极具创新的方式加以利用和拓展。

极客公园:对AI产品的开发流程来说,具体区别是什么?

D.Sculley:我认为主要区别在于,我们将更容易创建我们想要实现的产品体验,且会变得更易维护。我个人的工作背景主要专注于可靠的机器学习,包括系统层面的。因此,我经常思考如何简化开发和维护的过程。

我个人认为,如果系统能实现一定程度的组件化或模块化,那么开发和维护起来会更加容易。举个例子,当我们作为开发者在创建一个应用时,如果我们能把需要实现的一组功能分解成两三个甚至四个独立的组件,并分别进行开发,这会让实现这些功能变得更加简单。这是一种假设,有些时候会成立,但在某些情况下可能并不适用。但总体而言,我认为这种开发流程能使我们以更低的成本创造出更好的产品。

极客公园:在这波AI浪潮中,你认为现在行业面临的关键问题是什么?一个AI社区能够在解决这些问题上扮演怎样的角色?

D.Sculley:是的,这里涉及几个不同的点。我们已经讨论过「发现」(discovery)的重要性,对我来说,这是最重要的事情。因为当你看到目前对AI开发的投资规模时,会感到很震撼。但我认为,真正「AINative」的应用案例尚未完全被发现。因此,「发现」是最重要的一个点。

但第二点,几乎同样重要,可以说是并列第一的,就是评估(evaluation)和压力测试(stresstesting)。评估一直以来都是AI开发的核心驱动力,追溯到20或30年前就是如此。

在当前世界,我们发现评估大型语言模型是一个非常棘手的问题,大家都知道这很重要。那么,为什么它会如此困难呢?这是因为这些大型模型的输入空间几乎是无限的,输出空间同样几乎无限。因此,为了真正了解这些模型表现良好的地方、它们何时表现良好以及可能失败的情况,你需要非常多样化的评估方法。

这是一个问题,而拥有一个庞大且高度多样化的社区正是解决这一问题的重要方式。这样,我们才能更好地了解和改进这些模型。

04未来不是一个模型决定一切,而是大小模型配合

极客公园:2025年,你期待AI领域发生怎样的变化?

目前我们可能觉得,拥有一个能够为所有系统处理一切的大型通用模型是一个很好的起点。但从长期来看,我认为更现实的方向是,我们的系统将由多个AI模型或智能体(agent)相互协作。这个趋势的重要性也不难理解。比如,当你运行一个系统,它需要调用一个专有的,或基于API的语言大模型,但同时你也希望对输出结果进行验证,以确保它完全符合你的应用需求。这时,拥有一个由应用开发者完全控制的小型模型可能就非常重要。这两个模型就会协作完成任务。

此外,我们还可以设想额外的模型用于任务的编排(orchestration)、分配(routing)或其他组件化的流程。这是我认为AI领域的发展方向,我们需要确保Kaggle社区能够参与到这个未来之中,从而使这类技术变得更加普及和易于开发。

极客公园:近年来,我们见证了从传统软件工程师到ML工程师的角色演变。现在随着大语言模型的兴起,你认为未来几年AI领域的人才需求和岗位定义会如何变化?企业该如何评估和管理这些新型人才?

比如说,如果你每天的工作是收集数据集、清理数据,这与坐在你旁边的人写大量代码有何关系?人们需要找到方法来评估这种工作的价值。我相信,未来我们将看到——当然我们现在已经在看到——行业对那些擅长通过提示词、RAG数据库、以及其他模型影响方式,与大语言模型交互的人有巨大需求。这种工作形式与传统机器学习不同。

接下来的挑战在于:如何使这些新工作角色正式化?如何确保所需的专业技能可以被很好地评估?以及如何确保这些人在公司中所创造的价值能够得到充分认可?我认为这是下一波技术浪潮需要解决的一个重要课题。

极客公园:你会给那些想在GenAI时代追求机器学习、数据科学职业的年轻人什么建议?

D.Sculley:首先,这是一个令人难以置信的,激动人心的时代。即便保守地说,人工智能也可能是历史上发展最快的领域。创新的速度比我们在任何其他科学技术领域中见过的都要快。这一点非常值得注意。如果你是一个刚起步的年轻人,我认为最好的建议就是不要等待,立即开始。

THE END
1.多智能体强化学习知乎mob6454cc70863a的技术博客多智能体强化学习知乎 系统简介 基于ROBO-MAS多智能体自主协同高频投影定位系统通过采用ROBO-MAS桌面型群体智能机器人,在小型实验场地内通过高频光电投影定位技术实现机器人位置感知和数据通讯,实现“开放式群体智能研究和多智能体自主协同”的研究目标。 系统为群体智能研究和多机器人任务协同研究搭建基础科研平台,系统完全https://blog.51cto.com/u_16099271/12897860
2.强化学习中的分层强化技术层次强化学习强化学习中的分层强化技术 1. 背景介绍 强化学习是机器学习的一个重要分支,它通过在与环境的交互过程中学习获得最优解决方案的方法,在众多人工智能领域都有广泛的应用,如游戏AI、机器人控制、自动驾驶等。然而,在复杂的环境中,强化学习算法通常需要大量的交互样本和长时间的训练才能收敛到最优策略。为了提高强化学习的https://blog.csdn.net/universsky2015/article/details/137638544
3.2020年媒体技术趋势报告:13大领域89项变革全输出这时,研究者将尝试应用分层强化学习(Hierarchical Reinforcement Learning)——能够发现高水准的行动,有条理地克服学习困难,最终以出乎人类意料的速度掌握新的任务。RL可以提升AI系统的“智能”,来使汽车能在非常规条件下自动驾驶,或者协助军用无人机实现之前尚未实现过的复杂动作。 https://36kr.com/p/5267903
4.万字长文总结如何解决"稀疏奖励(SparseReward)"下的强化学习具体的,利用数据改进 agent 学习的方法包括好奇心驱动(Curiosity Driven)、奖励重塑(Reward Shaping)、模仿学习(Imitation Learning)、课程学习(Curriculum Learning)等等。改进模型的方法主要是执行分层强化学习(Hierarchical Reinforcement Learning),使用多层次的结构分别学习不同层次的策略来提高模型解决复杂问题的能力,以及https://www.zhuanzhi.ai/document/7f6d15f412639a573254a0f80300779a
5.科学网—[转载]强化学习在资源优化领域的应用随着强化学习在围棋、游戏等序列化决策领域大放异彩、在多智能体协作等领域取得较好表现,它的一些优秀特性也得到了资源优化领域的关注。首先,基于强化学习的解决方案决策非常高效。虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时https://blog.sciencenet.cn/blog-3472670-1312677.html
6.清华大学交叉信息研究院赵行团队在离线强化学习能够超越专家性能、无需危险环境交互的特性,提出了HsO-VP框架,实现了纯粹基于离线数据的长程运动规划。框架通过变分自编码器(VAE)从离线演示中学习技能,解决自动驾驶中的长期规划问题。设计了双分支序列编码器,有效应对后验坍塌问题。为自动驾驶车辆规划提供了一种新的强化学习方法。 https://iiis.tsinghua.edu.cn/show-10550-1.html
7.翁源县政务服务数据管理局2023年法治政府建设年度报告采用分层学习、考试检验的方式深入学习贯彻习近平总书记重要讲话重要指示精神,深入贯彻落实党的二十大关于法治建设重大部署。一是抓住“关键少数”,充分发挥“头雁效应”。将党的二十大精神、习近平法治思想列入理论学习中心组学习内容。今年通过党组会、理论学习中心组学习法治政府建设相关知识7次。二是全体干部职工学。采取“https://www.wengyuan.gov.cn/zwgk/zwjgk/content/post_2577142.html
8.从搜索到智能客服:阿里开放强化学习技术演进与实践书籍机器之心近日,阿里开放了一本描述强化学习在实践中应用的书籍《强化学习在阿里的技术演进与业务创新》,这本书重点描述了阿里巴巴在推动强化学习输出产品及商业化的实践过程。例如在在搜索场景中对用户的浏览购买行为进行 MDP 建模、在推荐场景中使用深度强化学习与自适应在线学习帮助每?个用户迅速发现宝贝、在智能客服中赋予阿里https://www.jiqizhixin.com/articles/2018-02-06-3
9.论文精读与思考:深度强化学习的组合优化研究进展组合优化“选择决策变量”与深度强化学习的“动作选择”很相似 优势:DRL“离线训练、在线决策”的特性可以解决组合优化中的“实时求解”问题 2.2 目前主要方法 2.2.1 基于DRL的端到端方法 具体方法介绍见第3章 定义:给定问题实例作为输入,利用训练好的深度神经网络直接输出问题的解。网络参数由DRL方法训练得到。 https://www.jianshu.com/p/3887528006d0
10.一文看懂什么是强化学习?(基本概念+应用嘲+主流算法)在线学习 VS 离线学习 详细请查看《强化学习方法汇总》 百度百科和维基百科 百度百科版本 强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。 但在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,https://easyai.tech/ai-definition/reinforcement-learning/
11.基于“滴滴KDD2018论文:基于强化学习技术的智能派单模型在Paper 中,作者将该问题建模成一个用于解决序列决策的强化学习问题,也就是MDP ( Markov Decision Process )问题。一个 MDP 问题可以用四个最基本的要素描述-状态空间,行为空间,奖励函数和状态转移矩阵。求解 MDP 问题就是给出智能体在某种状态下应该采取哪种动作,以最大化收益。在分单问题中,每个司机看做是独立https://www.infoq.cn/article/1x-QigwOCSqtTFl8RKps/
12.GitHubDeepDriving/DeepLearning5009.6 分层深度强化学习算法 306 9.7 深度记忆强化学习算法 306 9.8 多智能体深度强化学习算法 307 9.9 深度强化学习算法小结 307 第十章 迁移学习 309 10.1 什么是迁移学习? 309 10.2 什么是多任务学习? 309 10.3 多任务学习有什么意义? 309 10.4 什么是端到端的深度学习? 311 https://github.com/DeepDriving/DeepLearning-500-questions
13.AAAI2023工业应用领域内,人工智能研究的最新学术成果本工作关注了两个领域的结合方向,即首先通过离线的方法进行预训练,然后在进行在线学习。研究员们提供了结合这两类方法的一种简单策略:通过对离线数据和在线数据进行区分,在学习的时候采取不同的更新策略来更大限度地提高学习效率。本方法能够便利地应用于当前流行的离线强化学习方法。 https://www.msra.cn/zh-cn/news/features/aaai-2023-industrial-applicable-ai
14.未来智能空战发展综述文献[56-57]提出了启发式思想与强化学习相结合的思路,将专家知识作为启发信号,通过强化学习进行先验知识以外的探索,实现了空战策略启发式探索和随机式探索结合的效果。文献[58]解决了多智能体空战的决策问题,提出了多智能体分层策略梯度算法,通过自博弈对抗学习使智能体涌现出专家级的空战战术策略(如图5所示);此外,还https://www.fx361.com/page/2021/1021/11687486.shtml
15.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/