对话谷歌科学家：智能体是大模型落地重点，AI的未来是大小模型协作模态人工智能|强化学习最新进展_在线学习

随着行业内高阶推理模型的推出，再次彰显了强化学习在通往AGI道路上的重要性，也标志着大模型AI进入了一个全新阶段。

实际上，强化学习在整个AI领域早已有深刻影响。当年基于强化学习理论训练的AlphaGo、AlphaZero，都展现了超越人类的AI震撼。

对此，深度参与AlphaZero项目的GoogleDeepMind资深研究科学家NenadTomasev表示：「强化学习的能力使AI不再受人类知识的限制，而是能够超越这些限制，开辟新的可能性。」

随着强化学习被引入到大模型训练，传统的开发训练方式也正在被颠覆。Nenad表示：「未来，相比依赖单一的模型，我们会构建拥有多种能力的智能体。」

谷歌旗下机器学习社区Kaggle的CEOD.Sculley也表示：过去一年AI领域的进展，比之前的7年还多，开发范式已经完全被颠覆了。

01强化学习让AI拥有了「超人级」的能力

极客公园：Google如何看待AlphaZero技术的演进过程？特别是当它从特定领域扩展到更广泛应用时，你们从中有什么新的发现？

Nenad：AlphaZero无疑是强化学习领域的一个杰出成功案例，通过「自我博弈」应用于游戏领域，最初是国际象棋，这也是我们今天在一起讨论的原因。不过，强化学习的应用领域远不止AlphaZero。即便是当下的生成式人工智能和大语言模型，它们在实际使用中能够保持安全性和行为可控，很大程度上也得益于基于人类或机器学习反馈的强化学习机制。而我们也能看到这种机制在各种领域和场景中的成功案例。

关于AlphaZero本身，它确实是模型和应用领域的一次飞跃进步，这段探索历程非常有趣。

此外，我们还着重于系统的可解释性，理解AlphaZero深度神经网络中早期的人类级别概念和超越人类级别的概念。这种研究尤其重要，因为随着AI系统的不断发展，它们的「超人级」能力将会越来越多。这意味着我们不仅需要这些系统去完成强大而酷炫的任务，更需要从它们的知识和能力中学习。例如，在科学、经济或其他对社会具有重大影响的领域中，当一个AIAgent提出某些建议并表现出色时，我们并不希望这些系统只是完全自主地行动，而是成为供我们使用的工具。因此，问题在于：我们如何建立对这些系统的信任，与它们合作以实现更好的结果？此外，我们自己是否能通过与这些系统的互动让自己也成长并变得更强大？

极客公园：强化学习在AI领域正变得越来越重要，AlphaZero中的强化学习与大模型中的强化学习应用有怎样的区别？

Nenad：强化学习方法有很多种，总能找到它们之间的共性和差异。我认为，AlphaZero作为一种概念，其独特之处并不在于具体的软件实现，而是在于其拥有一个能够持续进行自我改进的循环，这使得它能够不断增强自身能力。

AlphaZero的突破在于它通过自我对弈生成自己的数据。这种能力使其不再受到人类知识的限制，而是能够超越这些限制，开辟新的可能性。我认为这是非常有趣的地方。

在AlphaZero之前，还有AlphaGo，但它没有AlphaZero的「零」特性。AlphaGo的起点是基于人类数据，然后通过多轮自我改进循环提升能力。因此，实际上这两种方法是可以结合起来使用的。在某些情况下，从一个预先存在的模型开始，然后在此基础上不断改进，是非常有用的。我们并不需要完全抛弃我们对一个问题已有的知识，而是可以以此为起点，继续提升。

在语言模型领域，也有一些论文尝试引入类似的自我改进循环。这些方法和框架很多，但有时会遇到瓶颈，那就是需要一个清晰的奖励信号，明确模型要优化的方向。因此，我认为当前的一个挑战是，在开发此类模型时，作为研究社区乃至整个社会，我们需要找到一种方法，为模型提供明确的目标和方向。而为了给出这个明确的目标，我们自己首先需要对「我们想要什么」和「我们想如何做到」有清晰的答案。这听起来似乎很简单，但在许多复杂领域，这实际上是一个非常困难的问题。

极客公园：强化学习的进步，总体上如何启发了你的研究工作？

Nenad：我认为，我们正迈向一个未来，在这个未来中，与其说我们始终依赖单一的模型，不如说我们会构建拥有多种能力的智能体。这些智能体可能由多个组件和子组件组成，根据不同的情况表现出不同的行为。关键在于让这些智能体能够在正确的环境中，调用合适的组件，展现正确的行为。在这一点上，强化学习可以发挥重要作用。

02智能体和多模态整合是未来的重点

极客公园：你认为下一个重要的发展方向是什么？特别是在实现更通用的AI系统方面，需要突破哪些关键技术瓶颈？

Nenad：现在有比以往更多的人在探索各种可能性，探索所有可能的选项。因此要准确预测未来三个月、六个月、十二个月、甚至五到十年后的情况是非常困难的。但我相信，所有人共同努力所带来的进步会让我们感到惊喜。有一些领域最近取得了显著的进展，我认为这是很自然的进步。

我们通常是从解决单一组件入手，例如，过去计算机视觉领域有像ImageNet这样的基准测试，尽管仍有改进空间，但这部分已经得到了很大的解决。同样的，自然语言处理也取得了巨大进展，虽然仍不完美，但在单一模态下的表现（已经很好了）。现在我们进入了多模态融合的多模型时代。比如，一个模型不仅能够生成文本，还能理解图像，甚至生成图像，或者处理音频等。有人已经在将各种模态信息连接在一起，这种结合对于模型的「落地性」（grounding）非常有帮助。所以模型能够更好地理解概念和语言，这对于实现真正的智能至关重要。

最近，在「规划和推理」（planningandreasoning）方面有不少研究成果发布。这是未来另一个关键领域。

此外，还有其他关键问题。例如，关于短期或长期记忆，当前语言模型可以利用上下文窗口，调用外部数据库或运行搜索并获取结果。这些能力已经超越了人类大脑可以即时处理的信息范围。语言模型可以调用外部工具，实现更复杂的功能。如果我们把人类作为参考，尽管「通用人工智能」（AGI）的定义本身还不清晰，我们可以观察到，即便是人类也无法解决所有的通用任务。比如蛋白质折叠问题，我们并不是靠人脑解决这个问题，而是需要专门的蛋白质折叠模型。这表明，人类也有局限性。虽然我们在技能获取的广度上是通用的，但我们仍需分解问题以找到具体解决方案。

在人工智能领域的漫长发展历史中，我们一直借鉴人类的能力。通过神经科学和心理学的视角，我们将人类大脑的技能和组件分解为独立的模块，试图在模型中实现这些能力。这种方法已经在语言、视觉、音频和传感器数据等单一模态领域取得了长足的进步。目前，我们几乎在每种模态上都有基础模型。

我认为，下一步的发展自然是整合这些独立的管道。未来的趋势是朝向一个更加「智能体化」（agentic）的方向发展：从单一模型过渡到一个能够整合多个子模型的智能系统。虽然可以设想一个巨大的、综合所有能力的联合模型，但更现实的短期目标可能是一个软件智能体（softwareagent），它调用多个子模型协同工作。智能体系统的关键在于如何将这些组件连接起来，并使整个联合系统能够按照预期运行。

03AI开发范式不再是数据主导，而是模型主导

极客公园：在过去几年中，你观察到AI的开发范式发生了什么样的根本性转变？这种转变对开发者和企业意味着什么？

首先，为解决一个问题，你需要先收集大量的数据，然后对这些数据进行细心筛选，也许还要进行一些「特征工程」，找出最重要的部分。

然后，训练一个尽可能简单的模型，找到一个「愚蠢」的起点。传统意义上，这意味着从一个非常简单的模型开始，比如「随机森林模型」（RandomForest）或「线性模型」，然后开始训练，只有在评估结果表明必要的时候，才增加模型复杂度。最终，得出一个适合部署的模型。

然而，在当下时代，这种范式已经完全不同了。需要再从收集数据集开始，而是先寻找一个模型。这个模型不是最简单的模型，而可能是最大、最复杂的模型，比如像GPT、Gemini这样的模型，或其他类似的模型。你甚至不需要收集任何数据，而是直接尝试一些提示词（prompt），看是否能够奏效。在相当大比例的情况下，它都能够奏效。这非常让人意外，但也非常有趣。

如果这些提示词不起作用，那接下来你可能会进行提示词优化（promptengineering），或者收集一些数据并将其添加到RAG数据库（ragdatabase）或长上下文窗口（longcontextwindow）中，也可能会利用一些控制流循环或其他工具，比如LangChain。如果这些方法仍然不起作用，那么可能需要试试微调（fine-tuning）。如果微调仍然失败，那时才需要收集大量数据并从零开始训练一个模型。

所以，对我来说，这个范式完全被颠倒了。这也意味着Kaggle必须随之进化。因此，我们调整了我们的竞赛设置，确保有更多的竞赛让人们体验、适应这种新的工作流程。

极客公园：千亿甚至万亿的模型被视为大公司的竞技，但小团队和独立研究者能做什么？

D.Sculley：我认为当下这波人工智能浪潮中最有趣的事之一，就是打破了几年前的一种预测：两三年前，有人认为，只有那些拥有大量计算资源，甚至接近无限算力的人，才能在这个领域继续取得突破性成果。然而，事实证明这并不正确。

实际上，人们只需很少的计算资源也能做出很出色的工作，因为现有的构建模块（buildingblocks）本身已经非常强大，并且可以以极具创新的方式加以利用和拓展。

极客公园：对AI产品的开发流程来说，具体区别是什么？

D.Sculley：我认为主要区别在于，我们将更容易创建我们想要实现的产品体验，且会变得更易维护。我个人的工作背景主要专注于可靠的机器学习，包括系统层面的。因此，我经常思考如何简化开发和维护的过程。

我个人认为，如果系统能实现一定程度的组件化或模块化，那么开发和维护起来会更加容易。举个例子，当我们作为开发者在创建一个应用时，如果我们能把需要实现的一组功能分解成两三个甚至四个独立的组件，并分别进行开发，这会让实现这些功能变得更加简单。这是一种假设，有些时候会成立，但在某些情况下可能并不适用。但总体而言，我认为这种开发流程能使我们以更低的成本创造出更好的产品。

极客公园：在这波AI浪潮中，你认为现在行业面临的关键问题是什么？一个AI社区能够在解决这些问题上扮演怎样的角色？

D.Sculley：是的，这里涉及几个不同的点。我们已经讨论过「发现」（discovery）的重要性，对我来说，这是最重要的事情。因为当你看到目前对AI开发的投资规模时，会感到很震撼。但我认为，真正「AINative」的应用案例尚未完全被发现。因此，「发现」是最重要的一个点。

但第二点，几乎同样重要，可以说是并列第一的，就是评估（evaluation）和压力测试（stresstesting）。评估一直以来都是AI开发的核心驱动力，追溯到20或30年前就是如此。

在当前世界，我们发现评估大型语言模型是一个非常棘手的问题，大家都知道这很重要。那么，为什么它会如此困难呢？这是因为这些大型模型的输入空间几乎是无限的，输出空间同样几乎无限。因此，为了真正了解这些模型表现良好的地方、它们何时表现良好以及可能失败的情况，你需要非常多样化的评估方法。

这是一个问题，而拥有一个庞大且高度多样化的社区正是解决这一问题的重要方式。这样，我们才能更好地了解和改进这些模型。

04未来不是一个模型决定一切，而是大小模型配合

极客公园：2025年，你期待AI领域发生怎样的变化？

目前我们可能觉得，拥有一个能够为所有系统处理一切的大型通用模型是一个很好的起点。但从长期来看，我认为更现实的方向是，我们的系统将由多个AI模型或智能体（agent）相互协作。这个趋势的重要性也不难理解。比如，当你运行一个系统，它需要调用一个专有的，或基于API的语言大模型，但同时你也希望对输出结果进行验证，以确保它完全符合你的应用需求。这时，拥有一个由应用开发者完全控制的小型模型可能就非常重要。这两个模型就会协作完成任务。

此外，我们还可以设想额外的模型用于任务的编排（orchestration）、分配（routing）或其他组件化的流程。这是我认为AI领域的发展方向，我们需要确保Kaggle社区能够参与到这个未来之中，从而使这类技术变得更加普及和易于开发。

极客公园：近年来，我们见证了从传统软件工程师到ML工程师的角色演变。现在随着大语言模型的兴起，你认为未来几年AI领域的人才需求和岗位定义会如何变化？企业该如何评估和管理这些新型人才？

比如说，如果你每天的工作是收集数据集、清理数据，这与坐在你旁边的人写大量代码有何关系？人们需要找到方法来评估这种工作的价值。我相信，未来我们将看到——当然我们现在已经在看到——行业对那些擅长通过提示词、RAG数据库、以及其他模型影响方式，与大语言模型交互的人有巨大需求。这种工作形式与传统机器学习不同。

接下来的挑战在于：如何使这些新工作角色正式化？如何确保所需的专业技能可以被很好地评估？以及如何确保这些人在公司中所创造的价值能够得到充分认可？我认为这是下一波技术浪潮需要解决的一个重要课题。

极客公园：你会给那些想在GenAI时代追求机器学习、数据科学职业的年轻人什么建议？

D.Sculley：首先，这是一个令人难以置信的，激动人心的时代。即便保守地说，人工智能也可能是历史上发展最快的领域。创新的速度比我们在任何其他科学技术领域中见过的都要快。这一点非常值得注意。如果你是一个刚起步的年轻人，我认为最好的建议就是不要等待，立即开始。

THE END

对话谷歌科学家：智能体是大模型落地重点，AI的未来是大小模型协作模态人工智能

对话谷歌科学家：智能体是大模型落地重点，AI的未来是大小模型协作模态人工智能

转载近似动态规划与强化学习入门步骤stevenbush

性能提升成本降低，这是分布式强化学习算法最新研究进展gpu算法SRL新浪科技

AI领域新进展：从强化学习到大语言模型，安波教授在IJCAI2024的洞察与展望

北达燕园微构