智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习框架推理学徒

此项研究成果已被NeurIPS2024录用。该论文的第一作者是清华大学计算机系博士生关健(导师:黄民烈教授),目前任蚂蚁研究院副研究员,其主要研究领域为文本生成、复杂推理和偏好对齐。

更具挑战性的是,作为面向实际应用的产品,AIAgent在部署后还需要能够随着应用场景的演进和用户需求的变化而不断更新优化。这些实际问题都表明,构建一个真正实用的AIAgent绝非简单的提示工程(PromptEngineering)或模型微调(Fine-tuning)所能解决,而是需要更系统化的方法。

在NeurIPS2024上,来自清华大学和蚂蚁集团的研究者针对人工智能体构建方法的通用性和适应性提出了一个新方案。这个被命名为AMOR(AdaptableMOdulaRknowledgeagent)的系统,不仅能低成本地调用专业工具和知识库,更重要的是,它能像人类一样持续学习和成长。

AIAgent的「三大短板」:为什么它们还不够「聪明」?

想让AIAgent真正胜任助手角色,仅有海量知识是远远不够的。研究团队通过深入分析发现,当前AIAgent普遍存在三大短板:

更令人困扰的是,目前业界主流方案都未能同时解决这三大难题。作者对比了当前最具代表性的AIAgent框架,它们要么推理过程不可控,要么知识固化,要么反馈机制过于粗糙。这一困境在开源模型中表现得尤为明显。

AMOR和已有构建智能体的代表性方法的比较

AMOR:基于有限状态机的模块化推理方案

如何让AIAgent既能像专家一样严谨思考,又能像学徒一样持续成长?AMOR框架给出了一个优雅的答案:将复杂的AI推理过程拆解成可控的「专家模块」,通过有限状态机(FSM)编排它们的协作规则,就像精密的齿轮系统一样,每个部件都完美啮合。

AMOR的状态转移图

这种设计带来三大关键优势:

1.结构化推理框架

FSM使得定义步骤间的依赖关系(例如,执行顺序、分支选择)非常方便,因此能够容易地对错误的路径进行剪枝,从而缩小探索空间,也有潜力更高效地构建类OpenAI-O1的长推理链。

2.「双阶段」训练策略

通过将复杂任务解耦为独立模块,AMOR能够独立训练每个模块,从而可以充分利用开源数据集。具体而言,AMOR采用「预热+适应」两阶段训练模式:

3.过程反馈机制

传统AI训练就像只告诉学生「考试及格/不及格」,而不指出具体错在哪里。这种粗糙的反馈机制常常导致AI像「黑盒」一样难以诊断问题,训练效果事倍功半。而AMOR引入「过程反馈」机制,在适应训练阶段中,其结构化的推理过程使用户能够轻松诊断智能体的错误,并提供过程反馈以提高智能体的推理能力。

4.框架通用性

AMOR框架的设计充分考虑了通用性和可扩展性。虽然论文主要以文本知识库为例进行验证,但其基于FSM的模块化设计天然支持多种应用场景的迁移和扩展:

这种可扩展的架构设计使得AMOR不仅能够解决当前的知识推理任务,更为未来接入新的知识源、任务类型和工具能力预留了充足的扩展空间。正如论文所述,AMOR提供了一个构建知识智能体的通用框架,其核心思想是基于FSM的推理逻辑和过程反馈机制,这使得它能够适应各种不同的应用场景需求。

AMOR实现:模型结构和训练过程

AMOR采用了一种巧妙的「专家混合」架构(Module-AwareMixture-of-Experts,简称MA-MoE)。这种设计灵感来自人类的专业分工:就像一个人可以是优秀的医生,同时在其他领域保持基本能力。具体来说,MA-MoE为每个功能模块配备了独特的FFN参数,并用原始模型的FFN参数进行初始化。这就像是在AI的「大脑」中划分了专门的「思维区域」。

AMOR实验:成本更低,效果更好

在HotpotQA(百科知识问答)、PubMedQA(医学文献问答)和QASPER(论文长文本问答)三个基准测试中,AMOR展现出优秀的性能:

AMOR及基线方法在微调或不微调时的实验结果

实例展示

下图比较了AMOR和传统的ReAct框架(基于GPT-3.5)分别回答同一问题的推理过程:

AMOR(上)和ReAct(下)回答同一输入问题的样例

如图所示,没有明确推理逻辑约束的ReAct未能成功分解问题,并在「Thought/Action5」中过早地终止检索。此外,ReAct在「Thought2/4/5」中也混合了正确和错误的步骤,这使得用户难以针对性地批评和改进智能体。相比之下,AMOR则如同经验丰富的专家,每一步推理都清晰可控,不仅能准确找到答案,还能接受精确的过程指导,持续提升自己的能力。

成本分析

在AI领域,性能提升往往意味着更高的成本。然而,如下图所示,AMOR打破了这个「魔咒」。

不同智能体的平均步骤数/token数对比

为什么AMOR如此高效?想象一个团队会议:传统方法(如ReAct)像是每个人发言都要重复之前所有人说过的话;AMOR则像是精心设计的会议流程:每个环节只传递必要信息。按照目前API调用成本计算,使用GPT-4o处理1万个问题,AMOR比ReAct节省数百美元;当使用开源模型时,成本可以进一步降低90%以上。这意味着AMOR不仅在性能上领先,在商业落地时也具有显著的成本优势。尤其适合大规模文档处理、客服智能问答、专业领域咨询等高频场景的应用。

结语

本文介绍了AMOR——一个为知识密集型任务设计的模块化智能体框架。它通过FSM推理系统和过程反馈机制,让AI展现出前所未有的推理能力和学习潜力。AMOR的成功为AI助手的发展开辟了新路径。作者表示,接下来,他们将拓展到更多知识类型(如结构化知识库)、探索更广泛的应用场景、研究AI自主设计推理逻辑的可能性。这些工作预示着我们正在接近真正的「AI专家」:既有清晰的推理能力,又能在实践中持续成长。

THE END
1.框架探索如何学习框架如何学习一个新框架1.3 框架的特点 2)如何学习框架? 2.1 常见的前端框架 2.2 常见的后端框架 在工作中,经常会听到,这个项目用了什么框架、为什么不用另外一种框架等等的话语,因此想探究一下框架是什么,如何读懂一个框架,以及应该怎么使用框架。 1)了解框架 1.1 什么是框架? https://blog.csdn.net/m0_37621024/article/details/121514847
2.cuda和深度学习框架怎么配合cudaslamcuda和深度学习框架怎么配合 cuda slam VSLAM方法框架: 整个SLAM大概可以分为前端和后端 ,前端相当于VO(视觉里程计),研究帧与帧之间变换关系。首先提取每帧图像特征点,利用相邻帧图像,进行特征点匹配,然后利用RANSAC去除大噪声,然后进行匹配,得到一个pose信息(位置和姿态),同时可以利用IMU(Inertial measurement unit惯性https://blog.51cto.com/u_16099272/11154133
3.如何构建完整的知识体系框架?缺少了完整的知识体系框架,你就好似失去了知识间联系的地图,从而迷失在了知识的汪洋中,只能随波逐流地看到一个个孤岛,却不知道这些孤岛其实是导向大陆的一系列航标。 image.gif 1.2 不自觉地陷入在了被动学习当中 你是否产生过这样的迷惑: “我知道我要学习的东西很多很多,但却不知道应该去学什么?” https://www.jianshu.com/p/06e2b1a92a98
4.十八岁自学少年:我的个人网站是怎么做出来的优设网十八岁自学少年:我的个人网站是怎么做出来的 今天介绍的是一位仅18岁,年纪不大但艺惊四座的有为少年@DandyWeng,是一个真正的 Homeschooler。爱好摄影、计算机和数码产品,他的个人简介上写着:整个世界都是我的学校,学自己之所想所爱。自由的身心定能使我成为一个一直朝前行走的行者 : )这是他的文章,分享关于https://www.uisdc.com/dandyweng-designer
5.全面解读STEM专业三维的学习框架: 学科核心概念:每一个学科都有清楚的核心,也就是核心知识是什么。 跨学科概念:跨学科中也有一些主要的概念贯穿了这个学科。 科学实践:怎么把概念整合?这是实践的问题。 物理科学、生命科学、地球与空间科学都有一些基本的核心概念,例如动能、器官、遗传等,如果STEM项目没有涉及到其中任何一个核心课程http://www.edu-job.com/nd.jsp?id=361
6.用字母表示数评课稿范文(通用18篇)二、关于怎么教 12月8日、9日,在海门实验学校开展了全国“学程导航活力课堂”的活动,活动上,特级老师们纷纷上台献课。在这些课中,我们看到好多相似的镜头,比如几位老师在课前交流中,都与孩子们约定,课上要敢说,要敢讲,不要怕出错。课前,特级教师们开始关注孩子们的'已有生活经验学习经验等,会设计课前练习单http://mip.gongwen.cnrencai.com/xinwengao/369676.html
7.学校安全先进个人主要事迹(通用11篇)二、层层签订安全工作责任书,构建安全教育框架 学校始终坚决贯彻执行县局下发的有关学校安全工作的文件精神及学校安全工作的各项规定,学校的各班级均制定了安全工作职责,班主任每学期都要作出本班切实可行的班级安全教育工作计划和总结,切实将安全工作作为第一要务来抓,学校也将此项工作的考核作为衡量教师工作绩效的重要https://www.unjs.com/fanwenwang/shijicailiao/20221219083948_6125197.html
8.什么是Java框架?java教程Java是一种广泛使用的编程语言,因此,有必要了解不同的Java框架,因为在当前行业中,我们已经转向使用框架而不是直接使用编程语言。框架可以帮助开发人员以更少的时间和精力完成更多的工作,因为在这里您不必从头开始编写所有内容。许多事情都可以通过内置库来处理,从而保持 Java 应用程序的完整性和稳定性。 https://www.php.cn/faq/598556.html
9.彻底掌握ONNXRUNTIME框架深度学习模型部署看它!ONNXRUNTIME是主流的深度学习部署框架之一,支持ONNX格式模型在CPU、GPU、ARM等不同硬件平台上加速推理,支持C++、Python、Java、C#、JS等不同语言SDK。C++版本安装包下载如下: 不同版本的ONNXRUNTIME安装文件下载地址: https://github.com/microsoft/onnxruntime/tags https://www.eet-china.com/mp/a340798.html
10.RPC框架:从原理到选型,一文带你搞懂RPC腾讯云开发者社区怎么封装通信细节才能让用户像以本地调用方式调用远程服务呢?对java来说就是使用代理!java代理有两种方式:1) jdk 动态代理;2)字节码生成。尽管字节码生成方式实现的代理更为强大和高效,但代码维护不易,大部分公司实现RPC框架时还是选择动态代理方式。 下面简单介绍下动态代理怎么实现我们的需求。我们需要实现RPCProxyClhttps://cloud.tencent.com/developer/article/2021745
11.武汉大学智能遥感解译LuoJiaNET框架与LuoJiaSET样本库正式上架武汉大学在国家自然科学基金委重大研究计划集成项目的支持下,与华为MindSpore框架团队共同研发了全球首个遥感影像智能解译专用深度学习框架武汉.LuoJiaNET和业界最大遥感影像样本库LuoJiaSET,并在华为昇思社区上线。在中国科学院院士龚健雅教授指导下,项目组建了以胡翔云教授为项目负责人,张觅副研究员、姜良存副研究员分别为Luhttps://rsgis.whu.edu.cn/info/1252/10354.htm
12.自制简易php的mvc框架仅供学习参考编写初衷:原先想用thinkphp框架,后来经过阅读thinkphp代码,发现一个ip获取的欺骗bug以及非常严重的PDO封装还有漏洞,有可能导致注入的BUG,所以决定自己写框架系统,从最简单的方式开始,最基础架构先出来,后期会根据自己业务需求,封装扩展更多的类库及方法。 有关thinkphp的类库的bug,是3.2版本的bug,3.2.1官方根据我的提https://www.thinkphp.cn/code/578.html
13.中世纪史学家格里:历史才是对“欧洲认同”最具威胁的事物联系与隔离:更广阔的框架 除此之外,研究中世纪早期的学者还受到跨区域、去中心化历史研究的影响,也就是,越来越多的西欧制度、社会和文化发展如今被纳入一个更宽广的欧亚历史的框架内来理解。这也就是后殖民历史学家如查克拉博蒂(Dipesh Chakrabarty)所说的“把欧洲地方化”(Provincializing Europe)的一部分。不过,查克https://www.thepaper.cn/newsDetail_forward_1478495
14.字节跳动破局联邦学习:开源Fedlearner框架,广告投放增效209%纵向与横向两种训练模式可以归约于一个框架,既一对 worker 各自执行一个神经网络,并通信中间结果和梯度。为了支持这种模式,Fedlearner 实现了一个基于 gRPC 的通信协议,并以算子的形式集成到 TensorFlow 中: bridge=bfl.bridge.Bridge(50051, 'localhost:50052')bridge.wait_for_remote_startup()g=tf.Graph()withhttps://maimai.cn/article/detail?fid=1550604028&efid=zqj9rqK7Yf_Us-lu-0Wnmg
15.陆川县世客城小学欢迎你!【学校文化框架】 办学理念:让每一个孩子都绽放和雅的光彩 办学方针:弘扬“客家”文化 铸造“和雅”品牌 办学思路:文化立校 课程育人 特色发展 质量强校 办学目标:创优雅校园 塑儒雅教师 育博雅学生 校训:和而不同 各雅其雅 校风:以和为美 以雅为尚 https://www.meipian.cn/2c5q9aw7
16.从心理学的角度分析《严肃的男人》(严肃的男人)影评结合刚学习的心理学知识,分析一下电影《严肃的男人》里面的主角Larry,抛砖引玉,欢迎交流。人物和背景心理咨询师必须了解来访者的背景。电影《严肃的男人》里面的设定是60-70年代,美国内陆明尼苏达州的一个犹太人为主的社区。对中国观众来说,这个时间、地点和社会的设定是比较陌生的,也因为这样,我们不容易对男主人公https://movie.douban.com/review/14368255/