大模型工具学习探索

导读大模型已经展示出在复杂场景下调动各类工具以解决复杂任务的能力。其深度的语义理解、广泛的世界知识,以及强大的推理和规划能力,共同使得人工智能在模拟人类使用工具的过程中展现出巨大的潜力。在此背景下,基础模型(FoundationModel)的工具学习(ToolLearning)应运而生,该领域的目标是让基础模型能够根据人类的指示和操作来使用工具,以解决特定任务。然而,无论是从理论研究还是实际应用的角度来看,该领域都面临着众多机遇和挑战。本文将介绍清华大学在工具学习领域的一些重要研究成果,并详细介绍其开源的交互式网页搜索中文问答框架WebCPM、BMTools和AgentVerse工具包。希望这些工作能够帮助读者深化对大模型工具学习领域的理解,同时也欢迎更多的研究者和开发者参与到这些工具包的使用和开发中来,共同推进大模型工具学习范式的发展。

1.工具学习背景(Background)

2.工具学习框架(Framework)

3.工具学习应用(Application)

4.问答环节

编辑整理|王帅

内容校对|李瑶

出品社区|DataFun

01

工具学习背景Background

1.工具与智能(ToolsandIntelligence)

工具是人类能力的延伸,旨在提高生产力和效率,以及解决问题。人与动物本质区别在于工具,人可以非常熟练地创造和使用工具。纵观历史,人类一直是工具发明和操作的主要推动者。

GPT-4等基础模型(FoundationModel)展示了其在理解人类意图、自动化复杂过程、解读多模态信息等方面的巨大潜力。同时也引发了如下问题:人工智能是否可以像人类一样使用工具?

基于大模型、基础模型(FoundationModel),上述问题的回答是Yes!主要原因如下:

上图给出了一些工具学习场景的典型应用:

2.工具学习的分类(CategorizationofToolLearning)

现有工具学习主要可以分为两类,工具增强学习(Tool-augmentedLearning)和工具导向学习(Tool-orientedLearning),其核心差异在于学习过程中,是通过工具执行来增强基础模型(工具为AI服务),还是通过基础模型优化工具的使用(AI为工具服务)。

工具增强学习利用各种工具的执行结果,增强基础模型性能。在这一范式中,工具执行结果被视为辅助生成高质量输出的外部资源。将工具作为额外资源辅助模型生成,如解决大模型生成过程中的时效性不足或事实性不准确的问题。如用户想了解今天Twitter的Trending,大模型可以调用Twitter的API,得到这些Trending后,再进行生成。

02

框架Framework

1.工具学习框架

一个通用的工具学习框架,类似强化学习MDP的架构,包含人类用户角色和四个关键组成部分:工具集、控制器、感知器和环境。

工具学习框架的整体流程始于人类用户,具体如下:

(1)意图理解IntentUnderstanding

在ChatGPT之前更多是NLP场景下的任务,大家的共识是模型理解语言比较困难。ChatGPT出现后,大模型基于InstructionTuning技术,具备了非常强的理解人类指令潜在意图的能力,可依据人的指令去解决真实场景下用户的Query问题。

大模型将NLP任务包装为多种instruction格式,进行大规模有监督的精调(Fine-Tuning),实现从指令空间到模型认知空间映射的学习。上述训练后的大模型具备了在未学习过的指令上的泛化能力,且随着模型的增大,训练数据量的增大及diversity的增强,其泛化能力会越来越强。

工具学习场景下意图理解面临两方面的挑战:

(2)工具理解ToolUnderstanding

在大模型中,除了需要模型对人类指令进行准确理解外,模型对工具的理解同样至关重要。首先,模型需要理解工具的功能;其次,模型需要知道如何在特定的任务中使用这些工具。在ChatGPT出现之前,主要的模式是通过记录人类使用工具的行为,并让模型模拟这些行为以实现工具使用的学习。而随着ChatGPT的出现,我们可以通过PromptLearning,即在Prompt中给出工具的描述,让大模型理解并应用工具。这种基于Prompt的方式目前已经成为大模型使用工具的主流方法。具体Prompting有如下两种:

提供一个描述任务的提示(prompt)来引导模型生成正确的输出。在Prompt中描述API的功能、输入输出格式、传参方式等,使得模型理解API如何使用。如下图,Zero-shotPrompting给出了forecastweatherAPI,描述其功能、返回信息等,然后去解决“下周北京的平均气温是多少”的问题。

优点:不需要为每个新任务重新训练模型,节省了大量的计算资源;并且可以快速适应新任务,只需为任务编写新的提示即可。

缺点:性能通常不如使用特定任务训练数据进行Fine-tuning的方法;且编写有效的提示需要一定的技巧和经验。

不仅给出任务描述性提示,还要直接展示少量(few-shot)的使用工具的示例,模型通过模拟人类的行为,理解如何使用工具。如下图,Few-shotPrompting给出了调用API的示例(如何回答问题—明天上海的温度),然后再让大模型利用API去解决问题。

优点:利用少量示例帮助模型理解任务,提高了模型的性能。比Zero-shotPrompting更灵活,可以应对更多种类的任务。

缺点:需要选择有代表性的示例,这需要一定的专业知识和经验。对于一些复杂的任务,可能需要更多的示例才能达到满意的性能。

(3)规划与推理PlanningandReasoning

大模型除了理解工具和人类的指令,还须具备规划和推理能力。

依据规划与环境是否交互,模型的推理分成两种:

大模型首先生成多个候选答案,然后自评估答案的优劣,最后选择最优的答案。

模型生成一个静态规划(给出未来任务列表),不与环境交互,适用于简单的场景。

如果Prompt指令合理,早期的预训练语言模型(PretrainedLanguageModels)已经具备理解和使用上下文的incontext能力,可将high-level的任务有效地分解为mid-level的规划,而无需进一步的训练。

大模型默认解决方案,不断根据每一步的成败以及环境和人类的反馈,动态跟进该规划,直至整个流程完成。

方案1:

上篇论文通过设定valuefunction限定了模型在每种场景下可做的任务,模型在某一场景下,只在上述的限制任务集合中进行选择,可以保证模型的可执行。

方案2:

可解决多步或多工具场景下的复杂问题的模型

不同工具之间的依赖关系

不同工具并行化执行(模型的生成是流式的)

(4)训练策略TrainingStrategies

大模型下,虽然直接Prompting就可以让模型学会使用工具,但在具备一定数据的特定场景下,进行微调通常都会有收益,除非数据的质量有问题。大模型学习使用工具的方式有两种:

2.WebCPM

(1)WebGPT介绍

2021年12月WebGPT的发布标志着基于网页搜索的问答新范式的诞生,该篇工作(Nakano,Reiichiro,etal."WebGPT:Browser-assistedquestion-answeringwithhumanfeedback."arXivpreprintarXiv:2112.09332(2021))可以算是工具学习领域最早期的工作,其做法为基于人类记录的大量搜索引擎使用的行为数据进行有监督Fine-Tune和强化学习,使得大模型学会使用搜索引擎。该文证明只需6000条数据就可让模型很好地学会如何使用搜索引擎,且能力会超越人类专家。

(2)WebCPM介绍

(3)WebCPM搜索交互界面

(4)WebCPM数据集

WebCPM的数据集包含5500对高质量的问题-答案对以及十万多条真实用户网页搜索行为。

LFQA数据样例特点:

(5)LFQApipeline框架

WebCPM建模包含两类模型:

Action预测模块(预测在该平台的下一个action,大约10个action,建模为一个多分类任务)

Query生成模块(生成搜索的query,用文本生成来实现,P(Qt+1|St))

Fact抽取模块(对当前页面抽取摘要)

(6)整体pipeline评测

WebCPM工作是在ChatGPT3.5发布之前,当时的基础模型与ChatGPT还是有一定的差距,随着CPM模型的改进,当前内部测试发现可以远超人类水平。

3.其他工作

(1)WebShop

大模型如何学会使用亚马逊购物网站?可以类似搜索引擎,构建WebShop:

(2)Toolformer

WebCPM和WebShop都需要让大模型学习大量人类标注数据,如何让大模型可以触类旁通学习,降低人类标注成本或降低人类的参与度?

动机:

方法:

步骤:

给定一个纯文本数据集,构建出一个带有API调用的数据集,然后在此数据集上做微调

Toolformer这项工作展示了大模型具备很强的自学的能力,大模型可自主学习工具,并可不断提升工具使用的能力。

(3)ToolCreation

在证实大模型可以使用工具后,我们的ToolCreation工作在整个领域首先提出了模型作为工具创造者的想法。在21世纪之前,通常认为人类是工具创造和使用的主要主体,而基础模型的出现可能颠覆这一观念,创造工具不再是人类专有的能力。

每个任务其实最好都是能用工具解决,现实场景下不一定存在最适合解决该任务的工具,可以通过大模型生成解决该任务的工具。人类创造的工具都是为人类设计,为人类设计的工具不一定是最好的,大模型可以定义更加适合自己的工具接口,该接口不一定适合人类使用。通过初步验证,大模型可以将一个简单工具API升级为具有更好功能的工具,基础模型可能具有自发创造工具的潜力。

所以我们提了这样一个框架,给定任何一个query,我们会让模型先去做一遍工具的生成。具体包含四个步骤:creation、Decision、Execution、Rectification。

这个过程会持续进行,直到模型创造出一个能够有效解决当前任务的工具,就可以跳出这个循环。这种设计使模型具有了持续学习和自我优化的能力,从而提升了其解决问题的效率和效果。

通过实验发现增加工具生成,使得解决实际任务的能力增强,相较PoT和CoT都有显著的提升。

工具的创造过程从本质上说是降低了后续任务的难度。如果只有一个质量很差的工具,那么可能需要付出巨大的精力才能使用这个工具来解决一个复杂的任务。所以,从这个角度出发,引出我们工作的核心理念:先创造工具,再用这个工具去解决任务。

03

应用Application

1.开源平台BMTools

(1)ChatGPT插件

OpenAI发布了支持联网、解决数学计算的插件ChatGPTPlugins,被称为OpenAI的“AppStore”。然而,由于目前其仅支持部分OpenAIPlus用户,大多数开发者仍然无法使用。

(2)BMTools介绍

为解决这个痛点,我们推出了BMTools工具学习包,一个基于语言模型的开源可扩展工具学习平台。

我们将各种调用流程统一到一个框架上,使整个工具调用流程标准化、自动化。开发者可通过BMTools,使用给定的模型(ChatGPT、GPT4)调用多种工具接口,实现特定任务或功能。

BMTools具有如下一些特性:

2.ToolBench

ToolBench项目,可以帮助开发者构建开源、大规模、高质量的指令调优数据,促进构建具有通用工具使用能力的大语言模型。

ToolBench工具包特性如下:

构建过程:

ToolBench基于BMTools,在有监督数据中训练大语言模型。所有的数据都是由OpenAIAPI自动生成并由开发团队进行过滤,数据的创建过程很容易扩展。

ToolLLaMA

通过ChatGPT对LLaMA和ChatGPT的答案和工具使用链进行自动评估。

评估结果如下(分数越高越好),ToolLLaMA在不同场景下与ChatGPT的性能相同或更好。

3.工具学习必读PaperList

04

问答环节

Q1:WebCPM是否针对网络中网页搜索质量低,进行搜索结果过滤等设计?

A1:WebCPM针对页面低质量搜索内容进行了过滤。

Q2:在不同语言上的效果如何,例如在中文任务上的效果怎么样?

A2:WebCPM背后的基础模型CPM是由面壁智能与OpenBMB开源社区开发的百亿参数中文语言模型,占据多个中文领域语言模型排行榜前列。

Q3:WebCPM和WebGLM的区别?

WebGLM则是一个基于大语言模型(LLM)的联网问答聊天机器人,其工作流程是固定且流程化的,包括搜索、页面检索、页面信息摘取和总结等步骤。这一框架为进一步提升每一步骤的能力提供了极好的基础,随着每一步骤能力的增强,最终的模型效果有可能超越现有的大模型。

INTRODUCTION

秦禹嘉

清华大学

博士生

秦禹嘉,男,清华大学计算机系2020级直博生。主要研究方向为大规模语言模型的高效预训练与下游智能化应用,曾在ACL、NAACL、EMNLP、ICLR、NeurIPS等会议发表多篇一作论文。

THE END
1.设计导航摹客2024年设计师必备设计工具 美间AI抠图无需ps,免费在线一键抠图,发丝级的精准。 觅知网全网优质素材站,免费下载PPT模板|PSD素材|AE模板 笔灵AI爆款设计文案写作神器,多场景AI创作内容生成 千图网设计必备!8000万优质设计素材免费下载 创客贴作图神器设计推荐!20万模板,8000万素材,一键出图 https://hao.shejidaren.com/
2.师必备的83个设计资源网站设计师专用镜像网站如何才能完成一个成功的设计?对于设计师来说,除了巧妙的设计构思,设计资源也必不可少。如何才能快速找到这些设计资源,提高工作效率?在本篇文章中,小编为大家整理83个设计资源网站。全文主要包括Logo、字体、图片、图标、网站模板、设计灵感网站、配色方案、设计工具、设计课程9类设计资源。 https://blog.csdn.net/aimeeth/article/details/86522546
3.101种最热门的EdTech工具他们给了我们101个推荐,这些工具经过测试(tested),如果达不到教育所需专业水平,我们是不会推荐的。 他们的建议包括一系列免费、有偿和免费的试用方案。准备好了解了吗? 1. Twinkl,节约教师宝贵时间 Twinkl是一家教育出版公司,它正在全球范围内改革教师的工作方式,通过借助遍布英国、美国和澳大利亚的内容创作者(教师https://36kr.com/p/829435155242882.html
4.三防四核五英寸索尼XperiaZL36h评测(全文)索尼Xperia Z的机身顶端只设计了一个耳机接口,而底端右下角的位置则是索尼手机从未疏漏过的挂饰孔。在手机底端可以看到一行“Prototype not for sale”的字样,看来本次进行评测的仍旧是索尼Xperia Z的索尼Xperia的新浪官方微博也会不定期放出新的桌面小工具安装程序,除了手机内预置的几个小工具外,之前https://mobile.zol.com.cn/348/3489737_all.html
5.史上最全设计师必备的83个设计资源网站网站文章如何才能完成一个成功的设计?对于设计师来说,除了巧妙的设计构思,设计资源也必不可少。如何才能快速找到这些设计资源,提高工作效率?在本篇文章中,小编为大家整理83个设计资源网站。全文主要包括Logo、字体、图片、图标、网站模板、设计灵感网站、配色方案、设计工具、设计课程9类设计资源。 http://www.anyouy.cn/anyouwz/44728.html
6.创客贴平面设计作图神器免费设计模板多人跨部门、跨地域设计协作 丰富的资源格式 多种资源格式满足不同场景内容需求 设计组件 数据& 功能组件让设计更生动 快速分享 一键快速分享主流社媒平台 AI智能设计新时代 AI设计工具助力内容生产效率革命式提升 图片修复 去物体、修痕迹 智能改图 智能替换画面内容 https://www.chuangkit.com/
7.在线原型图绘制工具推荐,第二个原地封神!缺点:仅适合低保真在线原型图和线框草图设计。 在线原型图工具,就选Pixso 从上面9款在线原型图工具的评测中不难看出,每个都各有千秋,但是综合来看,还是Pixso在绘制在线原型图的功能上更加全面、更加智能。Pixso拥有四大核心设计功能:矢量网格、自动布局、组件变体、自动切图,在效率上远超其他设计工具。另外Pixso的其他https://pixso.cn/designskills/zaixianyuanxingtu/
8.2024年好用的在线图片设计工具推荐或者你已经准备好了设计图,也可以把它放到模版中,预览更加真实的效果,你可以自由添加各种物件和Mockup组件 如果你需要更多功能,软件还提供了文字模版、滤镜、特效调整等功能,可以进行非常细致的调整 Artboard Studio 这款工具并不能帮助你做完整的设计,它更适合于对设计好的图片进行展示、美化等,让图片的质量更高 https://www.v1tx.com/post/best-online-graphic-design-tool/
9.平面设计软件服务Readymag怎么样有什么替代品和类似服务问题: 类似Readymag的平面设计软件产品推荐? 问题: Readymag使用评测? 提问问题 没有找到你需要的问题吗? 向官方人员或使用过产品的用户询问问题,获取答案Piktochart是一个用户友好的信息图制作工具。该工具帮助你把你的视觉交流带到另一个阶段,而不需要专业设计师的帮助。用户将能够创建长篇信息图,让更多的观众https://www.chinaz.com/top/software/1004822.shtml
10.Canva可画在线设计协作平台平面设计作图软件开始设计 文档 白板 演示文稿 海报 图片编辑器 简历 微信公众号封面 小红书帖子 长图 完美适配每位用户 Canva可画免费版 适用于设计或编辑任意内容。 Canva可画高级版 使用付费功能实现品牌成长或开展兴趣项目。 Canva可画团队版 适用于想要用付费职场工具和工作流程来开展协作的团队。 https://www.canva.cn/
11.用AI工具链从0到1制作MV,创作小白必看腾讯云开发者社区上图是我制作MV所设计的分镜脚本 我坚信,未来使用AI进行影视创作的艺术家,只需专注于分镜脚本设计去提供1%的灵感,剩下99%的汗水让AI来做。 2. 虚拟歌手生成 目前市场上有3个口碑比较不错的AI工具,即通过人物照片来生成对口型的视频(目前主要用于演说场景),我尝试在演唱场景下对比其生成效果,最终我选择使用Heygenhttps://cloud.tencent.com/developer/article/2427951
12.稿定设计在线设计平台海报设计图片设计视频编辑工具推荐 资源教程 登录/注册 创作 稿定模板 素材下载 工作台 搜索 全部分类 小红书? 冬至 圣诞节 元旦 公众号首图 年会 邀请函? 倒计时 早安 小红书 电商 公众号 教育培训 零售 生活日常 行政办公 热门推荐 精选双旦营销模板如何按参考线切图AI设计-小红书备忘录封面小编精选https://www.gaoding.com/
13.在线矢量图制作工具推荐,简单好上手!矢量图在设计、印刷、工程、科学等领域有广泛的用途,矢量图的可缩放性、精确性和编辑灵活性使其成为各种设计和可视化领域中不可或缺的工具。以上就是本文为大家推荐的几款简单又好上手的在线矢量图制作工具,这些在线制作工具具有直观的用户界面和简洁的操作流程,即使是非专业人士也可以轻松上手使用。其中,即时设计还支https://js.design/special/article/online-vector-graphics.html
14.大作网全球高清图片素材图片搜索网站大作设计网(www.bigbigwork.com)是专为设计师度身定制的设计灵感图片搜索,聚合全球知名设计网站。目前在库21.2亿高清图片、摄影照片。每日更新量在25万张以上免费版权图片,CC0图片素材。提供压缩图、AI扩大图、智能插件高效设计工具。整理建筑设计图、广告设计图、家居设计http://zly.bigbigwork.com/
15.设计神器Silk!免费的在线镜像万花筒光感图形绘制工具点击#优设每日作业#进入微博超话页面,上传并发布你的练习作业,话题微博格式【 优优教程网365打卡计划 – DAY 01 】,优秀作业将有机会被@优优教程网官方微博转发点评。 优设每日作业 夏目mumumu 这家伙很懒啊 已发布文章5篇 1音乐分轨神器!3步分离人声与伴奏的在线工具 https://uiiiuiii.com/software/204185.html
16.自媒体维基AI Logo 生成器盘点:18个顶级AI商标设计工具·对比评测 最新资讯 所有 曲奇云盘倒闭了 软件科技 2024年10月3日 正版软件 五月活动,Fences / Start11 / KeyCue 折扣来袭,会场软件 6 折起! 软件科技 2024年5月25日 桌面清理好助手,终身版酷呆桌面仅需35元 https://www.zmt.wiki/