AI智能体产品案例深度思考和分享(全球顶级公司实践细节,做AI智能体必读)调用翻译编程大模型ai智能体schema

原作者是:JuanPabloBottaroandCo-authoredbyKarthikRamgopal

在过去的六个月里,在领英我们的团队一直致力于开发一种新的AI驱动的产品体验。我们想重新构想会员们进行求职和浏览专业内容的方式。

生成式人工智能的爆发让我们停下脚步,思考现在能够实现而一年前还无法实现的事情。我们尝试了许多想法,但都不怎么灵。最终以信息流和招聘启事切入找到了释放AI强大力量的方法,它可以帮助用户:

●总结关键点,例如从帖子中总结要点或了解各个公司的最新动态。

●关联不同信息,例如评估自己与某个职位的匹配度。

●获取建议,例如改进个人资料或准备面试。

●等等……

概览让我们通过一个真实场景来展示这个系统是如何工作的。

想象一下,你正在浏览领英的动态,偶然发现了一篇关于产品设计中确保残障人士可访问性(注:就是那种系统里可以把字体放大好多倍的功能)的有趣帖子。在帖子旁边,你看到了几个入门问题,以便你更深入地了解这个主题。你感到好奇,点击了“有哪些例子说明确保残障人士可访问性可以推动科技公司的商业价值?”这时候,在幕后发生了以下事情:

1.选择合适的智能体:这是一切的原点。我们的系统接收你的问题,并决定哪个AI智能体最适合处理它。在上面这个例子中,它识别出你对科技公司中如何确保残障人士可访问性感兴趣,就会将你的问题导引到负责一般知识性问题的AI智能体。

2.收集信息:然后就得做些基础工作。AI智能体会调用内部API和Bing,搜索具体的例子和研究案例,这些例子和研究案例突出了设计中的确保这种可访问性与科技公司商业价值的关联。这些就是产生最终回答的原始素材库。

作为用户你可能会接着问“我如何将自己的职业转向这个领域?”,然后我们会重复上面这三个步骤,但这次会将你路由到职业和工作的AI智能体。只需点击几下,你就可以深入了解任何主题,获得可操作的见解或找到你下一个大好机会。

轻松实现的部分

整体设计

图1:简化的用户查询过程。KSA代表“知识共享智能体”,是数十个能够处理用户查询的智能体之一

大家可能已经注意到,我们的流程遵循了检索增强生成(RAG),这是生成式AI系统中常见的设计模式。构建这个流程比我们预期的要容易得多。在短短几天内,我们就搭建好了基本框架并使其运行起来:

1.路由(Routing):判断问题是否在处理范围内,是的话将其转发给哪个AI智能体。智能体的例子包括:岗位评估、理解公司、帖子要点提取等各种智能体。

2.检索(Retrival):这是一个逐步确定详细信息的步骤(召回率导向的步骤),AI智能体决定调用哪些服务以及如何调用(例如,LinkedInPeopleSearch、BingAPI等)。

3.生成(Generation):这是一个精准度导向的步骤,它筛选检索到的各种数据,过滤它,并产生最终响应内容。

对我们而言好使的招数是:

●固定的三步流程

●用小模型干路由/检索,用大模型干生成

●基于内存数据库的EBR(Embedding-BasedRetrieval(EBR)),直接将响应示例注入到我们的提示词中(穷人版微调)。(注:EBR是个技术名词,感兴趣的自己再查吧。)

●在路由和检索过程中针对每个步骤做特定评估

开发速度

我们希望多个团队并行快速推进,因此决定将任务拆分为由不同人员开发的独立智能体(即AI智能体):岗位评估、理解公司、帖子要点提取等智能体分别由不同团队负责。

这种方法带来了显著的不良影响(compromise)。通过并行处理任务,我们在速度上取得了优势,但这却以碎片化为代价。当与智能体的交互可能由不同的模型、提示词或工具管理时,保持统一的用户体验变得极其具有挑战性。

为了解决这个问题,我们采用了一个简单的组织结构:

●一个小型“横向”工程小组,负责处理公共组件并专注于整体体验。这包括:

○各种支撑此产品的基础服务

○评估/测试工具

○所有垂直领域使用的全局提示词模板(例如,智能体的全局身份标识、对话历史、越狱攻击的防护等)

○iOS/Android/Web客户端的共享UX组件(注:一般就是指按钮、下拉列表这些)

○一个服务器端驱动的UI框架,用于发布新的UI更改,而无需更改或发布客户端代码。(注:因为UI在服务端,那就需要有个在服务端生成UI的框架,很麻烦的一个东西)

●多个“纵向”工程小组,各自对其智能体拥有自主权,例如:

○个性化帖子摘要

○岗位匹配度评估

○面试技巧

那些东西对我们有用:

●分而治之,但限制智能体的数量

●建立一个中心化的,通过多轮对话支撑的评估过程

●共享提示词模板(如“身份”定义)、UX模板、工具及指令

不好搞的部分

评价输出好坏

评估我们回答的质量比预期的要困难得多。这些挑战大致来自三个方面:制定指南、扩展标注和自动评估。

制定指南:以岗位评估为例:点击“评估我是否适合这份工作”却得到“你非常不适合”的结果其实没啥用。我们希望它既具有事实性又充满同理心。有些用户可能正在考虑转行到他们目前并不十分适合的领域,并需要帮助了解差距和下一步行动。不能确保这些细节的一致性就没法让保持标注者保持评分的一致性。

扩展标注:最初,团队中的每个人都参与了讨论(产品、工程、设计等),但我们知道我们需要一个更加有原则的方法,拥有一致且多样化的标注者。我们内部的语言学家团队建立了工具和流程,使我们能够每天评估多达500次对话,并获得以下方面的指标:整体质量分数、幻觉率、负责任的人工智能违规情况、连贯性、风格等。这成为我们了解趋势、迭代提示词并确保我们准备好上线的主要参考点。

还在死磕的事:端到端自动评估流程,以实现更快的迭代。

调用内部API

领英拥有大量关于人、公司、技能、课程等的独特数据,这些数据对于构建具有独特和差异化价值的产品至关重要。然而,大语言模型(LLMs)并未经过这些信息的训练,因此无法直接用于推理和生成响应。为了解决这个问题,一个标准的做法是设置检索增强生成(RAG)流程,通过该流程调用内部API,并将它们的响应注入到后续的大语言模型提示词中,以提供额外的上下文来支持生成响应。

这些独特的数据中有很多是通过各种微服务中的远程过程调用(RPC)API在内部公开的。这些API虽然这对于人类通过编程方式调用非常方便,但对于大语言模型来说并不友好。我们通过把这些API“包装”成技能来解决这个问题。每个技能(Skill)都包含以下组件:

1.人类(和大语言模型)友好的描述:说明API的功能以及何时使用它。

2.RPCAPI调用配置:包括端点、输入、输出schema等。

3.大语言模型友好的输入和输出schema:

a.基本类型(如字符串/布尔值/数字)

b.JSON风格的输入和输出schema

4.业务逻辑:用于在大语言模型友好的schema与实际RPCschema之间进行映射。

(注:schema是个编程术语,也许可以翻译成模式,拿excel表作类比,表头是schema)

图3:使用技能调用内部API

我们编写了提示词,要求大语言模型(LLM)决定使用哪种技能来解决特定任务(通过规划来完成技能选择),然后输出调用该技能所需的参数(函数调用)。由于调用参数必须与输入schema匹配,我们要求LLM以结构化的方式输出它们。大多数LLM都经过YAML和JSON的结构化输出训练。我们选择YAML是因为它更简洁,因此消耗的tokens比JSON少。

解决这个问题的标准方法是检测到错误,然后重新发提示词给大语言模型,要求它在这些额外指示下纠正错误。虽然这种方法有效,但它增加了不小的延迟,并且由于额外的LLM调用而消耗了宝贵的GPU算力。为了绕过这些限制,我们最终编写了一个内部防御性YAML解析器。

通过对各种调用参数(payload)的分析,我们确定了LLM常犯的错误,并编写了代码来在解析之前检测和适当修补这些错误。我们还修改了提示词,以便在这些常见错误周围注入提示词,以提高我们修补的准确性。最终,我们将这些错误的发生率降低到了约0.01%。(注:这其实是用规则补足模型的不足,降低成本)

还在死磕的事是:构建一个统一的技能注册机制,以便在我们的生成式AI产品中动态发现和调用封装为LLM友好技能的API/智能体。(注:可以想象是个技能商店,智能音箱那种能够动态添加天气、音乐技能的机制)

保持统一的质量

对于那些容忍一定错误率的产品而言,采用生成式AI进行构建无疑是一种令人耳目一新的直接方法。但这也带来了不切实际的期望,初期的快速进展营造了一种“即将达成”的错觉,而随着后续每1%提升的改进速度显著放缓,这种快速改进的错觉变得令人沮丧。

构建该助手感觉像是偏离了“原则性”的机器学习,而更像是在专家系统中调整规则。因此,尽管我们的评估变得越来越复杂,但我们的“训练”却主要是提示词工程,这更像是一门艺术而非科学。

还在死磕的事:对大语言模型(LLMs)进行微调,以使我们的流程更加数据驱动。(注:其实是肯定会出问题,所以修的要快)

容量与延迟

容量和成员感知到的延迟始终是我们最关心的问题。以下是一些维度:

质量vs延迟:像“思维链”(ChainofThought,CoT)这样的技术非常有效地提高了质量并减少了幻觉现象。但它们需要成员从未预想过的tokens,因此增加了成员感知到的延迟。

端到端流式传输:一个完整的答案可能需要几分钟才能完成,因此我们让所有请求进行流式传输以减少感知到的延迟。更重要的是,我们实际上在流程内部实现了端到端的流式传输。例如,大语言模型(LLM)的响应会逐步解析出应调用的API,并在参数准备好后立即发起API调用,而无需等待完整的LLM响应。最终合成的响应也会通过我们的实时消息传递基础设施进行流式传输,并对信任/负责任的AI分类等内容进行增量处理,直至到达客户端。(注:就是通过流式提升可感知的响应速度,非流式会导致你等半天突然所有结果出来了)

还在死磕的事:

1.将更简单的任务转移到内部进行,并使用微调后的自己的模型进行处理。(注:潜在意思是专门化的模型要和通用大模型进行搭配)

2.为大语言模型(LLM)部署构建更可预测的基础设施。(注:不理解,我猜是LLM吞吐量伸缩需要更可控)

3.减少每个步骤中浪费的tokens。

收获

我们说的够多了,为什么不让产品自己说话呢?

这还不错!特别是后续的建议中让产品可以像维基百科那样带你进入一个充满好奇心的“知识黑洞”的功能。

随着我们不断提高质量、开发新功能并优化流程以加快速度,我们很快就会向更多用户推出上述功能。

这个时点的AI太混沌了,宣称有赚钱方法的大概率是骗子,宣称全无机会的又错的太厉害。研究AI就得解剖麻雀,研究案例,回到现场。反之越高大上、越论文就越危险。问题是案例不好找,所以就有了琢磨事AI碰撞局。研究清楚多个案例,弄明白底层套路,回到自己问题差不多是最靠谱的方式了。对活动感兴趣的同学请联系cathywangyue。老李话一三,公众号:琢磨事

THE END
1.智能设计理论与方法.pptx智能设计理论与方法汇报人:XXX2024-01-19 目录CONTENTS引言智能设计的基本原理智能设计的方法与技术智能设计的实践案例智能设计的挑战与解决方案结论 01引言 智能设计在各领域都有广泛的应用,如机械设计、建筑设计、服装设计、包装设计等。通过智能设计,可以快速生成设计方案,提高设计效率,减少人工干预,降低成本。智能设计https://max.book118.com/html/2024/0411/6014005040010114.shtm
2.《智能设计:理论与方法》(谭建荣冯毅雄)简介书评智能设计:理论与方法 本书是作者近十年来在重大装备设计领域研究成果的系统总结,侧重设计知识智能处理、概念设计智能求解和设计参数智能优化,包含很多具有很强工程背景的算例。 作者:谭建荣、冯毅雄出版社:清华大学出版社出版时间:2020年07月 手机专享价 ¥http://product.dangdang.com/29001894.html
3.《智能设计:理论与方法》摘要书评试读图书 > 计算机与互联网 > 人工智能 > 智能设计:理论与方法 昶潋旭图书专营店 智能设计:理论与方法 该商品已下柜,欢迎挑选其他商品!https://item.jd.com/10097673005554.html
4.智能设计:理论与方法(智能制造系列丛书)(豆瓣)图书智能设计:理论与方法(智能制造系列丛书) 介绍、书评、论坛及推荐https://book.douban.com/subject/35176833/
5.智能设计:理论与方法最新章节谭建荣著因此在产品智能设计过程中需要对这些需求知识进行分析和约简处理。基于粗糙集理论的需求知识分析适合处理以数据表形式表示的知识,因此可提取需求知识本体中的属性并转化成数据表形式的需求知识表达系统,以实现数据约简、属性权值计算、需求案例分类等任务,从而达到需求知识分析的目的。在产品智能重组设计过程中,尽量将信息https://m.zhangyue.com/readbook/12373494/28.html
6.专题地图总体设计智能化理论与方法研究【摘要】:随着地图学基础理论研究的深入,网络地图学、智能地图学等相关概念和理论方法的研究,以及物联网、云计算、网格计算等新兴信息技术的支撑,推动了智能化地图制图理论和方法的研究。其中,专题地图智能化设计是实现整个地图生产智能化的关键环节。本文围绕这一主题对专题地图智能化设计理论框架、专题地图设计领域知识https://cdmd.cnki.com.cn/Article/CDMD-90005-1013353740.htm
7.关于成立生物与化学制造等9个湖北工业大学一级学术团队的通知方泽国湖北工业大学智能制造技术与装备一级学术团队名单 (2021 年) 一、学术团队负责人 张道德正高级 二、方向负责人 钟飞正高级轻工装备设计理论与方法 盛步云正高级绿色制造技术与系统集成 张道德正高级机电装备及机器人智能控制技术 宋小春正高级机电产品质量检测 https://hbncshzl.hbut.edu.cn/info/1009/1318.htm
8.ckks方案优化最好的案例赏析:空分装备设计方案智能优化及工程应用改编自:《智能设计:理论与方法》(作者:谭建荣,冯毅雄) 1. 大型空分装备方案设计智能优化的应用背景 目前,面向全生命周期的产品质量优化控制是科学界和企业界都非常关注的一个研究热点,特别是如何提高产品概念方案设计阶段的质量,因为最终产品质量的70%~80%取决于这一阶段的质量。同时产品加工制造阶段和服役使用阶段的https://blog.csdn.net/weixin_39626298/article/details/111655176
9.郭雷院士个人主页关键词:控制论,系统学,前馈与反馈,系统辨识,学习算法,复杂系统,智能控制,自动化,智能系统,科技进步。 郭雷(中国科学院数学与系统科学研究院)|讲者 牟牧云 | 整理 目录 1. 两位历史人物 2. 几个基本概念 3. 若干实际例子 4. 主要设计方法 5. 新时代的展望 http://lsc.amss.cas.cn/guolei/kyjy/kpwz/202404/t20240403_773392.html
10.人工智能视域下基于设计的实施研究方法:框架及案例分析大数据驱动的教育研究范式或为解决上述问题提供关键突破口,通过证据调和多元利益相关者在不同知识背景下的认知冲突,实现学习理论和教学实践共同创新的互惠共赢。基于此,本研究尝试整合人工智能技术和DBIR方法,形成人工智能视域下基于设计的实施研究方法(AI-DBIR),并对该方法进行初步探讨及应用案例分析,以期为相关研究与实践https://www.fx361.com/page/2022/0630/10497861.shtml
11.招聘航天科技集团一院期待你的加入澎湃号·媒体澎湃新闻5. 在人工智能顶级会议或同级别期刊上发表论文者优先。 (三)总体设计 岗位职责: 1. 负责飞行器总体方案论证和设计,开展总体设计理念与方法创新研究; 2. 牵头开展飞行器总体设计、优化等理论与方法研究和试验集成验证; 3. 负责飞行器标准规范和量化表征体系相关研究工作; https://www.thepaper.cn/newsDetail_forward_15833677