Claude3之后,大模型的纯文本方向卷到头了?

大模型的纯文本方向,已经卷到头了?

昨晚,OpenAI最大的竞争对手Anthropic发布了新一代AI大模型系列——Claude3。

该系列包含三个模型,按能力由弱到强排列分别是Claude3Haiku、Claude3Sonnet和Claude3Opus。其中,能力最强的Opus在多项基准测试中得分都超过了GPT-4和Gemini1.0Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

Anthropic表示,Claude3Opus拥有人类本科生水平的知识。

在新模型发布后,Claude首次带来了对多模态能力的支持(Opus版本的MMMU得分为59.4%,超过GPT-4V,与Gemini1.0Ultra持平)。用户现在可以上传照片、图表、文档和其他类型的非结构化数据,让AI进行分析和解答。

此外,这三个模型也延续了Claude系列模型的传统强项——长上下文窗口。其初始阶段支持200Ktoken上下文窗口,不过,Anthropic表示,三者都支持100万token的上下文输入(向特定客户开放),这大约是英文版《白鲸》或《哈利·波特与死亡圣器》的长度。

不过,在定价上,能力最强的Claude3也比GPT-4Turbo要贵得多:GPT-4Turbo每百万token输入/输出收费为10/30美元;而Claude3Opus为15/75美元。

在Anthropic官宣之后,不少得到试用机会的研究者也晒出了自己的体验。有人说,Claude3Sonnet解出了一道此前只有GPT-4才能解开的谜题。

不过,也有人表示,在实际体验方面,Claude3并没有彻底击败GPT-4。

第一手实测Claude3

Claude3是否真的像官方所宣称的那样,性能全面超越了GPT-4?目前大多数人认为,确实有那么点意思。

以下是部分实测效果:

首先来一个脑筋急转弯,哪一个月有二十八天?实际正确答案是每个月都有。看来Claude3还不擅长做这种题。

接着我们又测试了一下Claude3比较擅长的领域,从官方介绍可以看出Claude擅长“理解和处理图像”,包括从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

对于大模型来说,经常分不清炸鸡和泰迪,当我们输入一张含有泰迪和炸鸡的图片时,Claude3给出了这样的答案“这张图片是一组拼贴画,包含狗和炸鸡块或鸡块,它们与狗本身有着惊人的相似之处……”这一题算过关。

接着问它里面有几个人,Claude3也回答正确,“这幅动画描绘了七个小卡通人物。”

Claude3可以从照片中提取文本,即使是中文、日文的竖行顺序也可以正确识别:

如果我用网上的梗图,它又要如何应对?有关视觉误差的图片,GPT-4和Claude3给出了相反的猜测:

哪种是对的呢?

除了理解图像外,Claude处理长文本的能力也比较强,此次发布的全系列大模型可提供200k上下文窗口,并接受超过100万token输入。

不过这只是Claude3Sonnet的输出效果,假如使用ClaudePro版本的话,速度会更快,不过要20美元一个月。

在Claude3的博客中,Anthropic提出新模型的代码能力有大幅提升,有人直接拿基础ASCII码丢给Claude,结果发现它毫无压力:

我们应该可以确认,Claude3有比GPT-4更强的代码能力。

面对这项任务,Claude3接住了,以下是AnthropicAI研究工程师EmmanuelAmeisen晒出的结果:

从风格上看,确实相当不错!如果仔细观察,会发现一些微妙的问题/幻觉。不管怎么说,这个几乎现成就能使用的系统还是令人印象深刻的。我很期待能多玩Claude3,它看起来是一个强大的模型。

根据以上各种刁钻的测试结果,有人已经喊出“Anthropicissoback”了。

最后,Anthropic还推出了一个包含多个方向提示内容的prompt库。

Claude3系列模型

Claude3系列模型的三个版本分别是Claude3Opus、Claude3Sonnet和Claude3Haiku。

其中Claude3Opus是智能程度最高的模型,支持200ktokens上下文窗口,在高度复杂的任务上实现了当前SOTA的性能。该模型能够以绝佳的流畅度和人类水平的理解能力来处理开放式prompt和未见过的场景。Claude3Opus向我们展示了生成式AI可能达到的极限。

Claude3Sonnet在智能程度与运行速度之间实现了理想的平衡,尤其是对于企业工作负载而言。与同类模型相比,它以更低的成本提供了强大的性能,并专为大规模AI部署中的高耐用性而设计。Claude3Sonnet支持的上下文窗口为200ktokens。

Claude3Haiku是速度最快、最紧凑的模型,具有近乎实时的响应能力。有趣的是,它支持的上下文窗口同样是200k。该模型能够以无与伦比的速度回答简单的查询和请求,用户通过它可以构建模仿人类交互的无缝AI体验。

接下来我们看一下Claude3系列模型的特性和性能表现。

全面超越GPT-4,实现智能水平新SOTA

作为Claude3系列中智能水平最高的模型,Opus在AI系统的大多数评估基准上都优于竞品,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)等基准。并且,Opus在复杂任务上表现出接近人类水平的理解力和流畅度,引领通用智能的前沿。

此外,包括Opus在内,所有Claude3系列模型都在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面实现了能力增强。

下图为Claude3模型与竞品模型在多个性能基准上的比较,可以看到,最强的Opus全面优于OpenAI的GPT-4。

近乎实时响应

Claude3模型可以支持实时客户聊天、自动补充和数据提取等响应必须立即且实时的任务。

对于绝大多数工作,Sonnet的速度比Claude2和Claude2.1快2倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus的速度与Claude2和2.1相似,但智能水平更高。

强大的视觉能力

Claude3具有与其他头部模型相当的复杂视觉功能。它们可以处理各种视觉格式数据,包括照片、图表、图形和技术图表。

Anthropic表示,它们的一些客户50%以上的知识库以各种数据格式进行编程,例如PDF、流程图或演示幻灯片。因此,新模型强大的视觉能力非常有帮助。

更少拒绝回复

以前的Claude模型经常做出不必要的拒绝,这表明模型缺乏语境理解。Anthropic在这一领域取得了有意义的进展:与前几代模型相比,即使用户prompt接近系统底线,Opus、Sonnet和Haiku拒绝回答的可能性明显降低。如下所示,Claude3模型对请求表现出更细致的理解,能够识别真正的有害prompt,并且拒绝回答无害prompt的频率要少得多。

准确率提高

为了评估模型的准确率,Anthropic使用了大量复杂的、事实性问题来解决当前模型中的已知弱点。Anthropic将答案分为正确答案、错误答案(或幻觉)和不确定性回答,也就是模型不知道答案,而不是提供不正确的信息。与Claude2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍,同时也减少了错误回答。

除了产生更值得信赖的回复之外,Anthropic还将在Claude3模型中启用引用,以便模型可以指向参考材料中的精确句子来证实回答。

长上下文和近乎完美的召回能力

Claude3系列型号在发布时最初将提供200K上下文窗口。然而,官方表示所有三种模型都能够接收超过100万token的输入,此能力会被提供给需要增强处理能力的特定用户。

为了有效地处理长上下文提示,模型需要强大的召回能力。NeedleInAHaystack(NIAH)评估衡量模型可以从大量数据中准确回忆信息的能力。Anthropic通过在每个提示中使用30个随机Needle/question在不同的众包文档库上进行测试,增强了该基准的稳健性。

Claude3Opus不仅实现了近乎完美的召回率,超过99%的准确率。而且在某些情况下,它甚至识别出了评估本身的局限性,意识到“针”句子似乎是人为插入到原始文本中的。

安全易用

Anthropic表示,其已建立专门团队来跟踪和减少安全风险。该公司也在开发ConstitutionalAI等方法来提高模型的安全性和透明度,并减轻新模式可能引发的隐私问题。

在使用体验上,Claude3比以往模型更加擅长遵循复杂的多步骤指令,更加可以遵守品牌和响应准则,从而可以更好地开发可信赖的应用。此外,Anthropic表示Claude3模型现在更擅长以JSON等格式生成流行的结构化输出,从而可以更轻松地指导Claude进行自然语言分类和情感分析等用例。

技术报告里写了什么

目前,Anthropic已经放出了42页的技术报告TheClaude3ModelFamily:Opus,Sonnet,Haiku。

我们看到了Claude3系列模型的训练数据、评估标准以及更详细的实验结果。

在训练数据方面,Claude3系列模型接受了截至2023年8月互联网公开可用的专用混合数据的训练,以及来自第三方的非公开数据、数据标签服务商和付费承包商提供的数据、Claude内部的数据。

Claude3系列模型在以下多个指标上接受了广泛的评估,包括:

首先是推理、编程和问答任务上的评估结果,Claude3系列模型在一系列推理、阅读理解、数学、科学和编程的行业标准基准上与竞品模型展开了比较,结果显示不仅超越了自家以往模型,还在大多数情况下实现了新SOTA。

Anthropic在法学院入学考试(LSAT)、多州律师考试(MBE)、美国数学竞赛2023年数学竞赛和研究生入学考试(GRE)普通考试中评估了Claude3系列模型,具体结果如下表2所示。

Claude3系列模型具备多模态(图像和视频帧输入)能力,并且在解决超越简单文本理解的复杂多模态推理挑战方面取得了重大进展。

一个典型的例子,是Claude3模型在AI2D科学图表基准上的表现,这是一种视觉问答评估,涉及图表解析并以多项选择格式回答相应的问题。

Claude3Sonnet在0-shot设置中达到了SOTA水平——89.2%,其次是Claude3Opus(88.3%)和Claude3Haiku(80.6%),具体结果如下表3所示。

首先,在他看来,被评估的几个模型在MMLU/GSM8K/HumanEval等几项指标上基本没有区分度,真正需要关心的是为什么最好的模型在GSM8K上依然有5%的错误。

他认为,真正能够把模型区分开的是MATH和GPQA,这些超级棘手的问题是AI模型下一步应该瞄准的目标。

与Claude之前的模型相比,改进比较大的领域是金融和医学。

视觉方面,Claude3表现出的视觉OCR能力让人看到了它在数据收集方面的巨大潜力。

此外,他还发现了其他一些趋势:

从目前的评测基准和体验看来,Claude3在智能水平、多模态能力和速度上都取得了长足的进步。随着新系列模型的进一步优化和应用,我们或许将看到更加多元化的大模型生态。

THE END
1.智能运维:提升效率与响应速度的关键能力一个高效、智能的运维系统不仅能够确保企业IT环境的稳定运行,还能在出现问题时迅速响应,最小化业务中断的影响。本文将深入探讨现代运维系统应具备的关键能力,包括告警分析、自定义拓扑、可视化大屏、智能报表、多种通知通道、系统管理、对接管理、审计日志、个人工作台以及知识库等。https://blog.csdn.net/MXsoft618/article/details/143829970
2.问题触发的算法模型响应机制探索第一是问题体系构建和模型准备。针对某一行业或领域,坚持以原发问题为导向,厘清问题浮现的源头,收集历史问题多源数据,通过垂直行业大模型训练并建立覆盖问题浮现监测、问题识别、问题提炼和问题响应能力的算法模型(库),并构建问题标准化体系(指标库)。以12345政务热线场景为例,问题浮现的源头主要有12345电话呼入https://baijiahao.baidu.com/s?id=1795660738039516857&wfr=spider&for=pc
3.forMac中文激活版实时光线追踪3D渲染软件提高了对材料变化的实时响应能力 对材质所做的更改现在将立即显示在实时视图中,从而更容易调整和完善材质。在此处了解有关材料的更多信息。 快速查找节点 在“材质图”中按Q键可以快速轻松地找到要添加的节点。在此处了解有关材质图的更多信息。 RAL颜色库 http://www.macsky.net/63474.html
4.CAN总线系统的时间动态:CAN与CANopen的实时能力与局限性在前文中,我们探讨了具有实时能力的嵌入式通信系统的基本要求——平衡实时响应、安全性和保障。本篇文章将重点介绍CAN与CANopen的实时能力和局限性。 控制器局域网(CAN)协议是各个行业众多应用的基础,每个应用都有其独特的实时需求。CANopen和J1939等著名示例强调了该协议的多种适应性,以满足特定需求。值得注意的是,https://www.elecfans.com/d/2299139.html
5.广州市工业和信息化局关于印发《广州市虚拟电厂实施细则》的通知b、具备实时响应能力的用户优先; c、评价得分高的用户优先; d、应邀时间早的用户优先。 其中,c中评价得分等于电力用户、负荷聚合商最近3次参与响应评价得分平均值;初次响应用户评价得分默认为1;已响应次数小于3次时,按实际响应平均得分计算。 D、广州供电局于日前(D-1)12:30前,告知用户邀约响应执行方案。 https://www.gz.gov.cn/gfxwj/sbmgfxwj/gzsgyhxxhj/content/post_7364052.html
6.深入探讨嵌入式操作系统的定义特性及应用嵌入式操作系统的设计初衷是为了实现高效的资源管理和实时响应能力,这对于需要精确控制和快速反应的应用场景尤为重要。例如,在汽车行业,嵌入式操作系统用于控制发动机管理系统、信息娱乐系统以及高级驾驶辅助系统(ADAS),确保车辆的安全性和性能。 立即定制飞书模板,推动业务发展 二、嵌入式操作系统的历史与发展 2.1 https://www.feishu.cn/content/embedded-operating-system-definition-features-applications
7.“十三五”时期我国应如何大力提高电力需求侧响应能力?自动需求响应不存在任何的人工介入,通过接受价格或激励信号触发预编程好的需求响应策略,当用户不愿接受这种响应策略时也可以选择退出。自动需求响应大大提高了需求响应的准确性和可靠性,从而提高了负荷侧提供辅助服务的品质和能力。因此,根据价格或激励的实时信息动态调整负荷的自动需求响应是必然的发展趋势,也是需求响应https://shoudian.bjx.com.cn/news/20161221/798365.shtml
8.CDP与人工智能的结合应用2.2 实时响应能力 CDP与人工智能的结合可以实现实时数据分析,企业能够快速响应市场变化。例如,利用AI技术对客户行为数据进行实时分析,企业能够及时调整营销策略,以应对市场需求的变化。 2.3 个性化体验提升 AI能够处理和分析大量客户数据,为每个客户提供个性化的推荐和服务。这种个性化体验不仅提升了客户满意度,也增强了客户https://www.hypers.com/content/archives/4876
9.供应链竞争力主要体现在哪些方面?需求响应能力就是订单交付能力,其中:定制化产品产量的占比, 能够反映企业适应大规模定制经济的能力; 定制化产品销售额占比, 能够反映企业定制化经济占企业总销售额的比重; 准时交货订单比例, 能够反映企业以顾客需求为中心的管理能力; 顾客满意度, 能够反映顾客对企业提供的产品、服务的认可程度。 https://maimai.cn/article/detail?fid=1812454367&efid=fi39uGoM4Dr7nnXhBMIHPw
10.部署ddos防御系统时,应考虑哪些因素3. 自动化与实时响应能力 DDoS攻击往往在短时间内爆发,手动应对可能无法及时阻止攻击。一个有效的DDoS防御系统应具备高水平的自动化和实时响应能力,能够在攻击发生时自动检测并启动防御机制。这包括实时流量监控、自动流量清洗以及根据攻击模式动态调整防御策略等功能。 https://www.kkidc.com/market/9176.html
11.构建能源企业新一代网络安全保障能力腾讯云开发者社区长亭科技新一代网络安全保障方案包括网络攻防和欺骗防御两项核心技术能力。 基于网络攻防技术的核心思路,针对能源企业不同类型的应用场景,以攻击者思维模拟恶意软件攻击、入侵目标系统、窃取数据等行为,测试企业安全防御能力和响应能力。对演练过程中收集到的数据和情报进行分析,可以评估企业安全体系的弱点和缺陷,发现潜在的https://cloud.tencent.com/developer/news/1053019
12.Matter标准焕发智能家居新机遇,内存成为决胜关键对智能家居来说,实时响应能力是影响用户体验的关键一环。每一个消费者都希望在呼唤语音助手后,便能迅速得到回应。因此,这一需求对内存读取速度和存储容量都提出了较高的要求。 目前的智能家居设备大多采用DDR内存来提升设备的性能和响应速度。例如,需要实时传输音频数据进行快速缓存和处理的智能音箱应用,DDR内存可以提供https://www.eet-china.com/info/70673.html
13.外贸公司erp系统有哪些选择一套优秀的erp系统可以帮助企业实现信息化管理,提升效率和职业化。不同的erp系统在功能上也有差异,需要根据外贸公司的实际需求来选择。总体来说,某n某you的erp系统是一款值得推荐的erp系统,它具有良好的功能、数据安全性、实时响应能力和可扩展性。 △某业某财产品截图 https://h.chanjet.com/ask/1bee420cfb5b1.html
14.OLAP的特征十大功能及其应用价值2. 快速响应能力 OLAP系统强调快速响应能力,能够在用户要求的时间内对大部分分析请求做出反应。这得益于其专门的数据存储格式、大量的事先运算以及特别的硬件设计,确保了数据查询的高效性。 3. 可分析性 OLAP系统能够处理与应用相关的各种逻辑分析和统计分析,用户无需编程即可定义新的专门计算,并将其作为分析的一部分https://selectdb.com/info/blog/908
15.科技能力持续领跑!菜鸟智慧园区项目供应链计划等多个项目入选通过菜鸟提供的车辆预约调度系统、门禁道闸系统、智能地磅系统、智能安全监控系统、访客管理系统以及智慧地磅、场内物流运营平台等一系列软硬件产品,乖宝宠物聊城工厂成功实现智能化管理升级:系统实现毫秒级处理数据,并可以根据分析实时响应,自动化程度也得到大幅提升。基于前期合作取得的积极成果,目前,乖宝宠物正与菜鸟一起https://www.cainiao.com/4768.html
16.12种微服务模式Jowin'sterritory.的技术博客7. 事件驱动架构模式:为您的微服务提供实时响应能力 您是否正在寻找一种方法来增强微服务的响应能力和适应性?事件驱动架构模式可以提供帮助!此模式利用事件来触发服务中的操作,从而实现实时响应并促进服务之间的松散耦合。 为什么事件驱动架构模式会改变游戏规则?通过将事件用作触发器,您可以最大限度地减少服务之间的直接https://blog.51cto.com/jowin/7396611
17.ATP提供近实时响应能力的NAND闪存解决方案,迎接数据驱动5G时代的对于要求低延迟和快速吞吐量的5G应用,ATP提供了超快的可移动和嵌入式闪存存储解决方案,可提供近实时的响应能力。例如,具有8通道PCIe Gen3 x4接口的M.2 2280 NVMe模块可提供3,420 / 3,050 MB / s的顺序读/写性能,而3D TLC SD / microSD卡具有4KB页面管理和SLC缓存算法。与传统解决方案相比,允许1 / 2随机https://www.atpinc.com/cn/blog/SSD-hardware-requirements-for-5G
18.广东:力争2025年市场化需求响应削峰能力达到最高负荷的5%健全电力需求响应市场化机制,提升需求响应能力,支持用户侧储能、电动汽车充换电基础设施、分布式发电等用户侧可调节资源,以及负荷聚合商、虚拟电厂运营商、综合能源服务商等参与市场化需求响应,打造实时可观、可测、可控的需求响应系统平台,力争2025年广东省市场化需求响应削峰能力达到最高负荷的5%。http://www.stcn.com/article/detail/873936.html
19.老人聊天机器人智能123BOT智能聊天机器人作为一款创新的人工智能产品,具有智能对话能力、个性化定制服务和跨平台应用等特点。它在客服、教育和销售等领域都有广泛的应用。与传统的客服和人工智能产品相比,123BOT智能聊天机器人具有节省成本、提升用户体验和实时响应等优势。随着技术的不断进步,123BOT智能聊天机器人有望在未来发展壮大,为人们http://chatgpt.cmpy.cn/article/5467042.html
20.探析美军网络防御装备新技术发展的五大方向二、实时响应网络威胁,提升威胁智能自动处理能力 网络空间攻击行动以接近光速传播和实施,并且能够对特定目标造成整体性的影响,这种瞬间和整体攻击能力也成为网络空间军事行动的特质。人工智能和自动化的技术发展为美军网络安全带来了新的发展机遇,成为美军提升网络安全能力的倍增器。在网络安全主动防御智能检测方面,基于人工智https://www.secrss.com/articles/23580