Claude3之后,大模型的纯文本方向卷到头了?

大模型的纯文本方向,已经卷到头了?

昨晚,OpenAI最大的竞争对手Anthropic发布了新一代AI大模型系列——Claude3。

该系列包含三个模型,按能力由弱到强排列分别是Claude3Haiku、Claude3Sonnet和Claude3Opus。其中,能力最强的Opus在多项基准测试中得分都超过了GPT-4和Gemini1.0Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

Anthropic表示,Claude3Opus拥有人类本科生水平的知识。

在新模型发布后,Claude首次带来了对多模态能力的支持(Opus版本的MMMU得分为59.4%,超过GPT-4V,与Gemini1.0Ultra持平)。用户现在可以上传照片、图表、文档和其他类型的非结构化数据,让AI进行分析和解答。

此外,这三个模型也延续了Claude系列模型的传统强项——长上下文窗口。其初始阶段支持200Ktoken上下文窗口,不过,Anthropic表示,三者都支持100万token的上下文输入(向特定客户开放),这大约是英文版《白鲸》或《哈利·波特与死亡圣器》的长度。

不过,在定价上,能力最强的Claude3也比GPT-4Turbo要贵得多:GPT-4Turbo每百万token输入/输出收费为10/30美元;而Claude3Opus为15/75美元。

在Anthropic官宣之后,不少得到试用机会的研究者也晒出了自己的体验。有人说,Claude3Sonnet解出了一道此前只有GPT-4才能解开的谜题。

不过,也有人表示,在实际体验方面,Claude3并没有彻底击败GPT-4。

第一手实测Claude3

Claude3是否真的像官方所宣称的那样,性能全面超越了GPT-4?目前大多数人认为,确实有那么点意思。

以下是部分实测效果:

首先来一个脑筋急转弯,哪一个月有二十八天?实际正确答案是每个月都有。看来Claude3还不擅长做这种题。

接着我们又测试了一下Claude3比较擅长的领域,从官方介绍可以看出Claude擅长“理解和处理图像”,包括从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

对于大模型来说,经常分不清炸鸡和泰迪,当我们输入一张含有泰迪和炸鸡的图片时,Claude3给出了这样的答案“这张图片是一组拼贴画,包含狗和炸鸡块或鸡块,它们与狗本身有着惊人的相似之处……”这一题算过关。

接着问它里面有几个人,Claude3也回答正确,“这幅动画描绘了七个小卡通人物。”

Claude3可以从照片中提取文本,即使是中文、日文的竖行顺序也可以正确识别:

如果我用网上的梗图,它又要如何应对?有关视觉误差的图片,GPT-4和Claude3给出了相反的猜测:

哪种是对的呢?

除了理解图像外,Claude处理长文本的能力也比较强,此次发布的全系列大模型可提供200k上下文窗口,并接受超过100万token输入。

不过这只是Claude3Sonnet的输出效果,假如使用ClaudePro版本的话,速度会更快,不过要20美元一个月。

在Claude3的博客中,Anthropic提出新模型的代码能力有大幅提升,有人直接拿基础ASCII码丢给Claude,结果发现它毫无压力:

我们应该可以确认,Claude3有比GPT-4更强的代码能力。

面对这项任务,Claude3接住了,以下是AnthropicAI研究工程师EmmanuelAmeisen晒出的结果:

从风格上看,确实相当不错!如果仔细观察,会发现一些微妙的问题/幻觉。不管怎么说,这个几乎现成就能使用的系统还是令人印象深刻的。我很期待能多玩Claude3,它看起来是一个强大的模型。

根据以上各种刁钻的测试结果,有人已经喊出“Anthropicissoback”了。

最后,Anthropic还推出了一个包含多个方向提示内容的prompt库。

Claude3系列模型

Claude3系列模型的三个版本分别是Claude3Opus、Claude3Sonnet和Claude3Haiku。

其中Claude3Opus是智能程度最高的模型,支持200ktokens上下文窗口,在高度复杂的任务上实现了当前SOTA的性能。该模型能够以绝佳的流畅度和人类水平的理解能力来处理开放式prompt和未见过的场景。Claude3Opus向我们展示了生成式AI可能达到的极限。

Claude3Sonnet在智能程度与运行速度之间实现了理想的平衡,尤其是对于企业工作负载而言。与同类模型相比,它以更低的成本提供了强大的性能,并专为大规模AI部署中的高耐用性而设计。Claude3Sonnet支持的上下文窗口为200ktokens。

Claude3Haiku是速度最快、最紧凑的模型,具有近乎实时的响应能力。有趣的是,它支持的上下文窗口同样是200k。该模型能够以无与伦比的速度回答简单的查询和请求,用户通过它可以构建模仿人类交互的无缝AI体验。

接下来我们看一下Claude3系列模型的特性和性能表现。

全面超越GPT-4,实现智能水平新SOTA

作为Claude3系列中智能水平最高的模型,Opus在AI系统的大多数评估基准上都优于竞品,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)等基准。并且,Opus在复杂任务上表现出接近人类水平的理解力和流畅度,引领通用智能的前沿。

此外,包括Opus在内,所有Claude3系列模型都在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面实现了能力增强。

下图为Claude3模型与竞品模型在多个性能基准上的比较,可以看到,最强的Opus全面优于OpenAI的GPT-4。

近乎实时响应

Claude3模型可以支持实时客户聊天、自动补充和数据提取等响应必须立即且实时的任务。

对于绝大多数工作,Sonnet的速度比Claude2和Claude2.1快2倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus的速度与Claude2和2.1相似,但智能水平更高。

强大的视觉能力

Claude3具有与其他头部模型相当的复杂视觉功能。它们可以处理各种视觉格式数据,包括照片、图表、图形和技术图表。

Anthropic表示,它们的一些客户50%以上的知识库以各种数据格式进行编程,例如PDF、流程图或演示幻灯片。因此,新模型强大的视觉能力非常有帮助。

更少拒绝回复

以前的Claude模型经常做出不必要的拒绝,这表明模型缺乏语境理解。Anthropic在这一领域取得了有意义的进展:与前几代模型相比,即使用户prompt接近系统底线,Opus、Sonnet和Haiku拒绝回答的可能性明显降低。如下所示,Claude3模型对请求表现出更细致的理解,能够识别真正的有害prompt,并且拒绝回答无害prompt的频率要少得多。

准确率提高

为了评估模型的准确率,Anthropic使用了大量复杂的、事实性问题来解决当前模型中的已知弱点。Anthropic将答案分为正确答案、错误答案(或幻觉)和不确定性回答,也就是模型不知道答案,而不是提供不正确的信息。与Claude2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍,同时也减少了错误回答。

除了产生更值得信赖的回复之外,Anthropic还将在Claude3模型中启用引用,以便模型可以指向参考材料中的精确句子来证实回答。

长上下文和近乎完美的召回能力

Claude3系列型号在发布时最初将提供200K上下文窗口。然而,官方表示所有三种模型都能够接收超过100万token的输入,此能力会被提供给需要增强处理能力的特定用户。

为了有效地处理长上下文提示,模型需要强大的召回能力。NeedleInAHaystack(NIAH)评估衡量模型可以从大量数据中准确回忆信息的能力。Anthropic通过在每个提示中使用30个随机Needle/question在不同的众包文档库上进行测试,增强了该基准的稳健性。

Claude3Opus不仅实现了近乎完美的召回率,超过99%的准确率。而且在某些情况下,它甚至识别出了评估本身的局限性,意识到“针”句子似乎是人为插入到原始文本中的。

安全易用

Anthropic表示,其已建立专门团队来跟踪和减少安全风险。该公司也在开发ConstitutionalAI等方法来提高模型的安全性和透明度,并减轻新模式可能引发的隐私问题。

在使用体验上,Claude3比以往模型更加擅长遵循复杂的多步骤指令,更加可以遵守品牌和响应准则,从而可以更好地开发可信赖的应用。此外,Anthropic表示Claude3模型现在更擅长以JSON等格式生成流行的结构化输出,从而可以更轻松地指导Claude进行自然语言分类和情感分析等用例。

技术报告里写了什么

目前,Anthropic已经放出了42页的技术报告TheClaude3ModelFamily:Opus,Sonnet,Haiku。

我们看到了Claude3系列模型的训练数据、评估标准以及更详细的实验结果。

在训练数据方面,Claude3系列模型接受了截至2023年8月互联网公开可用的专用混合数据的训练,以及来自第三方的非公开数据、数据标签服务商和付费承包商提供的数据、Claude内部的数据。

Claude3系列模型在以下多个指标上接受了广泛的评估,包括:

首先是推理、编程和问答任务上的评估结果,Claude3系列模型在一系列推理、阅读理解、数学、科学和编程的行业标准基准上与竞品模型展开了比较,结果显示不仅超越了自家以往模型,还在大多数情况下实现了新SOTA。

Anthropic在法学院入学考试(LSAT)、多州律师考试(MBE)、美国数学竞赛2023年数学竞赛和研究生入学考试(GRE)普通考试中评估了Claude3系列模型,具体结果如下表2所示。

Claude3系列模型具备多模态(图像和视频帧输入)能力,并且在解决超越简单文本理解的复杂多模态推理挑战方面取得了重大进展。

一个典型的例子,是Claude3模型在AI2D科学图表基准上的表现,这是一种视觉问答评估,涉及图表解析并以多项选择格式回答相应的问题。

Claude3Sonnet在0-shot设置中达到了SOTA水平——89.2%,其次是Claude3Opus(88.3%)和Claude3Haiku(80.6%),具体结果如下表3所示。

首先,在他看来,被评估的几个模型在MMLU/GSM8K/HumanEval等几项指标上基本没有区分度,真正需要关心的是为什么最好的模型在GSM8K上依然有5%的错误。

他认为,真正能够把模型区分开的是MATH和GPQA,这些超级棘手的问题是AI模型下一步应该瞄准的目标。

与Claude之前的模型相比,改进比较大的领域是金融和医学。

视觉方面,Claude3表现出的视觉OCR能力让人看到了它在数据收集方面的巨大潜力。

此外,他还发现了其他一些趋势:

从目前的评测基准和体验看来,Claude3在智能水平、多模态能力和速度上都取得了长足的进步。随着新系列模型的进一步优化和应用,我们或许将看到更加多元化的大模型生态。

THE END
1.辉视指挥调度系统:全方位应急管理与决策支持辉视指挥调度系统通过先进的通信技术,实现了应急调度指挥的“通信畅通、现场及时、数据完备、指挥到位”。在突发事件发生时,系统能够迅速启动应急响应机制,通过集群通讯、语音对讲等功能,确保指挥人员与现场人员之间的即时沟通,实现高效指挥。同时,系统还能够实时收集、分析现场数据,为决策者提供全面的信息支持。 https://blog.csdn.net/szhhzt/article/details/139126997
2.在设备上运行实时响应命令可以在单个 API 调用上运行多个实时响应命令。 但是,当实时响应命令失败时,不会执行所有后续操作。 如果实时响应操作已在运行,则无法在同一 (台计算机上执行多个实时响应会话,后续请求将使用 HTTP 400 - ActiveRequestAlreadyExists) 响应。 备注 从“设备”页启动的实时响应操作在 machineactions API 中不可用。 最https://learn.microsoft.com/zh-cn/microsoft-365/security/defender-endpoint/run-live-response
3.realtimeresponse的中文翻译汉语译词专业词典学术词典实时响应 机械 real-time response 实时响应 实时性 机械 real-time response characteristics 实时响应特性 机械 request-response real time manner 请求应答对时方式 电信 real time interrupt response 实时需求 机械 real time load response 实时负载响应 机械 short time real time emendation 短期实时校正 电信 rehttps://www.scidict.org/index.aspx?word=real%20time%20response
4.深入解析:及时响应率如何计算?(及时响应率如何计算)在服务行业,及时响应率是一项重要的服务质量指标。那么,及时响应率究竟是如何计算的呢? 一、定义及重要性 及时响应率是指在规定时间内完成响应的次数与总响应次数的比值。它直接反映了服务团队的响应速度和工作效率,对于提升客户满意度具有重要意义。 二、计算方法 https://www.zaixianjisuan.com/jisuanzixun/shenrujiexi_jishixiangyinglvruhejisuan_.html
5.如何在海外服务器加速器上实现实时数据处理和响应?随着云计算和分布式系统的发展,企业越来越依赖于海外服务器加速器来处理和响应实时数据。无论是金融交易、物联网设备数据还是在线游戏,高效的数据处理和响应速度直接影响到用户满意度和业务成功。 1. 选择适当的海外服务器加速器 首先,关键是选择适合业务需求的海外服务器加速器。考虑以下因素: https://www.hzjcp.com/6962.html
6.实时响应的英文实时响应翻译实时响应英语怎么说海词词典,最权威的学习词典,专业出版实时响应的英文,实时响应翻译,实时响应英语怎么说等详细讲解。海词词典:学习变容易,记忆很深刻。http://dict.cn/%E5%AE%9E%E6%97%B6%E5%93%8D%E5%BA%94
7.实时响应英文怎么写实时响应英语怎么说沪江词库精选实时响应英文怎么写、英语单词怎么写、例句等信息 real-time response 相似短语 The realn.现实 be realbe real 也作 get real, 理智的, 现实的 for real确实,实在地,真的 chattels real物的准动产 Real Madrid皇家马德里 Real IRA正统爱尔兰共和军 https://www.hujiang.com/ciku/384688_-979473653/
8.福建厦门:鼓励储能用户参与需求响应给予补贴4元/kWh!3.用户委托负荷聚合商参与需求响应,应与负荷聚合商签订需求响应可中断负荷业务委托协议,确定参与的设备以及负荷量,明确安全责任,委托协议扫描件上传至厦门市虚拟电厂管理平台。 4.鼓励具备条件的中央空调负荷资源(不涉及民生及安全)接入厦门市虚拟电厂管理平台,参与实时响应。 https://news.bjx.com.cn/html/20230419/1301762.shtml
9.实时调度任务调度策略是实时系统内核的关键部分,如何进行任务调度,使得各个任务能在其期限之内得以完成是实时操作系统的一个重要的研究领域。它的精简和高效,对提高低处理能力,小内存系统整体性能具有重大的意义。简介 POSIX 1003.b中定义:指系统能够在限定的响应时间内提供所需水平的服务。而一个由Donald Gillies提出的更加https://baike.baidu.com/item/%E5%AE%9E%E6%97%B6%E8%B0%83%E5%BA%A6/3344983
10.基于CAN总线系统的时间动态:CAN与CANopen的实时能力与局限性在前文中,我们探讨了具有实时能力的嵌入式通信系统的基本要求——平衡实时响应、安全性和保障。本篇文章将重点介绍CAN与CANopen的实时能力和局限性。 控制器局域网(CAN)协议是各个行业众多应用的基础,每个应用都有其独特的实时需求。CANopen和J1939等著名示例强调了该协议的多种适应性,以满足特定需求。值得注意的是,https://www.elecfans.com/d/2299139.html
11.RTC为基,AI为脑——「AI实时互动」上演音视频交互新能力极客公园在此之上,AI 实时互动公有云方案,整合教育行业模型、预置课程视频片段,结合AI 实时响应能力,打造无时间和数量限制、高品质的小班课,助力新型的教育模式发展。 这款AI 音视频通话端到端解决方案,不仅在上述四类场景中陆续落地,也在更多行业中探索创新。然而,其不仅在场景维度上的适用性很强,在物理空间上的服务质量https://www.geekpark.net/news/340483
12.客服系统的实时性与响应性:迅速回应用户的每一个问题客服系统的实时性与响应性,使得企业能够迅速回应用户的每一个问题。这不仅能够提升用户的满意度,也能够增强用户的信任感和忠诚度。 为了实现这一目标,企业需要从以下几个方面进行努力:首先,企业需要引入先进的技术,如人工智能和大数据,提升客服系统的实时性。其次,企业需要对客服人员进行专业培训,提升他们的业务能力和服https://www.live800.com/news/knowledge/1700620810.html
13.深挖“电力现货+需求响应”,泛能网助力售电公司尽享红利在需求响应的过程中,既要考虑客户的实际用能需求和用能舒适度,又要确保响应执行结果。如果不能实时监测资源的响应情况和用户用能舒适度,并将监测异常和调整方案快速触达用户或调节资源,就很难获得预期收益。 泛能网需求响应一体化云平台支持对负荷聚合商下属资源进行自定义颗粒度的分级监测,用户可实时在平台上看到不https://power.in-en.com/html/power-2408585.shtml
14.厦门虚拟电厂完成实时需求响应实用化技术验证厦门虚拟电厂完成实时需求响应实用化技术验证 作为福建省唯一的新型电力系统示范市,今年以来,国网厦门供电公司立足资源禀赋、产业生态、电网基础和政策机制优势,紧密融入“三大三先”(东南清洁能源大枢纽、高能级配电网大平台、“数字闽电”大生态,实现清洁发展水平领先、安全稳定水平领先、效率效益水平领先)省级高质量发展https://www.cnenergynews.cn/dianwang/2023/10/23/detail_20231023138251.html
15.西门子CPU模块SR40实时响应 先进的技术直至后的细节确保我们的CPU发挥杰出的实时响应率: ? 4个或6个独立的硬件计数器,每个30 kHz,带有CPU 224 XP的2 x 200 kHz,例如:通过增量编码器或者高速记录过程事件的路径监测 ? 4个独立的报警输入,输入滤波时间0.2毫秒至程序起动-大过程安全 http://hkjum261954.51sole.com/companynewsdetail_129244434.htm
16.科技能力持续领跑!菜鸟智慧园区项目供应链计划等多个项目入选通过菜鸟提供的车辆预约调度系统、门禁道闸系统、智能地磅系统、智能安全监控系统、访客管理系统以及智慧地磅、场内物流运营平台等一系列软硬件产品,乖宝宠物聊城工厂成功实现智能化管理升级:系统实现毫秒级处理数据,并可以根据分析实时响应,自动化程度也得到大幅提升。基于前期合作取得的积极成果,目前,乖宝宠物正与菜鸟一起https://www.cainiao.com/4768.html
17.隐私保护西安数据恢复中心24小时实时响应 在遭遇数据灾难时,用户的焦急心情我们十分理解,因此提供24小时实时响应服务。无论您在何时发现自己正面临数据灾难,都可以拨打我们的24小时服务热线与我们取得联系,我们的资深数据恢复工程师将为您提供最及时的专业服务。 24小时急救电话:15129012019http://www.xadrc.com/class.php?id=71
18.SORA微软基于PC的软件无线电平台软件无线电技术为了确保CPU可以实时响应,Sora采用了独占线程技术,可以让某个或者某几个内核专用于SDR的任务,不被其他系统调用影响。 实现这种技术不需要修改操作系统的内核。 Sora的性能测试 以WiFi 802.11a/b/g的实现为案例,测试Sora的性能。算法优化前后对比 Sora与商业网卡吞吐量对比 https://www.mwrf.net/tech/sdr/2012/9105.html
19.响应式架构在实时处理系统中的应用:从消息驱动到背压机制的实现以电商行业的实时推荐系统为例,通过流式处理,系统能够以实时响应用户行为,动态调整推荐内容,提高了用户体验,满足了用户个性化需求。 四、背压机制 为了应对高并发的情况,响应式架构提出了背压机制。背压机制能够在系统压力增大时,通过限制数据的输入,避免系统崩溃或任务堆积,保证系统的稳定性。背压机制通过监控系统各个组件https://www.jianshu.com/p/4e5e8c90acf2
20.全方位解析英特尔响应式零售平台美通社PR通过物联网全面建立实时响应且以顾客为中心的万物智能互联零售的未来 英特尔正在广泛的与零售商合作从而署英特尔?响应式零售平台,包括Avery Dennison*、ByReveal*、霍尼韦尔*、富士通*、JDA*、RetailNext*、SAP*和SATO*。通过这些合作,英特尔将推动零售行业转型以驱动全新的用户零售体验、提供实时洞察,并打造跨物理和数字https://www.prnasia.com/story/168506-1.shtml
21.太友SPC软件如何预防生产中的意外?实时报警快速响应!在当今快节奏的制造环境中,实时监控和及时响应是确保生产流程顺利进行的关键。太友SPC软件以其先进的实时报警功能,帮助企业预防生产中的意外,从而提高生产效率和产品质量。 1、智能实时监控 太友SPC软件的核心模块是产品过程质量的在线监控。系统采用质量电子看板模式,集中监控品质问题,让管理者无论是在公共办公区域还是个https://zhuanlan.zhihu.com/p/697951320
22.数据中台过时了?为什么现在都在说数据飞轮?可以看出,数据飞轮更加灵活、快速,尤其适合当今快速变化的市场环境和实时响应需求。 四、数据飞轮的实际应用案例 为了更好地理解数据飞轮的实际应用,下面我们通过几个真实的业务场景来展示数据飞轮的价值。 1. 亚马逊推荐系统中的数据飞轮 亚马逊的推荐系统是数据飞轮的一个典型应用。在用户浏览、搜索和购买商品的过程中https://blog.51cto.com/wamtar/12023539
23.220kV变电所综合自动化系统设计配置直观方便、可靠的监视和操作手段,快速地反映系统的运行状况,响应和执行操作命令;配置高分辨率彩色图形汉字显示、功能键盘和汉字打印机等设备。 4.5.1 主要显示内容 (1)全所主结线图; (2)按电压等级划分的分结线图(各线路、母线的潮流实时值); (3)按单元划分的单元结线图(设备主要参数和运行工况趋势曲线或棒https://supplier.alibaba.com/article/CTGNI37S9U6.htm