Claude3之后,大模型的纯文本方向卷到头了?

大模型的纯文本方向,已经卷到头了?

昨晚,OpenAI最大的竞争对手Anthropic发布了新一代AI大模型系列——Claude3。

该系列包含三个模型,按能力由弱到强排列分别是Claude3Haiku、Claude3Sonnet和Claude3Opus。其中,能力最强的Opus在多项基准测试中得分都超过了GPT-4和Gemini1.0Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

Anthropic表示,Claude3Opus拥有人类本科生水平的知识。

在新模型发布后,Claude首次带来了对多模态能力的支持(Opus版本的MMMU得分为59.4%,超过GPT-4V,与Gemini1.0Ultra持平)。用户现在可以上传照片、图表、文档和其他类型的非结构化数据,让AI进行分析和解答。

此外,这三个模型也延续了Claude系列模型的传统强项——长上下文窗口。其初始阶段支持200Ktoken上下文窗口,不过,Anthropic表示,三者都支持100万token的上下文输入(向特定客户开放),这大约是英文版《白鲸》或《哈利·波特与死亡圣器》的长度。

不过,在定价上,能力最强的Claude3也比GPT-4Turbo要贵得多:GPT-4Turbo每百万token输入/输出收费为10/30美元;而Claude3Opus为15/75美元。

在Anthropic官宣之后,不少得到试用机会的研究者也晒出了自己的体验。有人说,Claude3Sonnet解出了一道此前只有GPT-4才能解开的谜题。

不过,也有人表示,在实际体验方面,Claude3并没有彻底击败GPT-4。

第一手实测Claude3

Claude3是否真的像官方所宣称的那样,性能全面超越了GPT-4?目前大多数人认为,确实有那么点意思。

以下是部分实测效果:

首先来一个脑筋急转弯,哪一个月有二十八天?实际正确答案是每个月都有。看来Claude3还不擅长做这种题。

接着我们又测试了一下Claude3比较擅长的领域,从官方介绍可以看出Claude擅长“理解和处理图像”,包括从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

对于大模型来说,经常分不清炸鸡和泰迪,当我们输入一张含有泰迪和炸鸡的图片时,Claude3给出了这样的答案“这张图片是一组拼贴画,包含狗和炸鸡块或鸡块,它们与狗本身有着惊人的相似之处……”这一题算过关。

接着问它里面有几个人,Claude3也回答正确,“这幅动画描绘了七个小卡通人物。”

Claude3可以从照片中提取文本,即使是中文、日文的竖行顺序也可以正确识别:

如果我用网上的梗图,它又要如何应对?有关视觉误差的图片,GPT-4和Claude3给出了相反的猜测:

哪种是对的呢?

除了理解图像外,Claude处理长文本的能力也比较强,此次发布的全系列大模型可提供200k上下文窗口,并接受超过100万token输入。

不过这只是Claude3Sonnet的输出效果,假如使用ClaudePro版本的话,速度会更快,不过要20美元一个月。

在Claude3的博客中,Anthropic提出新模型的代码能力有大幅提升,有人直接拿基础ASCII码丢给Claude,结果发现它毫无压力:

我们应该可以确认,Claude3有比GPT-4更强的代码能力。

面对这项任务,Claude3接住了,以下是AnthropicAI研究工程师EmmanuelAmeisen晒出的结果:

从风格上看,确实相当不错!如果仔细观察,会发现一些微妙的问题/幻觉。不管怎么说,这个几乎现成就能使用的系统还是令人印象深刻的。我很期待能多玩Claude3,它看起来是一个强大的模型。

根据以上各种刁钻的测试结果,有人已经喊出“Anthropicissoback”了。

最后,Anthropic还推出了一个包含多个方向提示内容的prompt库。

Claude3系列模型

Claude3系列模型的三个版本分别是Claude3Opus、Claude3Sonnet和Claude3Haiku。

其中Claude3Opus是智能程度最高的模型,支持200ktokens上下文窗口,在高度复杂的任务上实现了当前SOTA的性能。该模型能够以绝佳的流畅度和人类水平的理解能力来处理开放式prompt和未见过的场景。Claude3Opus向我们展示了生成式AI可能达到的极限。

Claude3Sonnet在智能程度与运行速度之间实现了理想的平衡,尤其是对于企业工作负载而言。与同类模型相比,它以更低的成本提供了强大的性能,并专为大规模AI部署中的高耐用性而设计。Claude3Sonnet支持的上下文窗口为200ktokens。

Claude3Haiku是速度最快、最紧凑的模型,具有近乎实时的响应能力。有趣的是,它支持的上下文窗口同样是200k。该模型能够以无与伦比的速度回答简单的查询和请求,用户通过它可以构建模仿人类交互的无缝AI体验。

接下来我们看一下Claude3系列模型的特性和性能表现。

全面超越GPT-4,实现智能水平新SOTA

作为Claude3系列中智能水平最高的模型,Opus在AI系统的大多数评估基准上都优于竞品,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)等基准。并且,Opus在复杂任务上表现出接近人类水平的理解力和流畅度,引领通用智能的前沿。

此外,包括Opus在内,所有Claude3系列模型都在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面实现了能力增强。

下图为Claude3模型与竞品模型在多个性能基准上的比较,可以看到,最强的Opus全面优于OpenAI的GPT-4。

近乎实时响应

Claude3模型可以支持实时客户聊天、自动补充和数据提取等响应必须立即且实时的任务。

对于绝大多数工作,Sonnet的速度比Claude2和Claude2.1快2倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus的速度与Claude2和2.1相似,但智能水平更高。

强大的视觉能力

Claude3具有与其他头部模型相当的复杂视觉功能。它们可以处理各种视觉格式数据,包括照片、图表、图形和技术图表。

Anthropic表示,它们的一些客户50%以上的知识库以各种数据格式进行编程,例如PDF、流程图或演示幻灯片。因此,新模型强大的视觉能力非常有帮助。

更少拒绝回复

以前的Claude模型经常做出不必要的拒绝,这表明模型缺乏语境理解。Anthropic在这一领域取得了有意义的进展:与前几代模型相比,即使用户prompt接近系统底线,Opus、Sonnet和Haiku拒绝回答的可能性明显降低。如下所示,Claude3模型对请求表现出更细致的理解,能够识别真正的有害prompt,并且拒绝回答无害prompt的频率要少得多。

准确率提高

为了评估模型的准确率,Anthropic使用了大量复杂的、事实性问题来解决当前模型中的已知弱点。Anthropic将答案分为正确答案、错误答案(或幻觉)和不确定性回答,也就是模型不知道答案,而不是提供不正确的信息。与Claude2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍,同时也减少了错误回答。

除了产生更值得信赖的回复之外,Anthropic还将在Claude3模型中启用引用,以便模型可以指向参考材料中的精确句子来证实回答。

长上下文和近乎完美的召回能力

Claude3系列型号在发布时最初将提供200K上下文窗口。然而,官方表示所有三种模型都能够接收超过100万token的输入,此能力会被提供给需要增强处理能力的特定用户。

为了有效地处理长上下文提示,模型需要强大的召回能力。NeedleInAHaystack(NIAH)评估衡量模型可以从大量数据中准确回忆信息的能力。Anthropic通过在每个提示中使用30个随机Needle/question在不同的众包文档库上进行测试,增强了该基准的稳健性。

Claude3Opus不仅实现了近乎完美的召回率,超过99%的准确率。而且在某些情况下,它甚至识别出了评估本身的局限性,意识到“针”句子似乎是人为插入到原始文本中的。

安全易用

Anthropic表示,其已建立专门团队来跟踪和减少安全风险。该公司也在开发ConstitutionalAI等方法来提高模型的安全性和透明度,并减轻新模式可能引发的隐私问题。

在使用体验上,Claude3比以往模型更加擅长遵循复杂的多步骤指令,更加可以遵守品牌和响应准则,从而可以更好地开发可信赖的应用。此外,Anthropic表示Claude3模型现在更擅长以JSON等格式生成流行的结构化输出,从而可以更轻松地指导Claude进行自然语言分类和情感分析等用例。

技术报告里写了什么

目前,Anthropic已经放出了42页的技术报告TheClaude3ModelFamily:Opus,Sonnet,Haiku。

我们看到了Claude3系列模型的训练数据、评估标准以及更详细的实验结果。

在训练数据方面,Claude3系列模型接受了截至2023年8月互联网公开可用的专用混合数据的训练,以及来自第三方的非公开数据、数据标签服务商和付费承包商提供的数据、Claude内部的数据。

Claude3系列模型在以下多个指标上接受了广泛的评估,包括:

首先是推理、编程和问答任务上的评估结果,Claude3系列模型在一系列推理、阅读理解、数学、科学和编程的行业标准基准上与竞品模型展开了比较,结果显示不仅超越了自家以往模型,还在大多数情况下实现了新SOTA。

Anthropic在法学院入学考试(LSAT)、多州律师考试(MBE)、美国数学竞赛2023年数学竞赛和研究生入学考试(GRE)普通考试中评估了Claude3系列模型,具体结果如下表2所示。

Claude3系列模型具备多模态(图像和视频帧输入)能力,并且在解决超越简单文本理解的复杂多模态推理挑战方面取得了重大进展。

一个典型的例子,是Claude3模型在AI2D科学图表基准上的表现,这是一种视觉问答评估,涉及图表解析并以多项选择格式回答相应的问题。

Claude3Sonnet在0-shot设置中达到了SOTA水平——89.2%,其次是Claude3Opus(88.3%)和Claude3Haiku(80.6%),具体结果如下表3所示。

首先,在他看来,被评估的几个模型在MMLU/GSM8K/HumanEval等几项指标上基本没有区分度,真正需要关心的是为什么最好的模型在GSM8K上依然有5%的错误。

他认为,真正能够把模型区分开的是MATH和GPQA,这些超级棘手的问题是AI模型下一步应该瞄准的目标。

与Claude之前的模型相比,改进比较大的领域是金融和医学。

视觉方面,Claude3表现出的视觉OCR能力让人看到了它在数据收集方面的巨大潜力。

此外,他还发现了其他一些趋势:

从目前的评测基准和体验看来,Claude3在智能水平、多模态能力和速度上都取得了长足的进步。随着新系列模型的进一步优化和应用,我们或许将看到更加多元化的大模型生态。

THE END
1.上传模式与实时模式详解,操作与应用指南(适用于初学者与进阶用户亲爱的读者们,本文将为您详细解释什么是上传模式和实时模式,并引导初学者和进阶用户如何操作这两种模式,无论您是刚开始接触这一领域的萌新,还是已经有一定基础的用户,本文都将助您一臂之力,请跟随我们的步骤,轻松掌握这一技能。 了解上传模式和实时模式 https://www.shuguo168.com/post/11417.html
2.实时响应能力是嵌入式或软件发展中的关键因素吗在当今快速变化的技术世界中,嵌入式开发和软件开发两个领域都扮演着重要角色。两者各有千秋,但它们之间存在一些显著的差异,其中最为人关注的是实时响应能力。在探讨这两个领域哪个更好之前,我们首先需要明确这两种技术在解决问题上的优势和劣势。 首先,让我们来理解什么是嵌入式系统。嵌入式系统是一种专门为特定应用而https://www.0ctj6z4q03.cn/qian-ru-shi-xi-tong/366345.html
3.实时调度算法:高效应对实时系统的挑战新闻动态最早截止时间优先(Earliest Deadline First,EDF)算法是最常见的实时调度算法之一。它根据任务的截止时间来决定任务的执行顺序,优先选择截止时间最早的未完成任务进行执行。 EDF算法的优点是简单易懂,能够保证系统在任何时刻都能满足所有任务的截止时间要求。然而,EDF算法也存在一些缺点。首先,它可能会导致任务的响应时间较http://xacbs88.com/post/6113.html
4.宕机的定义类型及影响分析:应对宕机的有效策略冗余服务器网络宕机是什么意思 (What Does "Downtime" Mean) 宕机这个词在我们的生活中并不陌生,特别是在科技高度发达的今天。无论是手机、电脑,还是各种在线服务,宕机的问题总是时不时出现。那么,宕机到底是什么意思呢? 宕机的定义 (Definition of Downtime) 宕机,简单来说,就是系统或设备在一段时间内无法正常运行的状态。这个https://www.163.com/dy/article/JJQ8NR7P055670JB.html
5.网络负载均衡概念和说明本文提供有关网络负载均衡的信息。 适用于:Windows Server 2003 原始KB 数:556067 总结 本文包含有关网络负载均衡的信息 - Microsoft群集技术。 详细信息 问: 如何测试 NLB 群集? 例如,你已在群集中找到节点,并想要检查负载均衡是否正常工作。 在四个节点上创建不同的四个共享,并尝试从一台计算机访问它们。 使用https://support.microsoft.com/kb/556067
6.任务切换时间中断响应和延迟时间翻译为什么意思,英文翻译求翻译: 实时性实时性是反映嵌入式实时操作系统快速响应外部事件的能力。通常包括:系统调用时间、任务切换时间、中断响应和延迟时间、信号量混洗时间、数据包吞吐率等。是什么意思?待解决 悬赏分:1 - 离问题结束还有 实时性实时性是反映嵌入式实时操作系统快速响应外部事件的能力。通常包括:系统调用时间、任务切换时间http://www.zaixian-fanyi.com/query_12801
7.无状态容器是什么意思无状态化mob6454cc7a6087的技术博客资源存储和实时响应其实都涉及到变化的感知能力。当资源存储失效时,重定向到正确的资源存储点是最关键的问题。 五、长短连接 长短连接指的是连接的保持时间,一般说来,无状态化架构倾向于短接连【如:HTTP】或者无连接,而状态化架构倾向于使用长连接。这是因为无状态化结构没有上下文关系,所以保持连接对他来说是没有https://blog.51cto.com/u_16099341/11228971
8.深入解析EDR是什么意思:专业知识分享与应用方法详解EDR作为一种新兴的网络安全技术,通过实时监控和行为分析,能够有效检测和响应潜在的安全威胁。本文详细介绍了EDR的定义、工作原理、应用方法,并结合实际案例帮助读者更好地理解和应用这一技术。对于企业和个人用户来说,选择合适的EDR解决方案,并合理配置和使用,可以显著提升终端设备的安全性,保护重要数据免受网络攻击的威胁https://www.xiaoyuxitong.com/cjwt/163953.html
9.整进销存是什么意思零代码企业数字化知识站响应速度:整进销存系统能够实时监控市场和库存变化,使企业在面对市场变化时,能够迅速做出反应;而传统管理模式则反应较慢,容易导致机会的丧失。 成本控制:整进销存系统通过优化库存管理和采购流程,能够有效降低运营成本;而传统模式往往由于信息滞后,导致库存积压和资金浪费。 https://www.jiandaoyun.com/blog/article/825834/
10.数据olap什么意思帆软数字化转型知识库数据olap什么意思 数据OLAP(Online Analytical Processing,在线分析处理)是一种多维数据分析技术,用于支持复杂的数据查询、进行多维数据建模、提供快速查询响应、进行数据透视分析。它通过将数据组织成多维立方体,可以直观地进行数据切片、旋转和钻取操作。多维数据建模是OLAP的核心,它将数据视为一个多维的立方体,其中每个https://www.fanruan.com/blog/article/619739/
11.商业中CR是什么意思及其应用解析在商业领域,CR通常指变更需求(Change Request)。这是一种在项目或业务流程中提出的对原有计划、设计或系统进行修改的请求。变更需求的提出通常是为了适应新的市场需求、技术进步或内部流程优化。理解CR是什么意思,有助于更好地管理和响应这些需求,从而提高项目的成功率和业务的灵活性。 https://www.feishu.cn/content/what-does-cr-mean
12.按响应时间划分,通常可将实时系统分为三类:(1)普通实时系统,响应声明: 本网站大部分资源来源于用户创建编辑,上传,机构合作,自有兼职答题团队,如有侵犯了你的权益,请发送邮箱到feedback@deepthink.net.cn 本网站将在三个工作日内移除相关内容,刷刷题对内容所造成的任何后果不承担法律上的任何义务或责任 https://www.shuashuati.com/ti/e5aa9efbabba40aca39645b4b238c936.html?fm=bdd4d9754294a36775621f25a986a1aaa5
13.到底该不该用RTOS——rtos的优点腾讯云开发者社区针对这部分朋友,今天分享几点相关内容:嵌入式系统中,有很多方式实现任务调度。功能有限的小系统中,无限循环足够实现系统功能。当软件设计变得庞大且复杂时,设计师应该考虑使用实时操作系统。 下面给大家分享使用RTOS的8个理由: 1.硬实时响应 基于优先级抢占的RTOS,根据任务的实时需求,执行优先调度。有严格时序限制的任务https://cloud.tencent.com/developer/article/2113312
14.动态CSS:在实时的Web应用程序中增强用户体验3、什么是CSS变量?如何使用它来动态修改CSS样式? 4、如何使用Vue.js或React.js来动态修改CSS样式? 5、如何使用CSS3的transition和animation属性来实现动态过渡效果? 三、动态CSS是什么意思 动态CSS是一种在运行时修改网页样式的技术,可以在改变网页内容时实时生效,提高用户体验。 https://www.506064.com/n/280531.html
15.侍候和伺候分别是什么意思侍候和伺候分别是什么意思 “伺候”意思是意思是为某人提供实时的照顾,照顾生活起居,随时响应被照顾人的要求,并完成相关生活的工作。“侍候”意思是指服侍;伺候。出自曹禺《雷雨》第一幕:“倒是侍候大少爷的张奶奶这两天尽忙着给他捡衣裳。” 1、“伺候”用于地位较高的人,即上对下、尊对贱、长对幼。侧重于https://edu.iask.sina.com.cn/bdjx/6j6NxA1BpWY.html
16.GPT快速实时响应,强大视觉能力 Claude 3旨在为用户提供更即时的任务响应。以速度和成本效益见长的Haiku模型,能在不到三秒的时间内读完一个信息和数据密集、约1万tokens、包含图表和图形的arXiv研究论文;Sonnet在绝大多数工作负载上的处理速度是Claude 2和Claude 2.1的两倍;Opus的速度与Claude 2和2.1相似,但智能水平要高得https://i.ifeng.com/c/8Xi0eU6RXhN
17.AI边缘计算是什么意思?AI边缘计算能干嘛?AI边缘计算的概念和应用1、实时响应:边缘设备可以立即处理数据并做出即时决策,无需依赖云服务器的延迟。这对于需要实时响应的应用非常重要,如智能交通系统中的交通监控、自动驾驶车辆中的感知和决策等。 2、数据分析和聚合:边缘设备可以对收集到的数据进行本地分析和聚合,提取有价值的信息,并将结果传输到云端进行进一步的处理。这种方式可以减https://m.hqew.com/tech/fangan_3836615
18.消息中间件第一讲:RocketMQ从入门到精通Kafka是使用Scala/Java语言开发的一款MQ产品。其最大的特点就是高吞吐率,常用于大数据领域的实时计算、日志采集等场景。其没有遵循任何常见的MQ协议,而是使用自研协议。对于Spring Cloud Net?ix,其仅支持RabbitMQ与Kafka。 RocketMQ RocketMQ是使用Java语言开发的一款MQ产品。经过数年阿里双11的考验,性能与稳定性非常https://developer.aliyun.com/article/1352496
19.车损险是什么意思,有必要买吗新的保险条款还根据过去一年的赔付记录,设立了12个不同的车险费率调整等级,根据上一年度的赔付情况进行实时调整。其中,等级最高的为十二级,其对应的保险费用将调整至200%;而等级最低的则为一级,其对应的https://m.66law.cn/laws/2693418.aspx