GPT4最大竞争对手Claude2震撼发布!一次10万token免费用,代码数学推理史诗级提升算法翻译大模型claude

【新智元导读】等了这么久,Claude2终于可以免费上手试用了!实测发现,文献概括、代码、推理能力都有了大提升,但中文还差点意思。

ChatGPT的最大竞争对手Anthropic再次上新!

就在刚刚,Anthropic正式发布了全新的Claude2,并推出了更加便捷的网页测试版(仅限美国和英国的IP)。

相较之前的版本,Claude2在代码、数学、推理方面都有了史诗级提升。

不仅如此,它还能做出更长的回答——支持高达100Ktoken的上下文。

而且最重要的是,现在我们可以用中文和Claude2对话了,而且完全免费!

只要用自然语言,就可以让Claude2帮你完成很多任务。

多位用户表示,与Claude2交流非常顺畅,这个AI能清晰解释自己的思考过程,很少产生有害输出,而且有更长的记忆。

全方位大升级

在几个常见的基准测试中,研究者对ClaudeInstant1.1、Claude1.3和Claude2进行了对比评测。

看得出来Claude2对比之前的Claude提升是相当大的。

在CodexHumanEval(Python函数合成)、GSM8k(小学数学问题)、MMLU(多学科问答)、QuALITY(非常长的故事问答测试,最多一万个token)、ARC-Challenge(科学问题)、TriviaQA(阅读理解)和RACE-H(高中阅读理解和推理)上,Claude2的大部分得分都更高了。

各类考试评测

与申请研究生的美国大学生相比,Claude2在GRE阅读和写作考试中的得分已经超过了90%的考生,并且在定量推理方面,它的表现与申请者的中位数相当。

Claude2在美国律师资格考试(MultistateBarExamination)的多项选择题中,得分为76.5%,比曾经通过考试的小编要高。

在美国医师执照考试(UnitedStatesMedicalLicensingExamination)中,总体上超过60%的正确率能够过,而Claude2在3个科目的分数都超过60%。

输入和输出的长度

这次Claude2的一个大升级,就是输入和输出长度的增加。

在每个prompt最多可以包含100k的token,这意味着:Claude2可以一次读取几百页的技术文档,甚至一整本书!

并且,它的输出也更长了。现在,Claude2可以写长达几千个token的备忘录、信函、故事。

你可以上传PDF之类的文档,然后基于PDF进行对话,上下文的长度,比GPT要大。(不过有用户反馈说,Claude2在指令识别方面还是不如GPT)

比如,现在有这两篇论文。

你可以对Claude2说:请你给我解释一下第一篇论文的重要性体现在哪里,并用简短的话描述它的新成果。对于第二篇论文,请为我制作一个两列的降序表,其中包含论文中的章节标题以及每个章节相应的详细重点。

喂给Claude2超过8万3千字符的2个PDF文件之后,它完美完成了上述任务。

而且根据Anthropic官方在论文中的说法,Claude2其实是有支持200k上下文的潜力。

目前虽然只支持100k,但是未来将会扩展到至少200k。

代码、数学和推理

在代码、数学和推理方面,Claude2比起之前的模型都有很大的提升。

在CodexHumanEval的Python代码测试中,Claude2的得分从56.0%提升到了71.2%。

在GSM8k(大型小学数学问题集)上,Claude2的得分从85.2%提升到了88.0%。

Anthropic官方给大家秀了一段Claude的代码能力。

你可以让Claude生成代码,帮助我们把一幅静态的地图变成一幅可互动的地图。

首先让Claude2分析一下已经有的地图静态代码。

然后让Claude根据要求,生成一段让静态地图产生互动效果的代码。

然后把生成的代码复制进后台,一个可以互动的地图效果就完成了。

可以看出,Claude2不但有很强的代码能力,而且它能很好地理解代码的上下文,保证生成的代码能够无缝嵌入已经有代码。

并且,Claude2的功能还在不断升级中,未来几个月内,很多新功能都会逐渐推出。

结合了Claude的多语言能力,Claude2在多语言支持方面也非常能打。

支持超过43种语言的翻译,23种常用的语言翻译水平能达到「可以理解」的水平。

实测来了

上线这么久的Claude,终于能方便上手了!

这还等什么,一大波火热出炉的实测这不就来了。

首先,我们做道简单的:写一个快速排序算法。

可以看到,Claude2的中文还是很溜的,不仅分析了代码,而且还介绍了算法的复杂度。

接下来,我们让它给这段代码加入一些新的功能,比如自定义输入和输出。

实测可跑:

此外,你还可以要求Claude2对下面这段Python代码做出解释。

importrandomOPTIONS=["rock","paper","scissors"]defget_computer_choice():returnrandom.choice(OPTIONS)defget_player_choice():whileTrue:choice=input("Enteryourchoice(rock,paper,scissors):").lower()ifchoiceinOPTIONS:returnchoicedefcheck_winner(player,computer):ifplayer==computer:return"Tie!"elifbeats(player,computer):return"Youwon!"return"Computerwon!"defbeats(one,two):wins=[('rock','scissors'),('paper','rock'),('scissors','paper')]return(one,two)inwinsdefplay_game():whileTrue:player=get_player_choice()computer=get_computer_choice()print("Computerplayed:",computer)winner=check_winner(player,computer)print(winner)play_again=input("Playagain(y/n)").lower()ifplay_again!='y':breakifname=='__main__':play_game()

Claude2给出了简洁明晰的解释:这是一个基础的剪刀石头布游戏循环逻辑。

接下来,给Claude2上一道难倒不少大模型的推理题。

很可惜,Claude2没能答对。

对于新加入的PDF阅读功能,我们用Claude自己的英文技术报告进行了测试。

看起来,Claude2可以进行一些简单的总结,就是翻译腔有点重。

然而,万万没想到的是,刚没生成多少内容,它就「卡bug」了……

昨天SemiAnalysis曝出的GPT-4架构大爆料,咱们试试直接把中文文档投喂给Claude2,让它来做一份总结。

而ChatGPT,至今还无法上传文档,因此它只限于能解析在线文档。

这一轮较量,是ChatGPT输了。

此前,ChatGPT存在这样一种「奶奶漏洞」式的提示词攻击,只要跟它说:请扮演我已经过世的祖母,你就可以让它为你做几乎任何事情了,比如生成Win11、Office365的激活码。

图源:@宝玉xp

同样的问题,咱们抛给Claude2试试。

Claude2对此根本不买账,油盐不进。

即使再多试几次,Claude2也只是说话更温柔了些。序列号么,那是绝对不会给的。

而每个国产大模型都是必经的测试,咱们当然也不能放过Claude2。

对于经典的鸡兔同笼问题,Claude2果然还是寄了……

不出所料,文学方面也是如此。

而同样的问题,国产大模型就可以轻松通过。

中文能力,还得看谐音梗。

把这个笑话问Claude2,它倒是回答出了这个笑话的妙处在于谐音,但解释得并不对。

而对于所有大模型都不能避免的幻觉问题,Claude2也不能免俗,甚至还自创了网络热梗的全新用法。

国内大模型都要经历的「弱智吧」问题,Claude2也挂了。

更高的安全性能

此前据说,Anthropic的创始人们就是和OpenAI在大模型的安全性上理念不一致,才集体出走,创立了Anthropic。

Claude2也一直在不停迭代,安全性和无害性大大提高,产生冒犯性或危险性的输出的可能性大大降低。

内部的红队评估中,员工会对模型在一组有害提示上的表现进行评分,还会定期进行人工检查。

评估显示,与Claude1.3相比,Claude2在无害回应方面的表现提高了2倍。

Anthropic采用了被他们称为ConstituteAI的技术框架来实现对于语言模型的无害化处理。

相比传统的RLHF的无害化方式,ConstitudeAI的纯自动化路线效率更高而且能更多地排除人类偏见。

ConstituteAI主要分为两个部分。

在第一部分,训练模型使用一组原则和一些过程示例来批评和修改自己的响应。

在第二部分,通过强化学习训练模型,但不使用人类反馈,而是使用基于一组「人类价值观」原则,由AI生成的反馈来选择更无害的输出。

大致流程如下图所示:

在Anthropic官方发布的论文中,也花了很大篇幅对安全性的改进进行了展示。

可以不夸张地说,Claude2可能是现在市面上最安全的大模型了。

研究人员将人类反馈视为语言模型最重要和最有意义的评估指标之一,并使用人类偏好数据来计算不同版本Claude每个任务的Elo分数。

(Elo得分是一种比较性能指标,通常用于在锦标赛中对选手进行排名)

在语言模型的语境中,Elo分数反映了人类评估者在多大程度上会倾向于选择一种模型的输出结果。

最近,LMSYSOrg推出了一个公开的聊天机器人竞技场(ChatbotArena),根据人类的偏好为各种LLM提供Elo分数。

本篇论文中,研究人员在内部也采用了类似的方法来比较模型,要求用户与模型进行聊天,并在一系列任务中对研究人员的模型进行评估。

用户每轮看到两个回答,并根据说明提供的标准选择哪个更好。

然后,研究人员使用这些二元偏好数据来计算每个评估模型的Elo分数。

在本报告中,研究人员收集了一些常见任务的数据,包含以下几个方面——有用性、诚实性、无害性。

下图展示了不同模型在这三个指标上的Elo得分。

黄色代表HelpfulOnly1.3,蓝绿色代表ClaudeInstant1.1,浅紫色代表Claude1.3,深紫色代表Claude2.

质量保证的偏见基准(TheBiasBenchmarkforQA,BBQ)用来测量模型在9个维度上表现出刻板偏见的倾向。

该评估采用多选问答的形式,专为美国英语的环境设计。BBQ为每个维度的模糊语境和消歧义语境提供偏差分数。

直观地说,消歧条件下的高准确率意味着模型不是简单地通过拒绝回答问题来获得低偏差分。当然,作为一个指标,研究人员表示其还有进一步改进的空间。

下图展示了不同模型在9个维度(年龄、社会经济地位、国籍、宗教信仰、外貌、是否有残疾、性别、种族、性取向)上的BBQ得分。

图例颜色同表1。

而下图则是消歧语境下的得分,每个问题存在标准答案。

TruthfulQA则是另一项指标,用来评估模型是否输出了准确和真实的响应。

其方法是——使用人类标注者来检查开放式模型的输出结果。

从下图中可以看到,五种模型的得分。其中白色指的是基础语言模型(BaseLM)。

Anthropic的研究人员还编写了438道二元选择题,用来评估语言模型和偏好模型识别HHH反应的能力(HHH:Helpfulness、Honesty、Harmlessness,有用性、诚实性、无害性)。

模型有两种输出,研究人员要求其选择更「HHH」的输出。可以看到,所有Claude模型在这个任务的0-shot表现上都比上一个更好,「HHH」三个方面均有普遍改进。

这个图显示了「红队」提出有害要求或者越狱的情况下,各个模型的有害回答的比例。

Claude2确实是相当安全可靠。

这个图对比了人工反馈(橙色)和Claude的方法在帮助性,诚实性和无害性评估中的得分。

THE END
1.微微在线二维码生成器免费模板 家居装修 免费模板 技校招生 免费模板 种牙口腔招募活动 免费模板 电影院广告宣传 免费模板 养老中心宣传 免费模板 旅游行程计划推广 免费文字制作 在线生成各种艺术字体,制作各类文字,可保存为图片格式 全面保障你的应用体验 懂你的疑虑,微微二维码专业的技术与服务,解决你的后顾之忧 安全运营https://wwei.cn/
2.在线二维码生成器~二维工坊二维工坊在线二维码生成器,提供一物一码、设备维保、防伪溯源等行业解决方案,可制作名片、地图导航、wifi、PDF文件、相册、音视频等二维码和小程序,低代码页面设计可自己DIY小程序和定制二维码营销解决方案。https://2weima.com/
3.金手指代码在线转换器,高效便捷的工具使用指南IT数码3、团队协作与分享:团队成员之间可以通过金手指代码在线转换器分享和整合不同编程语言的代码,提高团队协作效率。 4、学习与练习:对于初学者来说,金手指代码在线转换器可以帮助他们了解不同编程语言的差异,加深对编程的理解。 5、临时需求应对:在面对紧急项目或临时需求时,金手指代码在线转换器可以快速生成符合要求的代码,http://m.zzysbg.com/post/20213.html
4.在线生成条形码条形码生成器条码生成软件在线生成条形码、条码生成器条码数据与所选类型格式不符合!下载PNG图 下载矢量图1.选择条形码类型 2.录入条码数据 1234567890ABC 显示文字 透明背景 3.设置条码样式 宽度 高度 字号 行距免费的在线条码生成工具,可生成用于快递物流面单、产品标签、单据管理、资产管理等领域的多种编码的条形码图片 如果你需要批量生成https://www.gaitubao.com/barcode/
5.在线代码编辑器在线代码编辑器 json随机生成工具 xml随机生成工具 前端开发快捷键 网页设计常用色彩搭配表 48色蜡笔颜色,彩铅色彩 180款常用渐变色 配色大全 更多 ABAPABCActionScriptADAAldaApache ConfApexAQLAsciiDocASLAssembly x86AutoHotkey / AutoItBatchFileC and C++C9SearchCirruClojureCobolCoffeeScriptColdFusionCrystalC#Csound https://www.bejson.com/pages/cooleditor/
6.在线条形码生成器条形码生成器是一款免费在线条码生成器,输入条形码号即可制作条形码,EAN13商品条码制作,code39条码,code128,UPC条码生成,GS1128,快递条形码等各种条码生成.http://barcode.cnaidc.com/
7.酷代码ai写代码神器"酷代码"是一家去中心化AI聚合平台,旨在共享AI低成本地处理文案类、代码类的工作,提升学习、工作的效率②将字符串str2插入字符串str1中,在屏幕上输出新生成的str1。 函数接口定义: void conj(char *s1输入格式 程序要求输入2行,以回车符号作为分隔。第一行是四个整型数,以空格作为分隔,分别表示四个进程https://www.coolcode.info/
8.脚本之家在线工具工具之家是脚本之家旗下网站,目的是为广大程序员、前端工程师、服务器管理员、网站站长等朋友提供在线工具,如代码格式化、代码混淆、代码加密、编码转换、站长查询、颜色对照表、颜色值转换等常用工具,更多好用、易用的工具还在不断添加中,欢迎访问!https://tools.jb51.net/
9.正则表达式在线生成代码在线生成代码 清空输入框 复制代码 正则表达式在线代码生成工具 1,实现在线自定义正则表达式并转成各语言代码 2,自定义正则表达式代码在线生成:正则表达式生成Javascript脚本、正则表达式PHP代码、正则表达式生成go代码 正则表达式生成Java代码、正则表达式生成rb代码、正则表达式生成Python代码、正则表达式在线生成C#代码 https://www.gseen.com/online_tools/tool/regcode
10.条形码生成器在线制作免费在线条形码生成器sojson给广大网友们提供此工具免费使用,此工具可以在线生成条形码,支持多种条形码,如:CODE128、CODE128A、CODE128B、CODE128C、EAN、EAN-13、UPC、EAN-8、EAN-5、EAN-2、CODE39、ITF14、MSI、MSI10、MSI11、MSI1010、MSI1110、pharmacode、codabar。还可以批量生成,支持https://www.sojson.com/life/brcode.html
11.码工具码工具,MaTools是程序员的代码在线工具箱:有代码对比,代码格式化,css压缩,文字加密解密,时间戳生成,二维码生成,API文档,Cron表达式,图片处理,正则表达式等工具https://www.matools.com/
12.正则生成代码正则表达式在线代码生成工具(支持语言:JS、PHP、Golang、Java、Ruby、Python、C#) 中文字符 双字节字符 空白行 首尾空白 Email 网址URL 手机号码 固话号码(国内) 负浮点数 匹配整数 正浮点数 QQ号码 邮政编码 IP地址 身份证号 日期格式 正整数 负整数 用户名 复制 https://www.gongjuwa.com/regexcode/
13.免费在线AI生成PPT的手把手保姆图文教程大家都知道在日常办公的时候,经常需要使用PPT进行编辑汇报,如果灵感没了,每次都会看着电脑发呆。现在有了AI,很多小伙伴都开始使用AI进行生成PPT,事半功倍。但是也有类似于像我一样的,舍不得花钱,那怎么办?其实也有那种免费的在线AI生成PPT的工具,这里搬主题就分享一下免费在线AI生成PPT的手把手保姆图文教程。 https://www.banzhuti.com/chatgptgamma-free-ai-ppt.html
14.在线词云生成代码生成华为云帮助中心为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:在线词云生成。https://support.huaweicloud.com/topic/493304-1-Z
15.代码LOGO设计免费生成器代码LOGO免费设计在线生成标智客代码LOGO在线设计软件为企业在线生成代码LOGO图片,提供代码品牌标志生成模板、代码标志图片素材下载,是LOGO免费在线生成平台!https://www.logomaker.com.cn/logo/tag/3710/
16.在线发光字生成工具这是一款可用于生成带有文本阴影效果的发光字特效生成工具,用户可自由选择生成的文本字体颜色与文本阴影颜色,确定提交后可即时观察到生成的字体效果,此外还带有生成HTML代码与UBB代码的代码转换功能。该工具免费提供给需要的朋友使用。 发光文字: 输入要生成发光文字的文本,如 http://tool.36130.com/aideddesign/txt_faguangzi.html
17.Glif无代码AI工具构建平台简单易用的AI生成器Glif是一个无代码的AI小工具构建平台,用户能够通过输入文本、图像或简单的点击操作来创建和运行小型的AI生成器,这些生成器被称为”glifs”。该平台的核心优势在于它的易用性,即使是没有编程背景的用户也能快速上手,轻松构建和测试AI模型(如AI梗图生成)。Glif为非技术用户提供了一个探索和实现人工智能应用的友好环https://www.ai138.com/link/3186.html
18.超方便!快速调整网页排版,一键导出CSS代码的在线工具渐变色+代码比较:《酷站两连发!渐变色方案全聚合网站+在线代码比较神器》 配色+占位图:《酷站两连发!在线色彩搭配工具+快速生成占位图片器》 LOGO下载+字体下载:《酷站两连发!可商用的矢量LOGO下载+平面最爱的27款免费字体》 压缩图片+在线配色:《酷站两连发!在线图片压缩神器+在线配色工具COLOURCO》 https://www.uisdc.com/type-anything-io/
19.CodeGeeX:Tab一下,代码自动生成澎湃号·湃客澎湃新闻为此,我们研发了一款新型的大规模多语言代码生成模型 CodeGeeX。 相比Copilot 的闭源收费,CodeGeeX 完全开源,并免费使用。(相关链接,见文末) 一、原理 模型 CodeGeeX是一个基于transformers的大规模预训练编程语言模型。它是一个从左到右生成的自回归解码器,将代码或自然语言标识符(token)作为输入,预测下一个标识https://www.thepaper.cn/newsDetail_forward_20748770
20.智梦AI中文版,AI生成代码,AI小说智梦AI国内中文版调用最新语言大模型,相较官方挂梯子速度更快、更稳定 可以用于多种任务,例如回答问题、生成对话、智能写作、提供解决方案等。还能够根据输入的上下文和意图,生成连贯、有逻辑的回复。http://jinan-edream.com/
21.我收藏的这100+个”杀手级“网站,你用过几个?生成随机文本 还有一个:tiny-helpers 6、type-scale - 字体预览 网址:type-scale 可视化地让你理解不同字体大小的区别,rem 与 em 值。实时检查预览,还能在codepen中查看完整代码。 7、remove - 在线抠图 网址:remove 这就不用说了,在线抠图,懂的都知道~ https://developer.aliyun.com/article/1248577
22.生成工具,6个免费在线制作图表工具,1分钟生成漂亮图表5个优秀的 生成工具,6个免费在线制作图表工具,1分钟生成漂亮图表 「本文重点介绍关于在线表格生成。」 1、在线表格编辑器——TablesGenerator 表格制作工具TablesGenerator是一个在线制作 LaTeX、HTML、Markdown 格式的表格代码工具,支持在表格中填充数据,修改字体/背景颜色,对齐方式等等,还支持从Excel、Google Docs 里https://www.huoban.com/news/post/72894.html
23.手机屏幕坏了怎么把里面的资料导出(18种方法)如果手机能显示和输入,可通过拨号界面输入代码测试手机哪里有问题 小米拨号界面输入 *#*#64663#*#* 在这里我们能够进行SIM卡测试,SD卡测试,按键测试,振动测试,LED灯测试,触屏测试,触摸屏测试,扬声器测试,听筒测试,耳机测试,麦克测试,GPS测试,WLAN测试,OTG测试,蓝牙测试,距离感应器测试,光线感应器测试,充电器测试,相https://blog.csdn.net/weixin_69553582/article/details/125776190
24.网名生成器姓名生成器名字在线生成器网名在线生成支持在线网名、姓名、游戏名字、家族团体名字批量生成,支持性别选择,支持姓氏指定,支持随机姓氏!https://www.qmsjmfb.com/
25.在线代码截图,源代码生成图片工具在线代码截图 分类:开发工具 在线代码截图工具,根据输入的源代码,可以生成漂亮的代码图片。本工具可自动识别输入的代码属于哪种程序语言,包括 C、C++、Java、Go、Python、PHP、JavaScript、TypeScript、CSS、HTML 等几十种开发语言,并提供了若干高亮主题,以及相关图片生成选项,以生成不同风格的源码截图。生成的图片可https://www.dute.org/code-snapshot
26.设计神器!5分钟就能上手的动态文字生成网站–SpaceTypeSpace Type Generator是一个用代码自动生成动效的网站,作者是设计师Danger Mutschelknaus,意在通过这个有趣的工具,可以让动效界的新手只需要打开网页,就能拥有一个随时可用的动效工作站! 我想未来(或一个设计的未来)是在创造的工具,而不是设计的创作。——Kiel D. Mutschelknaus https://uiiiuiii.com/software/324848.html
27.VBA代码助手AI代码生成器及VBA代码解释器VBA代码翻译VBA永远人类语言描述, 生成代码 自动注释 网抓代码 使用方法 部分机器结果显示白屏处理方法 VBA代码助手下载地址 人工智能帮你写代码 视频演示 不会写VBA代码?有手就行,直接输入需求,代码给你写好! VBA代码的英文看不懂?右键直接全中文逐行翻译代码,真正的VBA代码解释器! https://vbayyds.com/docs/vbahelper/vba_dai_ma_zhu_shou_ai_dai_ma
28.qq代码生成(代码生成器下载2023年)网站服务1、qq假红包代码是怎么弄的呢? 2、qq群名片代码后缀生成 3、qq连接代码怎样生成的呢? qq假红包代码是怎么弄的呢? 1、首先打开QQ,在对话框里随便输入汉字,再加上一个表情,全选,然后复制。点红包标志,在口令红包里粘贴,删掉最后的字母或者符号,再全选,复制。注意:粘贴后无字母或符号的为操作错误。全选的时候不http://www.kuleidc.com/wz/18822.html