商汤全球首发的这个功能，就连OpenAI都还没做到|智能识图在线使用_在线图书馆

原创新智元新智元2024-02-0217:01发表于北京

新智元报道

就在刚刚，商汤新一代「日日新SenseNova4.0」大模型体系全面升级，多项任务性能超越GPT-4。

与此同时，全球首个支持不同模态工具调用的AssistantsAPI，也在今日发布！

除了商量大语言模型、秒画文生图大模型外，商汤还发布了大语言模型的数据分析版本、升级了医疗版本「大医」等，将LLM通用能力推向更多领域。同时还有备受期待的多模态大模型。

值得一提的是，商汤最新的AssistantsAPI内置多种工具，支持「文生图」与「图生文」的工具属实是全球首发，目前就连OpenAI也还无法做到！

当我们将大模型和各类应用服务工具连接起来，开发者就轻松拥有了强大的AI助手，LLM「大脑」就有了「眼睛」和「手臂」。

现在，到商汤日日新SenseNova4.0平台，国内的开发者和用户就能在一个系统里，轻松调用图文多模态能力了。

全新SOTA模型+AssistantsAPI，轻松拿捏各种任务

图像理解是任何多模态模型必不可少的技能。

比如，给模型一张行车路况图，乍一看，貌似是一道考验OCR能力的题目。

实则不然，想要正确回答这道题，它不仅需要将图中占比较小的多块指示牌上的字体提取出来，还需要进行推理，最终才能判断出去黄石东路怎么走。

再输入一幅画，它便一眼认出这是油画，还可以精准地将作品中的各种细节特征描述出来，比如蝴蝶的动态、昆虫的颜色。

甚至，基于以上的一些特征总结，它还能进行深入分析，提供自身评价供我们参考。

此外，在海报识别上，它的表现也是十分出色——通过识别海报中的文字信息，便能确定海报主题。

服装穿搭，它也非常拿手，让你穿着打扮更有范儿。

当你问这件外套，该怎么搭配？

它会识别出衣服颜色款式，并会提供合适的穿搭建议，「配一件白色或浅色系的衬衫，下装选黑色或深棕色的裤子，然后配一双黑色的皮鞋」。

多模态模型能读懂的不只是氛围图，还有表情包。

比如一只倾头凝视的猫咪，以及背后传达的情绪与态度，都能识别出。

上传东方明珠的照片，它就会给出详细介绍。

除了图像理解外，文生图功能还可以为你画出刚刚这个场景的夜景。

在线检索工具，则是让我们拥有了访问外部知识的能力。

比如，让它查询上海各区最新的人口数据，就能给出准确的回应。

此外，还可以通过对话进行文档和数据分析。

比如作为一个产品经理，想了解世界范围内各个APP的使用情况，就只需要上传一份APP使用数据的excel表格。

勤勤恳恳的小浣熊会立刻在左边对话框生成相应的Python代码，以及所要求的图表，并在右边给出对应的分析结果。

不管是简单的折线图，还是复杂的箱线图，都可以快速呈现。

不仅可以针对多个表格文件进行关联分析，还能进行多轮对话。以及如果对图表呈现感觉不满意，还能提出修改意见。

商汤日日新4.0发布

显然，这些能力的实现，都要靠强大的模型能力来提供支持。

目前，经过最新升级的日日新4.0，在整体表现上已经非常接近GPT-4的水平了。

相比之前版本，日日新4.0拥有更为全面的知识覆盖、更加可靠的推理能力，更长文本理解力，及稳定的数字推理能力和代码生成能力，并支持跨模态交互。

具体来说：

-而推理能力则达到了GPT-4Turbo99%的水平

我们看到，研究团队新增了包括业务通用、数学能力、K12考试和文学期刊数据的约600Btokens的中英文预训练语料，从而让模型的理解能力和输出质量有了质的提高。

此外还对模型进行了4次超强的预训练，使得模型在阅读理解、综合推理、代码能力等任务上实现了5%-10%的定向性提升。

针对不同的使用场景，他们分别升级了4k、32k、128k三种上下文窗口模型的性能，拓展了应用范围。

其中SenseChat-32k可支持约三万字以上的中文长文本总结，整体能力平均达到了GPT-4-32K90%以上水平，并在理解能力上实现了超越。

而「旗舰级」的SenseChat-128k，更是可以支持约十二万以上的中文长文本总结，并且同样在理解能力方面实现了对GPT-4的超越。

在「大海捞针」实验中128k、32k都实现了近乎完美的召回率，整体表现超过GPT-4。

日日新·商量大语言模型-数据分析版本（SenseChat-DataAnalysisCodeV4）

除此之外，商汤还新增了商量大语言模型-数据分析版本以及数据分析工具「办公小浣熊」，能理解多种表格和文件类型以及复杂表格处理。

可支持多种格式的本地数据文件上传（如xls、xlsx、csv、txt、json等），以及单表格、多表格、多文档类型、复杂表格等不同数据场景。

结果显示，模型在1000+测试集上的精度超越GPT-4（85.71%vs84.62%），并且在强大的中文理解能力加持下，更能够满足国内数据分析的需求。

日日新·商量大语言模型-医疗版本「大医」（SenseChat-MedicalV4）

医疗场景下，「大医」在多轮对话与上下文理解能力上面实现了性能的大幅提升。

它还可以有效实现专业医学问答以及复杂医学任务的推理，配合上丰富的工具调用能力，还能支持更多模态医学文件的智能解读和交互问答。

在两项行业权威评测——2023年职业药剂师考试大模型评测和中文医疗大语言模型开放评测平台MedBench中，「大医」均跻身综合评分排名第二，性能接近GPT-4。

成绩超越了多个通用及医疗垂类开源大语言模型，体现了非常高的专业垂直领域的落地性能。

2023年职业药剂师考试大模型评测

中文医疗大语言模型的开放评测平台MedBench

AssistantsAPI首次支持不同模态工具调用

-持久对话，意味着开发者不用再为如何处理长历史会话而烦恼

-支持对检索（Retrieval)、代码解释器（CodeInterpreter）等OpenAI托管工具的访问

THE END

商汤全球首发的这个功能，就连OpenAI都还没做到

智能识图在线使用（图片识别在线识图）

百度识图在线识别(百度识图，智能在线识别，快速便捷帮你解决问题)

智能识图APP下载智能识图APP安卓手机版下载v1.0.1

智能识图APP下载智能识图APP安卓手机版下载v1.0.1

商汤全球首发的这个功能，就连OpenAI都还没做到

vivo智慧识图下载vivo智慧识图最新版安卓版v1.0.0下载

文心一言插件功能介绍AIGC资讯

拍照神器的另一面vivoS1Pro的智慧AI了解一下

AI抠图AI在线抠图AI在线抠GIF图