智源发布FlagEval“百模”评测结果丈量模型生态变局

2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

Part.01

多种模态评测综合榜单覆盖文本、语音、图片、视频理解与生成

语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。

语言模型主观评测重点考察模型中文能力,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE4.0Turbo位居第一、第二,OpenAIo1-preview-2024-09-12、AnthropicClaude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型客观评测中,OpenAIo1-mini-2024-09-12、GoogleGemini-1.5-pro-latest位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,MetaLlama-3.3-70B-Instruct排名前五。

视觉语言多模态模型,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAIGPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于AnthropicClaude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和GoogleGemini-1.5-Pro紧随其后。

文生图多模态模型,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯HunyuanImage位列第一,字节跳动Doubaoimagev2.1、Ideogram2.0分居第二、第三,OpenAIDALL·E3、快手可图次之。

文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦P2.0pro、爱诗科技PixVerseV3、MiniMax海螺AI、Pika1.5位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三,NvidiaAudio-Flamingo,MIT&IBMLTU均进入前五。

Part.02

四大专项评测榜单多维度探索模型能力边界与应用潜能

本次评测,智源研究院再次联合与海淀区教师进修学校新编了K12全学段、多学科试卷,进一步考察大模型与人类学生的能力差异,其中,答案不唯一的主观题依然由海淀教师亲自评卷。得益于多模态能力的带动发展,模型本次K12学科测验综合得分相较于半年前提升了12.86%,但是仍与海淀学生平均水平存在差距;在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分;模型普遍存在“文强理弱”的偏科情况。

作为模型对战评测服务FlagEval大模型角斗场的延展,今年10月智源研究院推出了模型辩论平台FlagEvalDebate,对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以甄别语言模型的能力差异。本次评测发现,大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;大模型在辩论中依然存在“幻觉问题”,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。FlagEvalDebate评测结果表明,AnthropicClaude-3-5-sonnet-20241022、零一万物Yi-Lighting、OpenAIo1-preview-2024-09-12为前三名。

此次评测,智源研究院探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;头部模型能力已接近初级量化交易员的水平。金融量化交易评测结果显示,深度求索Deepseek-chat,OpenAIGPT-4o-2024-08-06,GoogleGemini-1.5-pro-latest位列前三。

Part.03

智源评测体系FlagEval再迭代覆盖全球800+开闭源模型

本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过数次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。

在评测方法与工具上,智源研究院联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等,其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集,有18000多个轮次对话,和14万多个回答。

为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。

智源研究院副院长兼总工程师林咏华在评测发布会上表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。2025年,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。

最后需要说明的是,此次智源评测结果仍有一定的局限性:

1.范围局限:本次多模态模型评测集中在图片的理解,尚未进行视频理解类的评测;主要为国内大模型生态提供参考,侧重于在中文语境下进行评估。

3.数据局限:当前中文评测集的数量、广度和多样性上面都不如英文评测集,所以容易出现模型的中文能力比英文能力高的“错觉”。

4.方法局限:大模型评测对数据格式敏感,无法通过细致的优化手段探寻各家模型最大潜能;除人工评测外对解析工具的依赖较强,可能导致结果的偏差。

THE END
1.NCHUiLearning3.0iLearning線上同步教室操作教學: https://youtu.be/Kx6hIIQB4_Y 新版介面(Adobe Connect 12)說明: https://youtu.be/KBRco7RtBmY 感謝 2023-09-01 85702 有關應屆畢業生帳號使用期限說明 2024-09-30 84643 課程新增助教操作說明 2024-09-18 16452 https://lms2020.nchu.edu.tw/
2.爱上学习与中欧商业在线合作,中欧商业在线全部课程可直接在“爱上学习”平台上学习。 2017 0225 爱上学习V3.0版上线 爱上学习V3.0版上线,此时我们为企业的线下培训提供了大力支持,包括直播、签到、报名、问卷调查、巡店、员工评估等功能。 2016 0623 爱上学习V2.0版上线 爱上学习V2.0版上线,此版本在提升用户学习效果和http://ilearning.ai/aboutus/grow.html
3.爱上学习在线教育与中欧商业在线合作,中欧商业在线全部课程可直接在“爱上学习”平台上学习。 2017 0225 爱上学习V3.0版上线 爱上学习V3.0版上线,此时我们为企业的线下培训提供了大力支持,包括直播、签到、报名、问卷调查、巡店、员工评估等功能。 2016 0623 爱上学习V2.0版上线 爱上学习V2.0版上线,此版本在提升用户学习效果和http://img.91job.com/ilearning/pc/aboutus/grow.html
4.云南师范大学(EI),SciFinder,查收查引服务系统V3.0,SCI,起点考试系例数据库,Wiley,超星学术搜索平台,超星发现系统,移动图书馆系统,博看人文期刊数据库,CPCI,维普系列数据库,MATHSCINET,SSCI,SAGE,iLearning外语自主学习资源库,生物志库,设计师之家数字图书馆,Springer,中华思想文化术语数据库,GALE,国研网“一带一路”研究与http://www.bidizhaobiao.com/gongsi_211642053942005760.html
5.华为ilearning最新版下载ilearning华为app是一款手机教育学习软件,软件为用户提供便捷的移动学习服务功能,用户通过软件可以实现超多的学习服务,帮助你更方便更高效的学习,非常的实用,为你学习带来超便捷的帮助,感兴趣的朋友来下载吧! 华为ilearning客户端简介 软件由华为打造,为大学教育学院为员工学习帮助的教育服务,软件包含了课程中心、主题http://www.2265.com/game/255771.html
6.华为ilearning官方版下载iLearning是一款提供给华为员工们使用的软件,当然你如果是华为的合作伙伴的话也一样能够使用。软件中有着大量的课程可供用户们进行学习,随时随地提升自己。同时这款软件不光能够学习,还可以进行各种考试,实现一体化! 应用特色 【iLearning早班车】栏目,每天10分钟get精华内容,带你听点有用的 【岗位推荐】根据岗位和https://m.wan886.com/soft/124249.html
7.iLearning官方下载爱语库iLearningappv1.1.0安卓版iLearning 学习app iLearning手机版是用于能力提升的教育资料软件,可以通过该功能查看他人的学习状况; 用户可以在软件中清楚地看到自己每门课程的学习进度。了解自己日常学习情况; 该应用程序具有排名功能。 iLearning最新版介绍“iLearning 爱语库”是一款集电子阅读、视听资源、视频课程等富媒体资源于一体的资源库类手http://m.pipikun.com/android/soft/36161.html
8.华为eNSP下防火墙双机热备的实现以及在HRP配置错误时的现象https://ilearningx.huawei.com/courses/course-v1:HuaweiX+EBGTC00000189+2018.9/about 【CSDN博客】 https://blog.csdn.net/qq_38265137/article/details/80349439 官方教材《HCIA-Security实验手册V3.0》双机热备无法在eNSP中实现的解决 这个实验是本人在根据华为官方教材《HCIA-Security实验手册V3.0》进行防火墙双机https://blog.csdn.net/muxia_jhy/article/details/86586369
9.OracleCriticalPatchUpdateOracle iLearning, versions 5.2.1, 6.0 iLearning Oracle Health Sciences InForm, versions 4.5.x, 4.6.x, 5.0.x, 5.5.x and 6.0.0 Oracle Health Sciences Products Suite Oracle Siebel CTMS, version 8.1.1.x Oracle Health Sciences Products Suite Oracle Retail Invoice Matching, versions 10.2, 11.0,https://www.oracle.com/technetwork/topics/security/cpuoct2013-1899837.html
10.GitHubbaldicoot/securityhttps://ilearningx.huawei.com/portal/#/portal/EBG/26 //华为e学云。安全科普 https://github.com/tiancode/learn-hacking //网络安全入门文章集 https://www.lshack.cn //工控安全入门 https://keenlab.tencent.com/zh/index.html //腾讯科恩实验室 https://www.freebuf.com/articles/neopoints/190895https://github.com/baldicoot/security_w1k1/tree/cfa98af12c59363be55585a5a3831e88f3b17ff9
11.AI英语词汇评测系统的功能评估学习者AI英语词汇评测系统利用人工智能技术,特别是自然语言处理(NLP)和机器学习,对学习者的英语词汇水平进行评估和分析。这些系统旨在提供比传统测试更全面、更个性化的反馈,帮助学习者更有效地提高词汇量和运用能力。以下是AI英语词汇评测系统的一些主要功能。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 https://www.sohu.com/a/839437079_121198703
12.研报:开源证券:从模型应用到具身智能AI全方位引领教育跨越式1)OpenAI连续12天新品发布会密集催化,Day1推出全功能版o1并首次推出ChatGPT Pro,每月200美元,用户为AI功能付费意愿强劲。o1针对研究人员、工程师等专业人士的需求提供“研究级智能”,新模型在数学竞赛、编程挑战和博士级别科学问题上的表现尤为出色。( 2)Duolingo三季报超预期,季报后股价大涨22%。2024Q3多邻国付费用户http://ec100.cn/detail--6645265.html