GPT4o数学能力跑分直掉50%,上海AILab开始给大模型重新出题了16实验推理鲁棒性上海市视觉思考模型

新模型在MATH上(以数学竞赛为主)动辄跑分80%甚至90%以上,却一用就废。

这合理吗??

为了真实检验模型数学推理能力,上海人工智能实验室司南OpenCompass团队放大招了。

推出新的复杂数学评测集LiveMathBench,以全新性能指标G-Pass@16来连续评估模型的性能潜力和稳定性。

好家伙!团队在模拟真实用户使用采样策略、重复多次评测大模型的数学推理能力时发现:

大部分的模型平均会有五成以上的性能下降,即使是最强推理模型o1-mini也会下降3成6,更有模型直接下降九成。

具体咋回事儿下面接着看。

全新评价指标:G-Pass@k

而真实场景中,为了提高回复的多样性,模型往往使用采样解码的方式进行推理,这也会带来大量的随机性。在复杂推理任务中,这种随机性会严重影响模型的性能,而用户更预期在真实问题中,模型能又稳又好。

Pass@k指标回顾

兼顾性能潜力与稳定性的评测指标G-Pass@K

Pass@k体现了模型的性能潜力,却不能体现模型的稳定性,基于这一目的团队将Pass@k推广为GeneralizedPass@k(以下简称G-Pass@k)。

一般来说,认为模型的每次生成是i.i.d.(IndependentandIdenticallyDistributed)的,那么模型给出的正确答案数服从二项分布,这可以通过超几何分布逼近二项分布。基于此,可以得出G-Pass@k的定义:

在较小时,G-Pass@k衡量模型的性能潜力;较大时,G-Pass@k衡量模型的稳定性,或者说模型对于问题的掌握程度,因此研究者可以通过G-Pass@k连续地观察模型的性能潜力与稳定性。

进步地,研究团队还定义了mG-Pass@k用于对模型的性能进行整体观测。

具体来说,mG-Pass@k是—G-Pass@k曲线下的面积,为了更好地模拟真实场景,团队重点考虑[0.5,0.1]的情况,即:

G-Pass@K是Pass@K是泛化形式

当·=1时,Pass@K是G-Pass@k等价,这意味着Pass@K是G-Pass@k的特例,读者可以参考论文附录提供的证明。

研究团队给出了两者关系的对比分析,如下图所示:

图中展示了不同的和c下Pass@K和G-Pass@k的值,可以看出在较小时,两者反映的是模型的潜力,然而这种分数可能是偏高的,在24/80的整体通过率下,Pass@K指标的值可以接近80%。

LiveMathBench:避免数据污染的复杂数学评测集

研究团队构建了一个新的benchmarkLiveMathBench用于验证实验。

具体来说,他们收集了最近发布的中国数学奥林匹克,中国高考最新模拟题,美国数学竞赛和美国普特南数学竞赛中最新的题目,尽量减少数据污染的可能性。

整个LiveMathBench(202412版本)包括238道题目,每个题目提供中文/英文两个版本的题目,覆盖不同的难度。研究团队计划后续持续更新LiveMathBench中的题目,来持续观测LLM的真实数学水平。

另外,研究团队还在两个公开BenchmarkMATH500和AIME2024上进行了实验。

对于MAH500,研究团队选择了难度为L5的题目,命名为MATH500-L5;对于AIME2024,研究团队使用了Part1和Part2两个部分全部45道题目,命名为AIME2024-45。

实验

在实验设置方面,对于每道题目,进行了16*3=48次生成并报告G-Pass@16分数。研究团队在通用模型、数学模型和类o1模型三种不同类型的大模型中选择了具有代表性的大模型进行实验。

LiveMathBench性能对比如下:

根据实验结果,可以看到:

Math-500-L5/AIME2024-45性能对比如下。

对于开源数据集:

最后,模型在不同难度题目上的能力分析如下。

其中CCEE代表中国高考题目,主要涉及到基础的高中数据知识;而WLPMC代表来自普特南(Putnam)竞赛的题目,普特南竞赛是久负盛名的美国大学生数学竞赛,其题目难度要高于高考题目。

由实验结果可以看出,先进的推理模型,例如DeepSeek-V2.5,Qwen2.5-72B-Instruct,QwQ等在Pass@16指标下在两个子集上都有较好的性能,但大部分模型在WLPMC上的稳定性下降更为严重。

重要观测

观察一:闭源和开源模型均不能稳定地进行复杂推理

研究人员对当前主流的约20个模型进行了测试,发现尽管多数模型在贪婪解码的准确率GreedyAccuracy和Pass@16上表现相对较好,但当使用G-Pass@K指标进评估时,性能却显著下降。

当设置为1.0时,即要求模型在所有16次采样中都提供正确答案,几乎所有模型的表现都急剧下降。

例如,在对LiveMathBench的测评中,Llama-3.1-8B-Instruct模型的准确率从18.1%下降到0.8%(G-Pass@16=1.0),降幅高达95.7%。即使是较大的模型,如NuminaMath-72B-CoT,其准确率也从34.45%下降到3.7%,减少了89.3%。

在大约20个测试模型中,平均性能下降了60%。即便是表现最为稳定的OpenAIo1-mini,其准确率也从66.5%下降到42.0%,降幅为36.9%。

即使将放宽到0.5,即只要求一半的样本正确即可通过,通用模型、数学推理模型和o1-like模型仍分别经历了14.0%、22.5%和4.8%的平均性能下降。

这表明,在复杂条件下,多数模型难以在多次采样中保持一致的推理能力。

不过目前的评估指标通常依赖单次贪婪解码,可能无法充分反映这些模型在实际应用中的鲁棒性和稳定性。

因此,研究团队指出,需要对模型的推理能力进行更严格的评估,尤其是在那些需要在多次采样中保持一致性和可靠性的重要应用中。

观察二:增大模型规模对推理能力的提升有限

研究人员观察到,以同系列模型Qwen2.5-32B-Instruct与Qwen2.5-72B-Instruct为例,虽然它们的模型规模相差一倍以上,但无论指标采用G-Pass@K还是GreedyAccuracy,无论评测数据集是最新的LiveMathBench还是现有开源数据集,两者的表现均相似。

另外,在更大体量的模型Mistral-Large-Instruct-2411(123B)上,尽管模型规模继续增大,但其性能和稳定性相比Qwen2.5-72B-Instruct却出现下滑。

这表明,对于需要深度理解和逻辑推理的任务,简单增大参数并不能显著提升性能或稳定性。

这可能是因为这些任务不仅需要模型具备记忆和模式识别能力,更需要强大的推理和上下文理解能力。

观察三:模型的性能潜力和实际表现之间的巨大差距

研究团队在评估模型性能时发现,理论最大能力G-Pass@16→0、实际表现能力GreedyAccuracy和多次采样下的稳定能力G-Pass@16=1.0之间存在显著差距。

尽管模型在理论上具备相当高的潜在性能,但在实际应用中未能充分展现这一水平,尤其是在输出稳定性方面。一些模型在单次贪婪解码中表现出高准确率,显示出处理特定任务的潜力,但在保持一致高准确率方面却不稳定,远未达到最佳性能。

这反映了现有模型在推理稳定性和一致性上的不足,这在训练和评估中常被忽略。

模型在单次推理表现中易受输入数据变化、初始化状态或随机采样的影响,导致不同采样解码的结果不一致。

研究人员指出,在高可靠性和一致性要求的实际应用中,如何在保持接近最佳性能的同时确保输出的稳定性,是一个亟待解决的问题。

总结

本研究深入分析了当前大型模型的数学推理能力,提出了全新的性能指标G-Pass@16,用于连续评估模型的性能潜力和稳定性。

此外,还设计了避免数据污染的LiveMathBench数据集。

实验结果显示,目前的大型模型在推理性能方面未达到预期,尤其在多次重复采样时,性能出现显著下降。研究团队期望学术界和工业界能够在推理能力的鲁棒性研究上持续探索与推进。

THE END
1.我校入选教育部人工智能助推教师队伍建设试点典型案例华大在线讯(通讯员陈敏)12月11日,教育部教师工作司公布了34个人工智能助推教师队伍建设试点典型案例,我校“人工智能赋能教师数字素养测评与教育教学创新探索”案例成功入选。 2021年,教育部启动第二批人工智能助推教师队伍建设行动试点工作,旨在深入推进人工智能等新技术与教师队伍建设的融合,推动教师主动适应信息化、人工https://www.ccnu.edu.cn/info/1073/39201.htm
2.预算490万华中师范大学采购可见分光光度计等项目基本情况 项目编号:校内编号:HSAWT01-20240376;校外编号:ZQLY-DL-20241106CG 项目名称:2024年度华中师范大学非线性SHG和Z扫描测试系统等设备购置 预算金额:490.000000 万元(人民币) 最高限价(如有):490.000000 万元(人民币) 采购需求: 序号 货物名称 单位 数量 预算总价(元) 是否接受进口产品 是否为核心产品 Ahttps://www.gbdrpofuw.com/plc/402648.html
3.武汉教育云例如,在探讨AI对未来职业影响的话题时,生成不同职业场景中AI应用的对比图像,如传统医生诊疗与AI辅助诊疗、传统教师授课与智能教育平台教学等场景对比图。各小组可围绕这些图像展开讨论,分析AI给不同职业带来的机遇与挑战,促进学生之间的思想碰撞与交流。 (2)互动游戏设计基础 https://www.wuhaneduyun.cn/index.php?r=space/person/blog/view&sid=7221684a489f11eeb0580203153e4894&id=1617394187
4.华师网院《线性代数》练习测试题库及答案.doc大华师网院《线性代数》练习测试题库及答案.doc,华中师范大学网络教育学院 《线性代数》练习测试题库及答案 一.选择题 1、 ( B ) A. B. C. 2、n阶行列式 ( B ) A. B. C. 3、=( B ) A. B. C. 4、 是n阶方阵,m, l是非负整数,以下说法不正确的是 ( C ) . A. B. C. 5https://max.book118.com/html/2014/0226/6140618.shtm
5.教育学考研科目时间顺序(精选13篇)教育学专业基础综合:考试涵盖教育学原理、中外教育史、教育心理学和教育研究方法等学科基础课程。要求考生系统掌握上述教育学学科的`基本理论、基本知识和基本方法,能够运用所学的基本理论、基本知识和基本方法分析、判断和解决有关理论问题和实际问题。 篇2:教育学考研科目时间顺序 https://www.360wenmi.com/f/filextx0f1f2.html
6.王彬彬张旻嵩+线性代数练习册张旻嵩张金玲华中师范大学正版图书 可开发票 如需帮助请联系在线客服 作者:王彬彬 张旻嵩 张金玲出版社:华中师范大学出版社 手机专享价 ¥ 当当价 降价通知 ¥37.55 定价 ¥37.55 配送至 陕西西安市 至 北京市东城区 服务 由“状渊文化图书专营店”发货,并提供售后服务。 http://product.dangdang.com/11875240759.html
7.大中专教材网大学英语方健 计算机中的数学 食用菌栽培学 线性代数A(此书是新书 ISBN:978-7-5624-9693-9 简明中国民航 无形资产评估 计量统计学 机械制造基础 公务员会计信息系统第8 公共管理 报关理论与实务 高分子材料工程专业英语 金属工艺学 智能仪器 小学社会教学 社会心理学第四版 中国书画 国际货运代理实务 spring http://dzz.gdtopbook.com/front/about/agreeBack.jsp
8.齐鲁师范学院招生信息网教师专业发展、教育政策法规、教育科研方法、教师语言、教师书写、微格教学、课堂教学实训、基础英语、英语视听说、小学语文课程标准解读和教材研究、小学语文教学设计、古代汉语、现代汉语、儿童文学、高等数学、空间解析几何、线性代数、小学数学课程标准解读和教材研究、小学数学教学设计、小学科学课程与教学、小学英语课程与http://qlnuzs.university-hr.com/showarticle_zs.php?actiontype=0&id=402
9.混合式翻转课堂12篇(全文)[1]陈瑞增.信息化环境下高校混合式学习探索与实践[D].华中师范大学,2014. [2]张其亮,王爱春.基于预习问题等分门别类地上传至网络平台的不同模块, 通过在线测试、在线练习等帮助学生自我检测、自我反馈罗伯特.陶伯特 (Talbert, 2011) 结合自己线性代数课程的教学实践, 总结了翻转课堂的实施过程和环节, https://www.99xueshu.com/w/ikeyoy4ylncp.html
10.“新工科”背景下线性代数视频精品课程建设探索1朱琳;基于发生教学法的线性空间概念的教学研究[D];华东师范大学;年 2程光辉;大型稀疏线性代数系统迭代解法研究[D];电子科技大学;年 3苏醒;高性能稠密线性代数数学库关键技术研究[D];国防科技大学;年 4沈海龙;线性代数系统迭代解法与预条件方法研究[D];东北大学;年 https://www.cnki.com.cn/Article/CJFDTotal-CYYT201824105.htm
11.2025年福建自学考试理论课程使用教材目录00051 管理系统中计算机应用 管理系统中计算机应用 周山芙、赵苹 外语教学与研究出版社 2012年版 0005802202 传感器与检测技术 工程测试技术基础(第二版) 张春华、肖体兵,李迪 华中科技大学出版社 2023年版04184 *线性代数(经管类) 线性代数(经管类) 刘吉佑、刘志学 北京大学出版社 2023年版 04228 建设工程http://www.fjeb.cn/fjzkzcgglm/5126.html