在这个“多模态元年”里,AI展现了知识评估从单一文本向跨媒体认知与协同问题解决的进化趋势。于是,我们今年给AI的“高考大题”可不只是写作文而已。
文|王启隆
编|唐小引
出品丨AI科技大本营(ID:rgznai100)
一年一度的高考在大雨中掀开帷幕。今年语文考试的“新课标I卷”与人工智能有关,激发了广泛的社会讨论:有人认为人工智能是“超纲”问题,因为不是所有学生都用过AI产品;有人认为这就是标准的议论文问题,“soeazy”。。
但是先等等——2024年的AI,已经不需要人类手打文字问题啦!今年的AI圈热词一直都是“多模态”,所以我们将直接把图丢给这八款主流大模型,让它们从“读题”这一步开始进行全方面考验。
而且,目前官方的数学真题还没正式放出,只有网络上流传的“手写版试卷”,所以,我们的测试内容也将是这些“超糊手写拍屏”,看看当前大模型的多模态能力是否能准确识别出这些模糊的字迹,以下便是我们将提交给AI的「2024数学压轴大题」:
如果你没看清这张图上的字,请以下面这张高清大图作为参考:
对于接下来挑战视觉识别失败的大模型,我们也会给它们提供这张高清图片,让它们进行补测作为更基础的图片识别与数学能力方面的考验(全程还是不会输入文字题目,只有图片)。
话不多说,马上开始。
温馨提示:挑战内容仅供娱乐,不能代表大模型能力上限!
通义千问
通义千问首先认出了这是道「等差数列」的问题,顺带确认了题目中提到的「可分数列」是什么。
然后,通义千问开始逐步给出每一小题的答案:
讯飞星火
下一位闯关者是科大讯飞旗下的讯飞星火,而星火AI则是先将自己的解题思路梳理了一遍:
讯飞星火居然记得写“解”,值得称赞;但直接给出答案可以拿满这小题的全部分数吗?
第二小题写得非常长,希望星火的试卷上还有位置。
第三小题解的也很有模有样,你觉得星火写对了吗?
字节豆包
字节的豆包App里内置了一个非常显眼的「学习小助手」智能体,告诉我不用给她打字,只发张图就能解题,让我们试试:
豆包省略了第三小题的计算过程,请考生不要模仿。
Kimi智能助手
接下来是月之暗面的KimiChat,这款大模型以上下文长度著称,不知道面临数学压轴大题可以给出什么样的答案:
看来这份「超糊拍屏」还是难度不小,Kimi还将a4m+2也认成了am+2,但它依旧顶着压力给出了一些有用的解题建议。
既然Kimi主动要求我们提供更清晰的问题描述,那么接下来补测一轮,看看效果:
腾讯元宝
基于腾讯混元大模型的AI产品元宝App于5月30日发布,既然如此,我们就在移动端上看看它的表现如何:
百度文心一言
下一位接受挑战的是百度的文心4.0(目前最新版本为4.0),它给出了一份相当简单明了的解答,不知道阅卷老师会不会喜欢:
既然文心一言表示图片中的文本信息有限,那我们自然是给出更清晰的题目图片,看看它会如何作答:
智谱清言
智谱AI的ChatGLM-4也没能从这张模糊的图片里看出字来,但它也没有生成幻觉强加回答,而是让我们手动输入数学题目的具体内容。
既然你主动要求了,那我们也可以照做,试一下纯粹的数学测试会得到什么答案。ChatGLM给出了解题思路,并表示这道大题可以分为两个部分来解决:
让我们开始……枚举?
原来,它的枚举是通过代码生成实现的,这种思维确实非常的AI,但不适用于使用纸笔考试的高考考生。
以上是ChatGLM对后两个小题的回答,你会给几分呢?
百川百小应
5月22日,百川智能发布了最新一代基座大模型Baichuan4,同时推出了首款AI助手「百小应」。面对这张超模糊的“地狱级挑战”,百小应给出了一份幻觉。但在给出了高清的题目图之后,百小应进行了出色的解答:
彩蛋
号称“全能”的ChatGPT-4o表现如何?
今年OpenAI的几场发布会上,GPT-4o大秀了一把,还展示过辨认主持人的手写字迹的能力。这次的挑战内容其实理应是GPT-4o的强项,因为这是一个主打多模态能力的模型,其名字中的“o”正是“Omni”(全能)的意思。
4o首先将题目大意完整复述了一遍:
4o的第一步并不是直接开始解第一小题,而是理解所谓数列的特性究竟是什么:
紧接着是第一小题,4o直接画了个矩阵出来:
第二和第三小题,没有给出完整的解题过程,而是提供了解题思路:
但这可是考试,不给出完整过程怎么行呢?可惜在重试了几次之后,4o还是拒绝了我,“臣妾不干了”。
这事实上也是近期许多人发现的问题:GPT-4o的答案更快、更聪明,适合日常生活;但GPT-4-Turbo能生成更细致完整的内容。
最后,祝每一位考生在考场上镇定自若,思路清晰,每一道题都能迎刃而解。无论结果如何,这段奋斗的岁月都将化作人生中最宝贵的财富。