国产大模型,正在引领AI技术新方向。
今天上午,月之暗面Kimi正式发布了视觉思考模型k1,并已经上线了最新版的网页版以及安卓和iOSAPP。用户只需要在对话框中输入@,然后选择「Kimi视觉思考版」即可开始自己的AI视觉推理之旅。这是继上个月k0-math发布之后,Kimi在推理模型上跨出的又一大步。
它是Kimi的首个视觉思考模型,在k0-math的基础上,k1的推理能力不仅大大提升,还突破了数学题的范围,进入了更广阔的天地。
据介绍,k1模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代k1模型的表现超过了全球标杆模型OpenAIo1、GPT-4o以及Claude3.5Sonnet。
此外,k1的图像理解能力还可以解决之前kimi数学推理模型k0-math无法解决的许多几何图形问题。在基础教育各阶段的几何和图形题专项基准能力测试中,k1-preview成绩打平或超过了OpenAl的o1模型。
除了推理能力大幅提升,k1的强大视觉能力也值得称道。它可以识别各种真实的拍题场景,处理各种复杂的状况,比如照片图像不清晰、多题一起拍、手写字迹干扰,甚至纯手写的题目。
更重要的是,k1的强大推理能力与视觉能力还以一种端到端的方式组合到了一起,这意味着我们可以直接理解用户输入的图片信息并进行深度推理,而不像之前的多阶段方法那样容易出现信息丢失的问题。
这种视觉能力和推理能力的端到端有机结合范式带来了显著的收益,让k1在真实应用场景中的性能相比于OpenAl和Anthropic的视觉模型有了大幅提升:在仿真环境中的初级和高级的数学、物理、化学题目上,k1的最低正确度分数(38.7/高级物理)也显著高于OpenAl和Anthropic的视觉模型的最高分数(32.0/高级化学)。
此外,k1还展现出了其它一些涌现能力,包括古代文献分析、梗图理解、基于照片推断地点等等。这些涌现能力大大提升了k1在日常生活中的实用性。
k1的分数表现着实不错,实际表现如何呢?下面我们直接略过官方示例,亲自动手检验一下k1的真实世界能力。
从做题到梗图理解:
k1将强大视觉推理带入日常生活
现在,我们在最新版手机APP或网页版Kimi+页面上找到「Kimi视觉思考版」,即可拍照或传图体验。
Round1:数学题
我们在网上找到了一个手写的高中数学题来检验Kimik1的视觉和数学推理能力。
图源:YouTube题中说题
龙飞凤舞的手写题目让k1「费了些功夫」,不过最终还是得到了正确答案:
有意思的是,k1在解答这个数学题的过程中还展现出了一定的反思能力。
Round2:物理题
我们又找了一道高一物理题。正确答案选C。
k1不仅可以用正确的方式完成任务,还完整展示了推理思维链CoT,让我们不只看到答题结果,也能完整看到模型思索答案的全过程。
Round3:辅助学习化学
测了数学和物理题,化学自然也不能错过。这一次我们不暗示任何背景信息,直接给出图示,看看k1的表现如何。
结果可以说是有点惊喜了。
我们还进行一些稀奇古怪的测试。比如让它识别不熟悉的瓜果蔬菜、解读看不懂的梗图以及分析古代文献等。
Round4:不熟悉的水果
下图展示的奇葩水果名为刺角瓜,又被称为非洲角瓜、火参果等。
把它「喂」给k1进行识别。k1很快就判断出这是非洲角瓜,但又经过一番反思,推翻之前的答案,最终猜出是火参果。
火参果和非洲角瓜本是同一种水果的不同称呼,因此我们继续提问:火参果是非洲角瓜吗?
这次,k1经过6步推理和验证,终于给出正确答案。
Round5:看不懂的梗图
当初苹果推出iPhone16时,网友拿这张梗图来嘲讽苹果创新「挤牙膏」,iPhone16和iPhone15几乎没啥太大的区别。
对于微妙的谐音和双关语梗,k1也能相当出色地把握。
k1准确地理解了这张图背后多层趣味,比如通常推崇简朴的僧人在喝与现代性密切关联的咖啡所形成的反差感、咖啡因来自咖啡果以及佛教因果观的微妙联系。
Round6:古代文献分析
此外,我们还让其做了进一步的原理解析。
实测下来,我们发现,k1的整体表现确实超出了我们的预期。另外,如果明确指示k1「一步步地」执行分析或推理,k1往往能够发挥自己的更大实力。感兴趣的用户在实际使用时可不要忘记这个小技巧。
大模型的下个方向:
强化学习Scaling
大模型的未来应该走哪个方向?现在或许已经到了不得不做抉择的分叉口。
在月之暗面看来,规模的扩展是支撑AI技术在过去几年里发展的重要因素,但Scaling并不只意味着模型的体量,现阶段应该寻找新的有效扩展方向。
月之暗面选择的方向是基于强化学习来扩展。如果说大模型基本的预测下一token方式具有一定的局限性,只基于静态数据集无法探索较复杂的任务,那么加入强化学习的预测则可以在思考过程中生成更多数据,并实现思考能力的提升。
从模型训练的角度看,k1视觉思考模型的训练分为两个阶段:先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。在强化学习规模化(scaling)上取得的突破,是k1取得行业领先成绩的关键原因。
在数学这样的场景中,新形态的AI模型可以通过不断试错验证「积累经验」,在不用和外界交互的情况下锻炼思考能力。就像人类在遇到难题时,先分析问题、探索不同的解决方案、尝试各种方案、反思,不断改进策略的方式一样,基于强化学习技术的新一代模型,通过激励模型生成更详细的推理步骤,可以形成高质量的思维链CoT,显著提升了解决更复杂、更难任务的成功率。
基于强化学习的「思考模型」,未来或许还能给我们带来更加强大的交互体验。