Kimi又上新!抢先实测视觉思考模型k1,甚至比o1更聪明数学推理化学伽利略kimi

国产大模型,正在引领AI技术新方向。

今天上午,月之暗面Kimi正式发布了视觉思考模型k1,并已经上线了最新版的网页版以及安卓和iOSAPP。用户只需要在对话框中输入@,然后选择「Kimi视觉思考版」即可开始自己的AI视觉推理之旅。这是继上个月k0-math发布之后,Kimi在推理模型上跨出的又一大步。

它是Kimi的首个视觉思考模型,在k0-math的基础上,k1的推理能力不仅大大提升,还突破了数学题的范围,进入了更广阔的天地。

据介绍,k1模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代k1模型的表现超过了全球标杆模型OpenAIo1、GPT-4o以及Claude3.5Sonnet。

此外,k1的图像理解能力还可以解决之前kimi数学推理模型k0-math无法解决的许多几何图形问题。在基础教育各阶段的几何和图形题专项基准能力测试中,k1-preview成绩打平或超过了OpenAl的o1模型。

除了推理能力大幅提升,k1的强大视觉能力也值得称道。它可以识别各种真实的拍题场景,处理各种复杂的状况,比如照片图像不清晰、多题一起拍、手写字迹干扰,甚至纯手写的题目。

更重要的是,k1的强大推理能力与视觉能力还以一种端到端的方式组合到了一起,这意味着我们可以直接理解用户输入的图片信息并进行深度推理,而不像之前的多阶段方法那样容易出现信息丢失的问题。

这种视觉能力和推理能力的端到端有机结合范式带来了显著的收益,让k1在真实应用场景中的性能相比于OpenAl和Anthropic的视觉模型有了大幅提升:在仿真环境中的初级和高级的数学、物理、化学题目上,k1的最低正确度分数(38.7/高级物理)也显著高于OpenAl和Anthropic的视觉模型的最高分数(32.0/高级化学)。

此外,k1还展现出了其它一些涌现能力,包括古代文献分析、梗图理解、基于照片推断地点等等。这些涌现能力大大提升了k1在日常生活中的实用性。

k1的分数表现着实不错,实际表现如何呢?下面我们直接略过官方示例,亲自动手检验一下k1的真实世界能力。

从做题到梗图理解:

k1将强大视觉推理带入日常生活

现在,我们在最新版手机APP或网页版Kimi+页面上找到「Kimi视觉思考版」,即可拍照或传图体验。

Round1:数学题

我们在网上找到了一个手写的高中数学题来检验Kimik1的视觉和数学推理能力。

图源:YouTube题中说题

龙飞凤舞的手写题目让k1「费了些功夫」,不过最终还是得到了正确答案:

有意思的是,k1在解答这个数学题的过程中还展现出了一定的反思能力。

Round2:物理题

我们又找了一道高一物理题。正确答案选C。

k1不仅可以用正确的方式完成任务,还完整展示了推理思维链CoT,让我们不只看到答题结果,也能完整看到模型思索答案的全过程。

Round3:辅助学习化学

测了数学和物理题,化学自然也不能错过。这一次我们不暗示任何背景信息,直接给出图示,看看k1的表现如何。

结果可以说是有点惊喜了。

我们还进行一些稀奇古怪的测试。比如让它识别不熟悉的瓜果蔬菜、解读看不懂的梗图以及分析古代文献等。

Round4:不熟悉的水果

下图展示的奇葩水果名为刺角瓜,又被称为非洲角瓜、火参果等。

把它「喂」给k1进行识别。k1很快就判断出这是非洲角瓜,但又经过一番反思,推翻之前的答案,最终猜出是火参果。

火参果和非洲角瓜本是同一种水果的不同称呼,因此我们继续提问:火参果是非洲角瓜吗?

这次,k1经过6步推理和验证,终于给出正确答案。

Round5:看不懂的梗图

当初苹果推出iPhone16时,网友拿这张梗图来嘲讽苹果创新「挤牙膏」,iPhone16和iPhone15几乎没啥太大的区别。

对于微妙的谐音和双关语梗,k1也能相当出色地把握。

k1准确地理解了这张图背后多层趣味,比如通常推崇简朴的僧人在喝与现代性密切关联的咖啡所形成的反差感、咖啡因来自咖啡果以及佛教因果观的微妙联系。

Round6:古代文献分析

此外,我们还让其做了进一步的原理解析。

实测下来,我们发现,k1的整体表现确实超出了我们的预期。另外,如果明确指示k1「一步步地」执行分析或推理,k1往往能够发挥自己的更大实力。感兴趣的用户在实际使用时可不要忘记这个小技巧。

大模型的下个方向:

强化学习Scaling

大模型的未来应该走哪个方向?现在或许已经到了不得不做抉择的分叉口。

在月之暗面看来,规模的扩展是支撑AI技术在过去几年里发展的重要因素,但Scaling并不只意味着模型的体量,现阶段应该寻找新的有效扩展方向。

月之暗面选择的方向是基于强化学习来扩展。如果说大模型基本的预测下一token方式具有一定的局限性,只基于静态数据集无法探索较复杂的任务,那么加入强化学习的预测则可以在思考过程中生成更多数据,并实现思考能力的提升。

从模型训练的角度看,k1视觉思考模型的训练分为两个阶段:先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。在强化学习规模化(scaling)上取得的突破,是k1取得行业领先成绩的关键原因。

在数学这样的场景中,新形态的AI模型可以通过不断试错验证「积累经验」,在不用和外界交互的情况下锻炼思考能力。就像人类在遇到难题时,先分析问题、探索不同的解决方案、尝试各种方案、反思,不断改进策略的方式一样,基于强化学习技术的新一代模型,通过激励模型生成更详细的推理步骤,可以形成高质量的思维链CoT,显著提升了解决更复杂、更难任务的成功率。

基于强化学习的「思考模型」,未来或许还能给我们带来更加强大的交互体验。

THE END
1.404,您访问的页面已经不存在!您访问的页面不见了!3秒后您将去搜狐首页设置首页 - 搜狗输入法 - 支付中心 - 搜狐招聘 - 广告服务 - 客服中心 - 联系方式 - 保护隐私权 - About SOHU - 公司介绍 Copyright ? 2016 Sohu.com Inc. All Rights Reserved. 搜狐公司 版权所有 违法和不良信息举报电话:86-10-58511234 举报邮箱:jubao@https://www.sohu.com/a/840172833_122163920
2.高仿包包徽可加hyhyk1好,一千多买高仿原单LV包包好吗?需要了解关于“高仿包包徽可加hyhyk1好 ,一千多买高仿原单LV包包好吗?”的问题请加下面奢侈大牌包包厂家微信咨询,他是专注各种顶级奢侈大牌包包的厂家,主营各种大牌男女包包批发|招代理|以及终端零售。 下面给大家讲解“高仿包包徽可加hyhyk1好 ,一千多买高仿原单LV包包好吗?”的知识,本站信息仅供大家参考哦! http://www.d1caa.com/news-id-37666.html
3.北京网站设计引流微信hyhyk1/网站排名英文北京网站设计引流微信hyhyk1,网站排名英文,深圳网站建设html5,服务类型的网站怎么做Wix打包系列(四) 自定义UI 原文:Wix打包系列(四) 自定义UI 除了标准的安装界面,如果我们要在安装时需要提供一些额外的信息时,这时就需要自定义界面来显示和录入这些信息。 4.1 自定义对话框 如上一章中我… http://www.dwpp.cn/news/258157.html
4.某品牌休闲零食网站建设规划书/网络营销推广微信hyhyk1效果好某品牌休闲零食网站建设规划书,网络营销推广微信hyhyk1效果好,宿迁宿豫区疫情最新消息,广告网站建设与制作在我们编写RN代码的时候经常会出现一个错误,undefined is not an object(evaluating this.refs ). undefined is not an object错误,提示我们未知的对象,该句话的含义就是我们没有定义该对象。但是this就是当前http://www.bzqy.cn/news/80767.html
5.动态网站开发设计思路/网络营销推广微信hyhyk1效果好动态网站开发设计思路,网络营销推广微信hyhyk1效果好,虚拟主机安装宝塔面板,微博如何做外链到时自己网站最新iOS 12.1系统,self.hidesBottomBarWhenPushed YES,tabBar发生闪动 设置为不透明就行了。[[UITabBar appearance] setTranslucent:NO]; Swift 中: UITabBar.appearance().isTranslucent false http://www.lhtj.cn/news/295165.html
6.微信网站开发平台/网络营销推广微信hyhyk1效果好微信网站开发平台,网络营销推广微信hyhyk1效果好,网站建设方案书范本,设计师网上接单被骗1. 小范围的选择一些有用技术,透彻的学习它们,拥抱它们。然后不断的扩展这个范围。2. 理解各种数据结构的优点和缺点,包括它们在内存中和在硬盘上的各自表现。3. 理解各种算法的优点和缺点。4. 了解你的工作领域。关上电脑,http://www.nhpp.cn/news/217567.html
7.可靠的专业网站建设/网络营销推广微信hyhyk1效果好可靠的专业网站建设,网络营销推广微信hyhyk1效果好,营销型网站建设 兼职,一个手机app开发需要多少钱.NET的不同版本中,有很多方法是新加的,而且是以扩展方法的形式来呈现,但我们会发现引用的命名空间并没有增加,请看下图。 这样,在我们使用扩展方法的时候,不并不觉得是扩展方法,而是相当于实例中… http://www.jmfq.cn/news/309025.html
8.北京网站设计引流微信hyhyk1/进入百度搜索首页北京网站设计引流微信hyhyk1,进入百度搜索首页,wordpress积分代码,变更网站做推广需要备案MySQL 等数据库客户端软件市面上非常多了,别的栈长就不介绍了, 其实 IntelliJ IDEA 自带的数据库工具就很牛逼,不信你继续往下看。 本文以 IntelliJ IDEA/ Mac 版本作为演示,其他版本的应该也差距不大! 1、打开数据库… http://www.xcmm.cn/news/9055.html
9.熊胆粉推广微信hyhyk1微信推广传播易熊胆粉推广微信hyhyk1 传播易,整理了熊胆粉推广微信hyhyk1相关的信息内容,后续将为您持续更新丰富、全面的关于熊胆粉推广微信hyhyk1的最新资讯和熊胆粉推广微信hyhyk1的价格信息,让您第一时间了解到关于熊胆粉推广微信hyhyk1的热门信息,在选择熊胆粉推广微信hyhyk1时更高效。https://www.tmtcd.com/pages/261220.html
10.商标注册网站缴费入口大连seo外包公司永久免费手机建站徐州做网站费用淄博网站搭建公司宁波网站优化方案宁波建站模板源码外贸自建站类型北京网站设计 公司新鸿儒西安做网站公司哪个好优购物官方网站app怎么进入微信官方网站东营wordpress网站建设石家庄网络公司哪家最靠谱企业seo顾问公司广西建设网站官网兰州网络推广徽hyhyk1集团网站模板一个静态网站多少钱泉州手机端建站模板长沙建一个网http://www.zlkl.cn/zlkl/654926.html