大模型玩你画我猜:Claude6局3胜,GPT4o表现迷惑

一群大模型玩你画我猜,人类一旁围观超起劲儿。

就像下面这张图展示的,由Grok画长颈鹿,一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。

其实这是最近爆火的一种新的测试基准(doge)。

游戏结果一定程度上能反映出大模型能力,比如这组测试一共进行了6局游戏,表现最好的是Claude:它赢了3次!

GPT-4o表现有点抽象。就它画的这龙卷风,人类也看不懂。

不止如此,在很多轮游戏中,其他模型都在认认真真地答题,而它的第一个回答经常是Circle??有点子抽象。

所以有人就说,这游戏可以当测试基准来用啊。

还有人表示,AI照这个速度发展,人类就只能当围观的瓦力了。

来看看更多有趣的例子

在比较简单的题目上,所有模型都在一两个回合中就猜对了答案,比如下面的房子:

还有非常简洁的草地、海洋:

动物主题相对复杂一些,模型们一般需要猜4-5轮,比如大象这题:

游戏整体效果非常棒,网友们也是好评如潮:

你画我猜项目起源

模型画画早已不是新鲜事,但让大模型玩你画我猜?这天才想法是怎么产生的?

首先,不得不提到SimonWillison的一次测试,他让所有模型绘制自行车上有一只鹈鹕主题的图像,然后进行效果对比。

随后PaulCalcraft看到测试,他产生了一个想法:这样一个个比对太慢了,效果也不好,既然都画同一个主题,为什么不让大模型玩你画我猜的游戏呢?

没想到这位小哥说干就干,1天后就发布了“你画我猜”的0.0.1版(这令人羡慕的执行力)。

游戏中,他设定回答的模型每2秒猜测一次,回答更快的模型会更快返回答案。

网友评价褒贬不一

不少网友表示,之前大模型在《我的世界》里面比赛盖楼,令人印象深刻,而你画我猜可能成为新的视觉benchmark!

还有人热心地提出了优化建议,比如以答对互相题目的速度作为评分准则,或者加入人类成绩作为参考。

还有人提议将游戏变成对抗式训练,这样大模型会进步更快。

不过,抛去趣味性,也有网友持负面观点,表示不理解这个项目的意义。

有网友调侃说,这个游戏的作用就是成为未来AI考古时的文物,帮助它们了解自己的起源。

好嘛,咱们AI有自己的洞穴壁画(doge)。

不过,游戏化学习(Learningthroughplay)其实是教育理论和心理学中的一个重要术语。

多位网友表示,小孩子也是通过玩游戏来提升智力、学习技能的,或许这可以成为训练大模型的新方式。

虽然这次只有6轮游戏,参与的模型也有限,但确实是一次很有趣的实践。

作者PaulCalcraft也表示会继续更新这个游戏,包括分数显示、更多的游戏主题等等,期待更多后续!

THE END
1.人工智能的螺旋式发展历程腾讯云开发者社区人工智能的历史自1956年开始至今,已经有66年的历史。世界人工智能历史可分为三个阶段,从1956年至1976年是人工智能的第一个发展阶段,1976年至2006年是第二个发展阶段,而2006年至今则是人工智能的第三个发展阶段。 图片 人工智能发展的三次浪潮 人工智能典型任务和应用包括机器定义证明和机器翻译。机器翻译是人工智能https://cloud.tencent.com/developer/article/2477038
2.iEnglish;让学习回归教育的本质美美国教育家拉塞尔·L·阿克夫和丹尼尔·格林伯格认为,在后工业化时代,未来中国教育不再需要提供为工业企业社会服务的、驯良的、标准化的产品,而需要与学生时代不断发展相契合的教育,需要一个具有良好个性和创造力的新型技术人才和创新型学校。 相较于传统教育形式,具备游戏属性的教育活动,能够明显帮助学习者掌握某些技https://zhuanlan.zhihu.com/p/12428441555
3.大学英语学习共同体(精选十篇)组合课程注册(Co-registration)是美国高等教育中学习共同体的一种常见模式,在这种模式中,学生可围绕同一主题(Theme)注册一系列相关课程[10],如写作、文学与社会热点问题便是一组相关课程。 网络学习共同体(Online learning community)为学习者之间,学习者与教师之间提供一种虚拟交流的平台。Palloff和Pratt指出了网络学习https://www.360wenmi.com/f/cnkeyg2p08i2.html
4.教师国编考试试题6篇(全文)9.--Are you interested in shopping online ?--No, so muchu..We A see real products but pictures.A.can’t B.shouldn’t C.mustn’t D.needn’t 10.--Would you mind my sitting her ,sir?--C It’s for my wife.A.Not at all B.Certainly not C.I’m of raid you can’t D.All https://www.99xueshu.com/w/fileilgksp9r.html
5.游戏+人工智能AI如何影响我们的未来:(一)电子游戏与人工智能相生本章节将回顾人工智能与电子游戏相生相伴的历史,并将其划分为起源时期、发展时期和黄金时期。通过对其历史脉络的梳理,可以看到人工智能发展中的里程碑事件,大多都与电子游戏有关。 1.1起源时期:人工智能与电子游戏的诞生 20世纪50年代至60年代,属于游戏人工智能研究的起源时期。在此期间,开始出现了对于人工智能的早期研究https://blog.csdn.net/tysonchiu/article/details/135329746
6.ofinnovationstudies,thelearningpathwaysapproachpaysorigins of emerging energy technologies, and relatedly, the different learning styles involved in their development. By describing a small number of archetypic 在这`之内针对可比性’创新研究小河,学习的路方法给予特护对涌现的能量技术的不同的社会技术适当位置起源,和relatedly,在他们的发展介入的不同的学习http://eyu.zaixian-fanyi.com/fan_yi_13374327
7.基于YOLOv5与EWC的增量目标检测(62页)的发生,而增量学习(IncrementalLearning/ContinueLearning/OnlineLearning) 正好是解决模型在增量学习过程中发生“灾难性遗忘”的算法,将目标检测 算法与增量学习算法结合,则能实现本研究的目的——增量式目标检测。 1.1研究内容与创新点 目标检测的飞速发展催生了一大批依赖于该技术的应用,包括实例分割、 姿态检测、人体检https://m.book118.com/html/2024/0117/8103017134006026.shtm
8.ResearchProgressofDeepOpticalFlowEstimationCombining the deep learning model to compute end-to-end optical flow is a hot topic in current computer vision field. The optical flow estimation methods based on deep learning are summarized and reviewed. Firstly, the origin and concept of optical flow is introduced. Secondly, the optical flowhttps://www.sciengine.com/doi/10.3724/SP.J.1089.2021.17931
9.社会临场理论应用领域的演变及展望Itisfoundthatthecommunicationfieldissocialpresencetheory'sbirthplaceanditsearliestapplication field.Later,itgraduallyexpandedintothefieldofonlinelearninganditsapplicationinthisfieldisrelatively mature.Thee-commerceisarisingstarinallapplicationfields, anditsapplicationinhuman-computerinter- actionisenduringandhasabetterhttp://jirm.whu.edu.cn/jwk3/xxzyglxb/CN/article/downloadArticleFile.do?attachType=PDF&id=5173
10.临床医学网络教育范文为适应我国社会经济的发展与进一步深化医药卫生体制改革,高等专科临床医学专业的培养目标是应培养具有基层医生岗位职业素质,掌握临床医学基本知识和技能,具备融临床诊疗、疾病预防、保健、疾病康复、计划生育及健康教育为一体的基层卫生工作的能力,能够在基层医疗卫生机构(农村、城镇社区卫生服务站等)开展医疗卫生服务的实用性https://www.youfabiao.com/haowen/38512.html
11.哲学D'Herblay[1] 在以下两节中,我将表明,罗蒂最近的进步观念与对进步的希望进一步发展、并且更好地表达了两个儒家的真理:(1)道德进步就是扩展那些能被视作“我们”的人的范围;(2)要取得这样的进步,我们不必采用道德普遍主义的立场,无论其是康德的模式还是墨家的模式。在接下来的另外两节,我将讨论孔子与罗蒂或许会有的https://dherblay.wordpress.com/category/%E5%93%B2%E5%AD%A6/
12.集智科学家张江解析:为什么复杂性需要深度学习?雷峰网导语:尽管复杂性科学一直在追求一大类终极问题的答案,如生命的起源、复杂性的起源等。但其实它的发展完全是研究方法驱动的。 雷锋网按:本文来自北京集智俱乐部。作者张江,北京师范大学系统科学学院副教授,集智俱乐部创始人、现任主席、集智科学家,腾讯公司腾云智库成员。 https://www.leiphone.com/category/ai/vIL4TmuDNHWiubjX.html
13.现代生物声学的学科发展趋势及中国机遇1988年创刊的Bioacoustics杂志为生物声学作为独 立学科发展提供了关键科学成果交流平台 (https://www.tandfonline.com/journals/tbio20) . 近 20 年来, 随着生物声学在生态学,环境科学研究和应 用中的重要性不断突显, 以声景生态学(soundscape ecology)为代表的生态声学等新兴交叉学科也逐渐 形成并得到了快速发展https://www.biodiversity-science.net/EN/article/downloadArticleFile.do?attachType=PDF&id=93190
14.learn怎么读这个单词I am learning to play the piano. 我正在学习弹钢琴。 We can learn a lot from history. 我们可以从历史中学到很多。 She learned to speak French by herself. 她自学了法语。 He learned about the new technology through online courses. 他通过在线课程学习了新技术。 It's important to learn from yohttps://agents.baidu.com/content/question/27a372c09911543973505e46
15.柡4髮W中文系/ProspectiveStudents/Information/InformationThe Department of Chinese Literature offers a diverse and comprehensive learning system, providing options such as double majors, minors, credit programs, integrated five-year bachelor's and master's degree programs, cross-school courses, and overseas exchange programs. These learning options enrich andhttps://chinese.thu.edu.tw/web/about/page.php?lang=en&scid=86&sid=178
16.国际超语研究主题述评5.2. 超语教学实践的发展方向:打破壁垒与深化合作 超语与语言政策息息相关,比如超语起源的背景就是威尔士语的语言振兴计划,Cen Williams 认为 语言学习者的双语能力提高是由于英语和少数族裔特有语言威尔士语的切换使用,从而便有了"超语" 一词最早的出现[4].随后 García 在美国建立于语言歧视教育政策的背景下对https://www.hanspub.org/journal/PaperDownload.aspx?paperID=59115
17.learning"learning"的词源"learning"的起源和意思古英语 leornung “学习,获得知识的行动”,是 leornian(见 learn)的动名词。意思是“通过系统学习获得的知识,广泛的文学和科学文化”始于14世纪中期。1907年出现了 Learning curve。相关词汇 learning learn (v.) 古英语 leornian 意为“获得知识,被培养; 学习,阅读,思考”,源自原始日耳曼语 *lisnojanan(同源词https://www.etymonline.com/cn/word/learning?ref=etymonline_crossreference
18.大规模在线教育育人嘲构建研究:逻辑架构与实践形态(一)场景理论的起源与发展 所谓场景是指人与周围环境的关系总和[5],最早应用于描述音乐、舞台剧、电影等艺术形式,后来拓展至泛文化领域研究。直至21世纪初,美国芝加哥大学(University of Chicago)社会学教授特里·克拉克(T.Clark)将这一概念引入城市社会学,并提出一套基本的学术研究范式[6-7],场景理论才得以形成。https://www.eduwest.com/html/2021/qianyanlingyu_0709/607.html
19.Logos是个希腊语词,指的是“意义”。意义疗法,或者某些学者所谓的D. The efforts by online security vendors. 查看完整题目与答案 石淋症见 A. 尿频、尿急、尿痛较剧,以刺痛、绞痛为主 B. 小便短数,灼热刺痛,常伴有发烧 C. 小便热涩刺痛,尿色深红如“洗肉水” D. 尿频,排尿困难,尿量减少 E. 尿痛,尿道口溢脓,红肿痒痛 查看完整题目与答案 关于生https://www.shuashuati.com/ti/c12e9d12b8bc447c9ff9bb345622c2db.html?fm=bd91254deae6cfb100311443375869cf0c