AI大模型帮陶哲轩解题,还能证明数学定理了?

去年2月份,DeepMind发布了编程辅助利器AlphaCode。它使用人工智能技术来帮助程序员更快地编写代码,可以自动完成代码、提供代码建议并检查错误,从而提高编程效率。AlphaCode的问世意味着AI在解决现实世界问题的道路上又迈出了一大步。

巧合的是,在同一天,OpenAI也展示了一项重要成果:他们开发的神经定理证明器成功解出了两道国际奥数题。这一成果是在微软打磨了多年的数学AI——Lean的基础上完成的。Lean于2013年推出,数学家可以把数学公式转换成代码,再输入到Lean中,让程序来验证定理是否正确。OpenAI的成功表明,AI不仅可以用于解决编程等应用学科的问题,还能用来攻克数学等自然学科。

值得注意的是,这并不是AI研究者的“一厢情愿”。就像快速接受AlphaCode的软件工程师一样,数学家也在越来越频繁地使用AI,比如获得过菲尔茨奖的陶哲轩。他甚至预言,到2026年,AI将成为数学研究领域可信赖的合著者(co-author)。

与此同时,主攻数学问题的AI也在不断发展壮大:一个名为LeanDojo的开放平台提供了一套基于大型语言模型的开源定理证明器,消除了在机器学习方法用于定理证明时存在的私有代码、数据和大量计算需求等障碍,为机器学习方法在定理证明领域的研究提供了便利。

“我相信,数学将成为第一门通过人工智能实现重大突破的学科。”在看到这些进展之后,英伟达高级AI研究科学家JimFan在一篇推特中预言说。

除了以上种种进展,JimFan还列出了以下推断依据:

在数学与AI的这场交叉之旅中,数学家和AI研究科学家在共同探索更多可能性。或许,陶哲轩和JimFan的预言都将加速实现。

一、在陶哲轩手里,AI成了数学家的得力助手

“我预计,如果使用得当,到2026年,AI将成为数学研究和许多其他领域值得信赖的合著者。”数学家陶哲轩在前不久的一篇博客中说道。

在众多知名数学家中,陶哲轩是较早接受并发现ChatGPT这类AI大模型数学价值的一个。早在今年3月份ChatGPT连鸡兔同笼问题都搞不定的时候,陶哲轩就给予了它肯定的态度,认为这类大模型完全可以胜任一些辅助性质的工作,比如帮数学研究者进行语义搜索、生成一些提示。

在这个例子中,陶哲轩提出的问题是:“我在寻找一个关于xx的公式。我想这是一个经典的定理,但我不记得名字了。你有什么印象吗?”在这轮问答中,虽然ChatGPT没能给出正确答案(库默尔定理),但根据它给出的近似答案(Legendre公式),我们可以结合传统搜索引擎轻松找到正确答案。

没过多久,OpenAI就发布了数学能力显著提升的GPT-4。陶哲轩也一直在尝试解锁这一强大的AI工具。

在使用过程中,他总结出了一些经验:不要试图让AI直接回答数学问题(这样得到的答案八成是废话),而是让它扮演合作者的角色,要求它提供策略建议。

按照这种提示方法,陶哲轩在GPT-4的帮助下成功解决了一个数学证明题(GPT4提出了8种方法,其中1种成功解决了问题)。

陶哲轩利用GPT-4解决的问题。

陶哲轩为了解决上述证明题提供给GPT-4的Prompt:“你好,我是一名数学教授,我希望你能扮演一位善于提出解题技巧的数学专家合作者。我正试图回答MathOverflow中的以下问题……”

GPT-4给出的部分建议。

当然,除了这个证明题外,陶哲轩也在用GPT-4完成其他一些工作,包括但不限于:

二、拿下数学定理证明,这项研究或让陶哲轩预言早日成真

一直以来,形式化的定理证明都是机器学习的重要挑战。形式化证明本质上是一种计算机程序,但与C++或Python中的传统程序不同,证明的正确性可以用证明助手(如开头提到的Lean)来验证。定理证明是代码生成的一种特殊形式,在评估上非常严格,没有让模型产生幻觉的空间。

这对目前的大型语言模型(LLM)来说是有挑战性的,尽管LLM在代码生成方面表现出了优秀的能力,但在事实性和幻觉性方面还有缺陷。

以往,对于用于定理证明的LLM研究面临着许多障碍:比如,现有的基于LLM的证明器没有一个是开源的;它们都使用私有的预训练数据,而且计算要求可以达到数千个GPU时;此外,有些基础设施是依赖于为分布式训练和与证明助手的互动而定制的,如果没有开源代码,这两者是不可能完全复现的。

在最近的一项研究中,来自加州理工学院、英伟达等机构的研究者在该命题的解决进程上走出了重要一步,提出了开放平台LeanDojo。

总体来说,该研究有如下贡献:

LeanDojo的诞生有望改变当前现状:从开源工具包、模型到基准,LeanDojo让研究人员能够以适度的计算成本获得最先进的基于LLM的证明器。ReProver不依赖私人数据集,并且可以在一周内在单个GPU上完成训练。

研究细节

Lean是一种编程语言,既可以写传统的程序,也可以写定理和证明。它提供了两个机制:首先,基于具有依赖类型的函数式编程,Lean为定义程序、数学对象、定理和证明提供了一种统一的语言;第二,Lean提供了一个策略系统(tacticsystem),用于半自动地构建机器可检查的证明。

图2展示了一个简单的例子,以说明定理是如何在Lean中被形式化和证明的:

策略(tactic)的语法是相当灵活的,可以接受参数,也可以组合成复合策略。策略可以看作是特定领域语言(DSL)中的程序。用户可以通过定义新的策略来扩展DSL。这种离散的、组合的和无界的行为空间使得定理证明对机器学习具有挑战性。

另一个挑战是前提的选择。前提是对证明一个定理有用的现有公理或定义,被用作策略的论据。证明不能使用尚未定义的前提,也不能使用未导入当前文件的前提。通常,前提是来自一个包含数十万个现有定义和定理的大型数学库,这使得人类和机器都很难在生成策略时选择正确的前提。这是定理证明中的一个关键瓶颈,也是研究者希望通过检索增强的LLM来解决的。

LeanDojoBenchmark

研究者使用LeanDojo构建了一个包含96962条从mathlib提取的定理/证明的基准。该基准是目前最大的以数学为重点的定理证明数据集之一,涵盖了不同的主题,如分析、代数和几何。

与现有的Lean数据集不同,LeanDojoBenchmark还包含了128,163个前提的定义,不仅包括定理,还包括可以作为前提的其他定义,例如图2中的gcd。此外,该数据集有212,787个策略,其中126,058个策略至少有一个前提。在有前提的策略中,前提的平均数量为2.12。

LeanDojoBenchmark解决了两项关键问题:

Leanrepos(例如,mathlib或lean-liquid)包含人写定理/证明的源代码。然而,原始代码并不适合用于训练验证器,它缺乏人类在使用Lean时可以获得的运行时信息,例如证明步骤之间的中间状态。

而LeanDojo可以从Lean的任何GitHubrepo中提取数据,这些数据包含在原始Lean代码中无法直接看到的丰富信息,包括文件依赖关系、抽象语法树(AST)、证明状态、策略和前提。LeanDojoBenchmark包含细粒度的前提注释(它们在证明中使用的位置和在库中定义的位置),为前提选择提供有价值的数据,也是定理证明的关键瓶颈。

研究者发现,将定理随机分成训练/测试的常见做法导致了之前论文中高估了性能。LLM只需在训练期间记住类似定理的证明,就能证明看似困难的定理。

在人类编写的Lean代码中,一个常见的惯用语法是为同一数学概念的略微不同的属性设置了一个类似的定理/证明块。例如,在图3中,最后两个定理不仅看起来相似,而且有相同的证明。如果其中一个在训练中,模型可以通过记忆轻松证明另一个。这种捷径使模型能够证明看似不简单的定理,包括那些需要前提才能证明的定理。

在LeanDojoBenchmark中,研究者通过设计具有挑战性的数据分割novel_premises来缓解这个问题,它需要测试证明可以使用至少一个从未在训练中使用过的前提。

例如,图3中的最后两个定理都使用了前提conj_mul。如果一个定理在novel_premises分割的训练集中,另一个也必须在训练中。

LeanDojo的另一个重要功能是以编程方式与Lean交互。它把Lean变成了一个类似健身房的环境,在这个环境中,证明器可以观察证明状态,运行策略来改变状态,并接收错误或证明完成的反馈。这个环境对于评估/部署验证器或通过RL训练证明器是不可缺少的。

下面是LeanDojo的主要形式,用于通过策略与Lean交互。Lean同样支持不基于策略的其他证明风格,不过LeanDojo只支持策略风格的证明。但只要有足够的通用性,任何证明都可以转换为策略风格的证明。

随后,研究者使用LeanDojoBenchmark来训练和评估了ReProver。其核心是一个由检索增强的策略生成器(图1底部)。

根据当前的证明状态,它可以检索出少数可能有用的前提,并根据状态和检索出的前提的连接情况生成一个策略。在证明定理时,该模型在每一步都会生成多个策略候选者,这些候选者被用于标准的最优搜索算法来寻找证明。

此前的基于LLM的证明器都在数学和编码的特定数据集上进行预训练,计算成本很高而且数据集是保密的。相比之下,ReProver避免特定领域的预训练,建立在“google/byt5-small”之上,这是一个通用的、公开可用的、相对较小的模型检查点。

此外,ReProver只在人类写的策略上进行了微调,没有辅助数据或通过与Lean在线互动收集的数据。虽然这些正交方向是有价值的,但会大大增加方法的复杂性和计算要求。

在评估实验中,ReProver可以证明51.4%的定理,优于直接生成策略而不进行检索的baseline(47.5%)和另一个使用GPT-4以零样本方式生成策略的baseline(28.8%)。

研究者还在MiniF2F和ProofNet两个数据集上测试了ReProver。它可以在MiniF2F中证明26.5%的定理,在ProofNet中证明13.8%的定理,这几乎能够媲美强化学习的SOTA方法,且训练时使用的资源少得多。

此外,许多定理在Lean中没有ground-truth证明。而ReProver能够证明65个目前在Lean中没有得到证明的定理,其中MiniF2F发现了33条证明,ProofNet中发现了39条。研究者表示,ReProver也可以作为一个有效的工具来增强Lean中现有的数学库。

三、ChatGPT插件

研究者还构建了一个LeanDojoChatGPT插件,使ChatGPT能够通过与Lean交互来证明定理。与专门针对定理证明进行微调的LLM(例如ReProver)相比,ChatGPT可以将非形式化数学与形式化证明步骤交织在一起,类似于人类与证明助手的交互方式。它可以解释来自Lean的错误消息,并且比专门的证明器更容易操纵。然而,由于搜索和规划方面的弱点,在大多数情况下很难找到正确的证明。

示例如下:

a+b+c=a+c+b

Stirling’sformula

论文一作杨凯峪目前是加州理工学院计算和数学科学(CMS)系的博士后研究员,此前在普林斯顿大学获得博士学位。

AlexGu是麻省理工学院的一名博士生,导师为ArmandoSolar-Lezama。此前,他在麻省理工学院获得了学士和硕士学位,拥有MetaAIResearch、JaneStreet和pony.ai多家公司的实习经历。

ShixingYu目前是美国康奈尔大学计算机科学专业博士生,此前在德州大学奥斯汀分校获硕士学位,本科就读于北京大学信息科学技术学院。

THE END
1.在线解题软件排行榜前十名偏玩手游盒子分享十大在线解题软件排行榜前十名手机应用,编辑为您推荐手机在线解题软件排行榜第一名到前5名到前十名的应用。找在线解题软件有哪些、在线解题软件哪个好用,上偏玩手游盒子https://m.pianwan.com/s/zj-2737286
2.关于精选2024年5款热门AI答题软件在科技飞速发展的2024年,AI技术如同一股强劲的东风,深刻地改变着教育领域的学习模式。AI答题软件应运而生,成为众多学子追求高效学习的得力助手。它们凭借智能的算法、丰富的资源以及便捷的操作,在学习辅助工具市场中崭露头角,今天小编就为大家精选了2024年5款热门AI答题软件,它们均搭载了先进的AI解题工具,用户输入题目https://www.0438.tv/thread-6879919-1-1.html
3.智能备考·技巧答题让你轻松应对考试《智能备考·技巧答题》是为全国中高考莘莘学子所做的纯粹、有效应对学科快速提分课程。采用“书籍”和“加密视频”的交付学习方式,让考生经过课程学习。可以通过题干找出答案,可以通过逻辑公式直接写出结果。学习讲方法,考生讲技巧,让考生一看就会,记忆内容少,答题准确https://mp.weixin.qq.com/s?__biz=Mzg2MjYzMjYzNw==&mid=2247494982&idx=3&sn=391166263bfce8a7a9a930577c6d906a&chksm=cfbb6d1a51b5da2b66770567b50d873566c0fe6c24e03eafaac90d1984941c982802a42cca9a&scene=27
4.AI写作免费:用科技为你解题写作难题!ai写作免费:用科技为你解题写作难题! 现代社会,写作已经成为人们不可或缺的一项技能。不论是学业还是工作,写作能力都是衡量一个人综合素质的重要标准。然而,对于许多人而言,写作难题常常令人头疼。幸运的是,随着人工智能的进步,现在有了一种新的解决方案:使用ai写作工具。 https://108ai.com/post/6213.html
5.AI物理解题工具我的学习信息记录LearnFast.ai- 最智能的物理题目解答AI 24小时在线物理AI助手,随时随地解决您的问题。 POLYV录课助手 POLYV录课助手 白板 开源手绘白板,协作加密,支持PNG、5VG导出备用:paint-board一个在线画板https://[…] 数学乐 数学乐,一个专门分享有趣及易懂的方法来演示学习数学知识的网站,网站覆盖整个幼儿园到高中的数学https://kf369.cn/sites/4154.html
6.AI教育有哪些app?可以拍照做题的智能ai有哪些- 学生:需要数学学习辅助和解题能力提升的用户。 - 家长:需要方便检查孩子数学作业的用户。 **工作原理**: Uknow.AI利用先进的人工智能技术,通过手机摄像头拍照识别数学题,利用算法快速给出答案和解析。同时,提供智能计算器和在线手写练习功能,帮助学生提高计算能力。 https://www.skycaiji.com/aigc/ai23145.html
7.精品题库拍照搜题拍照解题在线拍题搜题拍照搜题在线使用是否为渠道商: 服务类型: 服务类型未选择,请重新选择 详细分类: 所属地区: 所属地区未选择,请重新选择 所属行业: 所属行业未选择,请重新选择 公司名称: 请填写公司名称 业务简介: 使用场景: 请填写使用场景 联系人姓名: 请填写联系人姓名 联系人电话: https://ai.youdao.com/product-photosearch.s
8.微软:两个AI相互纠错,数学再涨5分量子位 | 公众号 QbitAI 提升LLM数学能力的新方法来了—— 一个大模型不行,那就两个。让他们彼此合作,纠正对方的错误。 这就是来自加州大学和微软研究院的最新研究成果:Flow-DPO。通过使用在线学习流(Flow)和直接偏好优化(DPO, Direct Preference Optimization),可以让LLM生成更加详细和精确的推理轨迹。 同时,这https://m.thepaper.cn/newsDetail_forward_29519108
9.智能在线问答助手:提升互动质量,解答疑惑的AI专家AI解题与在线教育开启学习新篇章的智能助手 随着科技的飞速发展,人工智能(AI)逐渐渗透到我们生活的方方面面,尤其是在教育领域。AI解题工具和在线学习平台的崛起,为学生提供了前所未有的资源和支持。本文将深入探讨AI解题和在线教育如何相辅相成,改变传统学习方式,提高学习效率,最终帮助学生更好地掌握知识和技能。一https://www.biguinet.com/a420582-list/16-1.html
10.Math.now–AI数学解题Math.now 提供免费使用额度,用户无需下载或注册即可在线使用这一工具。 Math.now – AI 数学解题常见问题 我可以通过哪些方式输入数学问题?用户可以通过文本、图片及文件上传三种方式输入数学问题。 Math.now 是完全免费的工具吗?是的,Math.now 提供免费使用额度,无需支付费用即可使用。 我可以在移动设备上使用 Mathhttps://openi.cn/sites/276745.html
11.国庆焕新正当时!海尔机器人携手京东采销探店:“V力”开拔四处乱撞、还经常迷路?创新实用型 AI 科技解题 使用清洁机器人后,真的就能解放双手吗?许多用户的答案都是否定的。在现实中,他们经常会遇到扫地机器人「迷路」「失踪」的现象,比如跑到狭窄角落转不出来、被细小障碍物卡住等,需要人为解救;工作完成后,边边角角也总是打扫不干净,用户还要再动手清理一遍。深入洞察用户https://www.iyiou.com/news/202410011079289
12.数独解谜AI识图解题*通过照片识别数独题目,机器学习识别数字 *可手动修改数字,一键解题,可分别控制显示隐藏答案 *** 注意:照片识别时,使用拍摄效果好的照片能有更高更准确的识别率https://apps.apple.com/cn/app/%E6%95%B0%E7%8B%AC%E8%A7%A3%E8%B0%9C-ai%E8%AF%86%E5%9B%BE%E8%A7%A3%E9%A2%98/id1434018437?see-all=customers-also-bought-apps
13.AI智能解题:写作助手带来高效答疑体验一、AI智能写作助手简介 AI智能写作助手是一款基于人工智能技术的在线写作辅助工具,旨在为学生提供实时的写作答疑、建议和改进服务。通过运用自然语言处理、大数据分析等先进技术,该助手能够准确地识别学生的写作问题,并提出有针对性的修改意见,帮助学生提高写作水平。 https://www.aixzzs.com/list/4368.html
14.MyMathSolver.ai数学求解器适用于各种设备和操作系统,确保用户在桌面、平板电脑和智能手机上都能方便使用。随时随地用我们的免费在线数学求解器解决数学问题。 如何免费在线使用数学解题器? 步骤一:输入数学问题 访问我们的免费在线数学解题平台,通过输入或使用AI数学解题图片功能上传图片来输入你的数学问题。 https://pidoutv.com/sites/24015.html
15.AI答题人人秀AI答题「怎么3分钟快速搞定在线智力答题」 人人秀 7天前 在线智力答题轻松搞定!只需三步。第一步,了解智力题的类型和解题技巧。第二步,参加相关在线测试,提升解题能力。第三步,答题时快速识别问题,灵活作答。3分钟内,在线智力答题便能顺利完成,提升你的智力水平! 免费制作 https://rrx.cn/content-nq3tvf
16.作业帮免费拍照答题:高效解决学生作业难题的智能工具作业帮免费拍照答题工具的另一核心技术是AI解题算法。该算法通过对大量题目和解题步骤的学习,能够快速识别题目类型,并给出相应的解题步骤。随着AI技术的发展,解题算法的准确性和效率也在不断提升。 总结: 作业帮免费拍照答题工具凭借其强大的AI技术和便捷的使用方式,成为学生、家长和教师解决作业难题的得力助手。通过本文https://www.xiaoyuxitong.com/cjwt/164599.html
17.GauthmathAI人工智能数学家庭作业助手标签:AI作业辅助AI计算器免费数学助手在线辅导拍照解题数学解题 跳转官网手机查看举报反馈 AI工具网点评:Gauthmath通过结合AI和真人导师提供的详细解答,成为学生解决数学问题的理想选择。其用户友好的界面和全面的功能使其在数学学习应用中脱颖而出,值得推荐。 https://www.ai138.com/link/3608.html
18.AIMathAI神器大全AIMath是一款由Creati.ai开发的在线数学问题解决平台,旨在快速准确地解决各种数学问题。这款产品面向学生、教育工作者和父母,提供详细的解题步骤和解释,帮助用户理解复杂的数学概念。AIMath利用人工智能技术,简化了数学问题的解决过程。 AIMath的主要功能和特点 AIMath的核心功能包括但不限于: 快速准确的数学问题解决能力https://aishenqi.net/tool/aimath
19.数学解题软件哪个好APP推荐数学解题软件哪个好下载【快对简介】快对致力于为全国上亿用户提供答疑解惑、AI解题、AI写作、AI搜索、AI翻译、文件扫描等服务。【家长】AI答疑解惑,视频深入讲解,错题举一反三,智能批改,秒判对错。家长的得力辅导帮手。【学生】搜不到的题AI直接解,全网超详细分步讲解,轻松解决奥赛题、疑难综合题。作文一键生成,段落自由修改,字数自由https://www.wandoujia.com/bangdan/406874/
20.人工智能问答ai人工智能在线问答人工智能问答 ai人工智能在线问答 一、人工智能在线问答 人工智能在线问答的发展 1: 引言 人工智能在线问答是指利用人工智能技术实现在线问答系统,为用户提供快速、准确的问题解答。随着人工智能技术的不断发展,人工智能在线问答系统在各个领域得到了广泛应用。https://tool.a5.cn/article/show/79686.html
21.神思電子技術股份有限公司神思電子技術股份有限公司是國內領先的AI+云服務解決方案賦能者,向行業客戶提供智能視頻監控、智慧餐飲、智慧服務大廳、智慧園區等人工智能云服務解決方案,是專業的智能園區公司。http://www.renrenjk.cn/
22.创课堂AI浙江创课网络科技有限公司是专业从事互联网技术与信息服务、教育行业信息化整体解决方案的技术服务企业。是全国最大的中小学学业测评及解题视频服务商,并取得了该领域十多项专利发明和二十多项软件著作权,致力于打造全国最好的教育服务网络平台。http://cktai.com/