OpenAI最新模型曝光了,在2025年国际数学奥林匹克竞赛(IMO)上达到了金牌水平!
IMO被公认为全球最顶尖的数学竞赛,每年只有不到8%的参赛者能够获得金牌。而现在,一个AI模型做到了。
新模型最终成绩:新模型在总共6道题中成功解决了5道,获得35分(满分42分),超过了今年的金牌线。
OpenAI员工Alexander Wei还透露,GPT-5即将发布,但IMO金牌模型是一个实验性研究,在几个月内都没有计划发布。
他特别强调,这次成功并非依靠针对特定任务的狭隘方法,而是在通用强化学习和测试时计算扩展方面取得了新突破。

与此同时,第三方机构的开源代码中被发现GPT-5-reasoning-alpha-2025-07-13的字样。

这段代码被挖出来后很快就被删除或隐藏,结合OpenAI在新模型发布前会找第三方机构进行安全测试的惯例——
种种迹象表明,GPT-5离我们不远了。
35分斩获金牌,解题过程完全模拟人类考试
具体来看OpenAI的实验性新模型,这次评测可不是随便做个题那么简单。
OpenAI团队让模型在与人类选手完全相同的条件下参加考试:两场各4.5小时的考试,不能使用任何工具或联网,只能阅读官方题目陈述,然后用自然语言写出证明过程。

最终成绩出来了:模型在6道题中成功解决了5道,获得35分(满分42分),稳稳超过了今年的金牌线。
今年IMO的金牌分数线正好是35分,这个成绩放在人类选手中也是妥妥的金牌水平。今年约600名参赛者中,只有5人拿到了满分。
更让人印象深刻的是评分过程的严谨性。每道题的解答都由三位前IMO奖牌获得者独立评分,只有在三人达成一致意见后才确定最终分数。
这次突破的意义不止于成绩,正如研究团队所说,IMO问题需要的是一种全新水平的持续创造性思维。
从推理时间跨度来看,AI的进步速度简直让人瞠目结舌:从GSM8K(顶尖人类约需0.1分钟)到MATH基准测试(约1分钟),再到AIME(约10分钟),现在终于攻克了IMO(约100分钟)这个需要长时间深度思考的难题。
更重要的是,IMO的答案是难以验证的多页证明,这与之前那些有明确正确答案的数学题完全不同。OpenAI团队表示,他们突破了传统强化学习中依赖明确可验证奖励的范式,创造出了能够像人类数学家一样构建精巧论证的模型。

唯一没能攻克的是第六题——这道被参赛者称为“最终Boss”的组合数学难题:
有一个2025×2025的单位正方形网格。玛蒂尔达希望在网格上放置一些矩形块,这些块的大小可能不同,使得每个块的每一条边都位于网格线上,并且每个单位正方形最多被一个块覆盖。求玛蒂尔达需要放置的最小块数,使得网格的每一行和每一列都恰好有一个单位正方形未被任何块覆盖。

去年IMO题目中,谷歌用Alphaproof和AlphaGeometry完成了四道题,未完成的两道也属于组合数学。
不过这一次,DeepMind研究员Archit Sharma在OpenAI宣布后回复:“恭喜!抢在我们前面宣布了——第6题是新的基准了吗?”
但这条推文很快就被删除了。
这个小插曲引发了网友们的各种猜测:莫非Google的模型也达到了类似水平。

如果感兴趣的话,还可以进一步查看OpenAI公开的AI解题过程,链接在文末获取。

引发圈内热议,陶哲轩发表长评
OpenAI模型斩获IMO金牌的消息一出,AI圈炸开了锅。不过,在一片赞叹声中,也出现了一些不同的声音。
其中最受关注的,当属数学界顶尖学者陶哲轩的表态,他在社交媒体上针对此事发表了长篇评论。
陶哲轩指出,虽然多家AI公司都声称在IMO题目上取得了好成绩,但由于缺乏统一的测试环境和标准,很难进行公平比较。
人们很容易将当前AI的能力视为一个单一的量化指标——要么能搞定某件事,要么就完全不行。但其实不是这样,AI到底有多厉害,这得看给它多少资源、多少辅助手段以及不同的结果呈现方式,种种因素影响下,AI能力能差出好几个量级。

他特别强调:“在没有预先公布方法论的情况下,不会对任何自我报告的AI竞赛表现发表评论。”

陶哲轩用生动的比喻列举了多项AI可能采取的措施:
给学生几天时间来完成每道题,而非用四个半小时解答三道题。(稍微延伸一下:给学生的时间仍只有四个半小时,但领队将他们放入某种昂贵且耗能巨大的时间加速装置,在这段时间里,学生们会经历数月甚至数年的时光。)
考试开始前,领队将题目改写成学生更易理解的形式。
领队让学生可以无限制使用计算器、计算机代数软件、形式化证明辅助工具、教科书,或者拥有上网搜索的权限
领队让6名学生组成的团队共同攻关同一道题,就各自的部分进展和遇到的瓶颈进行交流。
领队给学生提示可行的解题方向,若发现有学生在明知不太可能成功的方向上耗费过多时间,便会进行干预。
团队的6名学生都提交了解答,但领队只挑选出“最佳”解答提交给竞赛,其余的则弃之不用。
若团队中没有任何一名学生得出令人满意的解答,领队就完全不提交任何解答,悄无声息地退出竞赛,且无人知晓他们曾参与过。
而这些措施均改变了竞赛形式从而影响题目难度。

与此同时,数学竞赛评测平台MathArena发布了独立评测结果。
在他们的测试中,即使是表现最好的Gemini 2.5 Pro也只获得了13分(31%),远低于铜牌线19分。

测试使用了best-of-32的选择策略,即对于每个模型的解答,首先生成32份回应,随后借助“大语言模型评审系统”对这些回应进行评估,两两比对选出更优答案。
每份最终的模型答案生成成本至少为3美元,其中Grok-4模型每份答案的成本超过20美元,但即便如此,仍然没有任何模型能达到获奖牌的水平。
MathArena团队也同步更新了OpenAI宣布实验模型拿到IMO金牌的消息:
无法验证这些结果是如何实现,期待该模型的发布以及使用MathArena基准进行独立评估。

虽然OpenAI模型拿金牌的方法论未公开,但也有不少网友表示,不看过程,结果同样具有意义。

OpenAI团队对自己的成果充满信心。
参与此项目的研究员Alexander Wei回忆说:“2021年,我的博士导师让我预测2025年7月AI在数学上的进展,我当时预测MATH基准测试能达到30%(还觉得其他人都太乐观了)。结果现在我们拿到了IMO金牌。”

OpenAI新模型解题过程:
https://github.com/aw31/openai-imo-2025-proofs/
如何学习AI大模型 ?
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
(👆👆👆安全链接,放心点击)
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。


这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

(👆👆👆安全链接,放心点击)

276

被折叠的 条评论
为什么被折叠?



