ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

时间:2025-06-12 09:28:22来源:互联网编辑:茹茹

AI挑战全套高考数学题来了!

高考数学一结束,我们连夜使用六款大模型产品,按照一般用户截图提问的方式,挑战了 14 道最新高考客观题,不过有网友质疑测评过程不够严谨,所以这次我们加上解答题,重新测一遍。

本次参加挑战的选手分别是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1 Turbo、o3,并且新增网友们非常期待的 Gemini 2.5 pro。上一次我们使用网页端测试,这次除 o3 外,其他模型全部调用 API。

在考题选择上,我们仍然采用 2025 年数学新课标 Ⅰ 卷,包含 14 道客观题,总计 73 分;5 道解答题,总计 77 分。其中第 6 题由于涉及到图片,我们就单独摘出来,后面通过上传题目截图的形式针对多模态大模型进行评测。其他文本题目全部转成 latex 格式,分别投喂给大模型,还是老规矩,不做 System Prompt 引导,不开启联网搜索,直接输出结果。

(注:第 17 题虽然也涉及到图片,但文字表述足够清晰,不影响答题,因此也以 latex 格式测评。)

客观题计分方法按照以往高考判分原则:

单选题每道 5 分,选项正确计分,错误不得分;

多选题每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;

填空题每道 5 分,填空正确计分,错误不得分。

至于解答题,由于现在还未出具体的评分细则,所以我们请数学专业的朋友进行评判,主要还是看大模型的最终答案以及解题步骤中是否有严重失误点。

7 家大模型考试成绩如下图所示。

1.jpg

从客观题来看,各家大模型几乎拉不开差距,最大分差也只有 3 分,第 6 题图像题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3 客观题成绩垫底,但有网友表示,这可能是由于某些原因导致后台自动切换成其他模型,而这一次我们选用的是未「降智」的 o3,选择题和填空题成绩仍是排在最后,当然,65 分的成绩相比「降智」版确实有很大提升。

解答题是大模型失分的「重灾区」。除了 Gemini 2.5 Pro 拿到全部的分数外,其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜,只丢了一分;o3 则失了 2 分,最终得到 75 分。相较而言,hunyuan-t1-latest 和文心 X1 Turbo 发挥不佳,分别拿到 68 分和 66 分。

从总分上来看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。

解答题:大模型失分「重灾区」

我们先来看看解答题的情况。

2.jpg

第 15 题和第 17 题,一道考查概率问题,一道涉及立体几何知识,7 家大模型均拿到满分。

第 16 题是一道数列综合题,满分 15 分,只要证明完整、计算过程完整、结果正确就能拿到全部的分数。大模型整体表现不错,只有 Qwen3 解答正确,但最终答案里面增加了多余的假设求值,扣了一分。

3.jpg

第 18 题这道椭圆方程与几何就难倒了不少大模型,仅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到满分 17 分,其他模型各有各的扣分点。Qwen3 前面回答得都不错,过程也很完整,但偏偏最后一小问|PQ|最大值取约等于 9 的步骤多余,导致结果偏差,扣了一分。

4.jpg

o3 则是第(3)问答案没化简丢了一分。

5.jpg

文心 X1 在第 2 问 (2) 正确算出 P 点轨迹,但未证明极值,直接按最远点计算造成结果错误,扣 6 分。

6.jpg

hunyuan-t1-latest 前两问中回答正确,到了第 3 问完成 P 点轨迹之后就全错了,一下子丢了 5 分。

7.jpg

对于最后一道压轴题,Gemini2.5 pro 是唯一全对的大模型。Doubao 只说明了震荡项的振幅大于 0,但是也有可能震荡项的相位是反的,那样的话最大值反而有可能更小,证明过程不够严谨,扣一分。

8.jpg

DeepSeek R1 在第(3)问中分情况讨论,得出了两类解,但对第一类解未做后续说明,扣了一分。

9.jpg

o3 第(2)问思路正确,但因为开闭区间差别,「完全重合」说法错误,扣 1 分。

10.jpg

hunyuan-t1-latest 在第(2)问上思路可行但证明过程模糊,扣 2 分,到了第(3)问没有判断 phi 取值,又扣了 2 分。

640.webp.png

文心 X1 和 Qwen3 也都是在第 2 问和第 3 问上失了分,第 2 问证明模糊扣 2 分,第 3 问则是未具体说明 phi 值扣 2 分,而且文心 X1 比大小还发生错误,又扣了 1 分。

12.jpg
0102.jpg

客观题:一道图像题难倒几家多模态大模型

在不考虑识图题(第6题)的情况下,客观题大模型总体表现都不错,Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1 、文心 X1 Turbo 和 hunyuan-t1-latest 均取得了 68 分的高分,只有 o3 在多选题上少选了一项丢了分。

13.jpg

其中,o3 在第 9 题计算过程中,忽视了「正三棱柱」这一关键条件。它在建立坐标系时,分别用 (x₀, y₀, 0) 表示 A 点坐标,用 (c, 0, 0) 表示 C 点坐标,但没有考虑到:正三棱柱的底面是正三角形,这意味着正三角形的边长 c 与 x₀、y₀之间存在关系:c=2x₀=2y₀/√3。导致对 B 选项的判断出现错误。

14.jpg

接下来看看这道图片题。

15.jpg

遗憾的是,此次测评的多模态大模型都在这道识图题上表现不佳。虽然 hunyuan-t1-latest 不是多模态,但我们又测试了 hunyuan-t1-vision ,也在这道题上败下阵来。

16.jpg

相比之下,Doubao 和 o3 至少正确识别了坐标位置,只是误判了视风风速方向,而 Gemini 连基本坐标都未能正确识别。

17.jpg
02.jpg
03.jpg

总的来说,这次测评结果显示,大模型在数学推理能力上有不小的进步,但仍有较大的提升空间。比如不少模型在解答题上丢分,这反映出大模型在复杂推理、严谨论证和多步骤计算方面还需加强。

此外,所有参测的多模态大模型在第 6 题的图像识别上都出现了问题,这也暴露出当前 AI 在图文结合理解方面的短板。

最后,紧张的高考已经结束,祝福所有考生都能取得理想的成绩,有着灿烂的未来!

更多热门内容
2025年洗碗机推荐性价比
在众多的家用洗碗机品牌中,想要挑出性价比高的产品并非易事。因为在选择洗碗机时,需要综合考量多个关键因素。是否能适配厨房空间和家装风格;容量得契合家庭人口数量与日常用餐习惯,确保能满足餐具清洗需求;清洁技术直接决定洗净效果;烘干方式影响餐具干燥程度与存储时长

2025-06-13

2025年洗碗机哪个牌子好真实推荐,性价比高的洗碗机该怎么选?
家务中平时最累人的无非是扫地拖地洗衣服洗碗了。现在扫地拖地有机器人,洗衣服有洗衣机,剩下洗碗成了争议最大的家务。很多人觉得碗还是的手洗才干净,但只有用过洗碗机的人才知道,什么叫做“真香定律”。在预算足够的情况下选择一台适合自己家庭的洗碗机,不仅能促进家庭

2025-06-13

2025年洗碗机排名前十名有哪些?这几款总有合适你的
刚享受完温馨的用餐时光,转头却要面对水槽里堆积如山、沾满油污的碗筷锅具,这成了许多家庭难以言说的 “甜蜜负担”。弯腰弓背地站在洗碗池前,机械地重复着擦洗动作,疲惫感席卷全身,那一刻,你是否也无比渴望能有一台神奇家电,将自己从繁琐的洗碗劳动中彻底解放?市面上的

2025-06-13

什么品牌的洗碗机质量好又耐用?这些品牌值得推荐
每天吃完饭,看着水槽里堆积如山的油腻餐具,很多人瞬间没了享受美食的好心情。如果不想让洗碗这件小事消耗耐心和精力,就一定要入手一款高效便捷的洗碗机。要是有人问洗碗机推荐哪个品牌,且质量好又耐用?我的答案就是西门子。品牌实力:西门子家电作为德国高端家电制造商

2025-06-13

2025年性价比高的洗碗机有哪些,哪款值得推荐?
在现代家居生活中,洗碗机恐怕早已从 “可有可无” 转变为 “刚需神器”。但面对市场上琳琅满目的洗碗机产品,不少消费者在挑选时陷入困惑。如今的洗碗机市场,早已摆脱单纯 “堆参数” 的初级竞争阶段,转而在核心技术的研发与创新上展开激烈角逐。而消费者担忧的,无非就是

2025-06-13

中关村科金@成都发布三大行业垂类大模型解决方案,首个交通基建垂类大模型正式亮相
2025年6月12日,成都首届垂类大模型产业大型活动—— “大模型・全连接・新增长” 城市论坛由中关村科金主办并圆满落幕。现场重磅发布得助大模型平台3.0、得助智能音视频服务平台3.0 两大技术平台底座,推出银行、证券、汽车三大行业垂类大模型解决方案,并联合宁夏交建交

2025-06-13

编程猫:斩获四大权威认证,树立少儿编程教育新标杆
在科技迭代不断加速的时代,编程已不再只是专业程序员的专属技能,而是逐渐成为孩子们适应未来社会的重要素养。少儿编程教育,作为培养这一素养的关键领域,正从教育的边缘地带稳步迈向中心舞台,成为众多家长与教育者关注的焦点。在这片充满无限可能的领域里,编程猫凭

2025-06-13

国产高边开关,稳先微推出12/24/48V近百款型号
一、引言随着汽车行业向智能化、电动化和网联化加速发展,传统12V电气系统因输出功率有限,难以满足商用车、工业设备、机器人及飞机等多样化应用场景对功率的日益增长需求。当下,行业已逐步迈向24V乃至48V系统,以适配不断演进的技术要求与实际应用需求。在此背景下,

2025-06-13

CertiK首席安全官Wang Tielei 博士:区块链安全需构建全链条防护体系
近日,权威网络安全媒体 CyberSecAsia 发布了对 CertiK 首席安全官 Wang Tielei 博士的专访,深入探讨了企业在进军区块链领域时面临的关键安全风险与防御策略,强调了构建“安全优先”开发范式的重要性。随着区块链技术的广泛应用,其安全问题愈发凸显。普华永道(PwC)的

2025-06-13

TCL科技强化董事会专业性与科学薪酬治理,筑牢ESG可持续发展根基
专业赋能决策,风险筑牢底线。随着ESG评级日益成为投资者决策的关键依据,其中公司治理(G)维度的表现——包括治理结构的科学性、董事会的专业能力以及高管薪酬机制的透明度——已成为资本市场关注的核心焦点。在当今充满挑战与机遇的市场环境中,企业如何通过治理体系优

2025-06-13