ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI高考数学大比拼,豆包元宝并驾齐驱,o3表现引思考!

时间:2025-06-09 11:20:59来源:ITBEAR编辑:快讯团队

近日,一场别开生面的高考数学模拟测试吸引了广泛关注。此次测试并非由传统考生参与,而是六大人工智能模型——字节的豆包、腾讯的元宝、阿里的通义、百度的文心X1Turbo、深度求索的DeepSeek以及OpenAI的o3,共同挑战2025年新课标Ⅰ卷的14道客观题。

测试环境严格,所有模型在无系统提示和联网搜索的条件下独立作答,且每个模型只有一次答题机会。测试题目总分73分,包括单选题、多选题和填空题,全面考察了模型的数学推理能力。

测试结果显示,豆包和元宝以并列第一的68分成绩脱颖而出,展现了卓越的数学解题实力。相比之下,DeepSeek和通义分别以63分和62分紧随其后,但稍显不足。而文心X1Turbo和o3的表现则令人遗憾,尤其是o3,仅得34分,显示出对高考数学题目的适应性有待提高。

深入分析各模型的答题情况,豆包、通义和元宝在单选题上表现优异,均获得了35分。DeepSeek因两道题失误而失分,最终得30分;而o3在单选题上更是表现不佳,仅得20分,错误率高达50%。然而,在多选题方面,豆包、DeepSeek和元宝均展现出了强大的稳定性,三道题全部答对。

值得注意的是,尽管通义在答题速度上表现出色,但在多选题的关键时刻出现了判断失误,导致得分不理想。此次测试不仅揭示了各模型在数学解题上的潜力和短板,也反映出它们在逻辑推理和细节处理方面的进步与不足。

与去年相比,这些人工智能模型在数学能力上有了显著提升,特别是在公式应用和逻辑推理方面。尽管仍存在一定的错误和缺陷,但此次测试无疑为AI在高考数学领域的应用和发展奠定了坚实基础。

更多热门内容
大厂AI竞赛,谁迈入了盈利快车道?
从呈现结果来看,大厂探索的四种AI业务路径中,“模型即产品”“模型即服务”是相对成熟的变现模式,前者打造了月营收过亿的AI应用,后者则推动云服务再度起飞;“AI即功能”也取得了一定效果;至于硬件,需要长时…

2025-06-09

Meta洽谈超百亿美元投资Scale AI,或创私营公司融资新高?
Meta 据悉正在洽谈对人工智能初创公司 Scale AI 进行数十亿美元的投资,价值可能超过100亿美元。其中一些知情人士表示,这笔融资的价值可能超过100亿美元,使其成为有史以来规模最大的私营公司融资之一…

2025-06-09