ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI高考数学大比拼,豆包元宝并驾齐驱,o3表现引思考!

时间:2025-06-09 11:20:59来源:ITBEAR编辑:快讯团队

近日,一场别开生面的高考数学模拟测试吸引了广泛关注。此次测试并非由传统考生参与,而是六大人工智能模型——字节的豆包、腾讯的元宝、阿里的通义、百度的文心X1Turbo、深度求索的DeepSeek以及OpenAI的o3,共同挑战2025年新课标Ⅰ卷的14道客观题。

测试环境严格,所有模型在无系统提示和联网搜索的条件下独立作答,且每个模型只有一次答题机会。测试题目总分73分,包括单选题、多选题和填空题,全面考察了模型的数学推理能力。

测试结果显示,豆包和元宝以并列第一的68分成绩脱颖而出,展现了卓越的数学解题实力。相比之下,DeepSeek和通义分别以63分和62分紧随其后,但稍显不足。而文心X1Turbo和o3的表现则令人遗憾,尤其是o3,仅得34分,显示出对高考数学题目的适应性有待提高。

深入分析各模型的答题情况,豆包、通义和元宝在单选题上表现优异,均获得了35分。DeepSeek因两道题失误而失分,最终得30分;而o3在单选题上更是表现不佳,仅得20分,错误率高达50%。然而,在多选题方面,豆包、DeepSeek和元宝均展现出了强大的稳定性,三道题全部答对。

值得注意的是,尽管通义在答题速度上表现出色,但在多选题的关键时刻出现了判断失误,导致得分不理想。此次测试不仅揭示了各模型在数学解题上的潜力和短板,也反映出它们在逻辑推理和细节处理方面的进步与不足。

与去年相比,这些人工智能模型在数学能力上有了显著提升,特别是在公式应用和逻辑推理方面。尽管仍存在一定的错误和缺陷,但此次测试无疑为AI在高考数学领域的应用和发展奠定了坚实基础。

更多热门内容
科大讯飞股价上扬1.51%,机构聚焦AI应用落地,讯飞成投资热点
截至2025年8月18日15时,科大讯飞最新股价为49.81元,较前一交易日上涨1.51%。有机构观点指出,AI应用正逐步进入落地期,建议投资者关注相关领域投资机会。 资金流向数据显示,8月18日科大讯飞主…

2025-08-19