AI高考数学大比拼，豆包元宝并驾齐驱，o3表现引思考！-人工智能-ITBear科技资讯

近日，一场别开生面的高考数学模拟测试吸引了广泛关注。此次测试并非由传统考生参与，而是六大人工智能模型——字节的豆包、腾讯的元宝、阿里的通义、百度的文心X1Turbo、深度求索的DeepSeek以及OpenAI的o3，共同挑战2025年新课标Ⅰ卷的14道客观题。

测试环境严格，所有模型在无系统提示和联网搜索的条件下独立作答，且每个模型只有一次答题机会。测试题目总分73分，包括单选题、多选题和填空题，全面考察了模型的数学推理能力。

测试结果显示，豆包和元宝以并列第一的68分成绩脱颖而出，展现了卓越的数学解题实力。相比之下，DeepSeek和通义分别以63分和62分紧随其后，但稍显不足。而文心X1Turbo和o3的表现则令人遗憾，尤其是o3，仅得34分，显示出对高考数学题目的适应性有待提高。

深入分析各模型的答题情况，豆包、通义和元宝在单选题上表现优异，均获得了35分。DeepSeek因两道题失误而失分，最终得30分；而o3在单选题上更是表现不佳，仅得20分，错误率高达50%。然而，在多选题方面，豆包、DeepSeek和元宝均展现出了强大的稳定性，三道题全部答对。

值得注意的是，尽管通义在答题速度上表现出色，但在多选题的关键时刻出现了判断失误，导致得分不理想。此次测试不仅揭示了各模型在数学解题上的潜力和短板，也反映出它们在逻辑推理和细节处理方面的进步与不足。

与去年相比，这些人工智能模型在数学能力上有了显著提升，特别是在公式应用和逻辑推理方面。尽管仍存在一定的错误和缺陷，但此次测试无疑为AI在高考数学领域的应用和发展奠定了坚实基础。