近日,一场别开生面的高考数学模拟测试吸引了广泛关注。此次测试并非由传统考生参与,而是六大人工智能模型——字节的豆包、腾讯的元宝、阿里的通义、百度的文心X1Turbo、深度求索的DeepSeek以及OpenAI的o3,共同挑战2025年新课标Ⅰ卷的14道客观题。
测试环境严格,所有模型在无系统提示和联网搜索的条件下独立作答,且每个模型只有一次答题机会。测试题目总分73分,包括单选题、多选题和填空题,全面考察了模型的数学推理能力。
测试结果显示,豆包和元宝以并列第一的68分成绩脱颖而出,展现了卓越的数学解题实力。相比之下,DeepSeek和通义分别以63分和62分紧随其后,但稍显不足。而文心X1Turbo和o3的表现则令人遗憾,尤其是o3,仅得34分,显示出对高考数学题目的适应性有待提高。
深入分析各模型的答题情况,豆包、通义和元宝在单选题上表现优异,均获得了35分。DeepSeek因两道题失误而失分,最终得30分;而o3在单选题上更是表现不佳,仅得20分,错误率高达50%。然而,在多选题方面,豆包、DeepSeek和元宝均展现出了强大的稳定性,三道题全部答对。
值得注意的是,尽管通义在答题速度上表现出色,但在多选题的关键时刻出现了判断失误,导致得分不理想。此次测试不仅揭示了各模型在数学解题上的潜力和短板,也反映出它们在逻辑推理和细节处理方面的进步与不足。
与去年相比,这些人工智能模型在数学能力上有了显著提升,特别是在公式应用和逻辑推理方面。尽管仍存在一定的错误和缺陷,但此次测试无疑为AI在高考数学领域的应用和发展奠定了坚实基础。