北京大学物理学院携手校内多个学院,共同揭晓了一项名为“PHYBench”的全新评测体系,该体系专注于衡量大型模型在物理推理领域的实际效能。这一项目的核心驱动力来自朱华星教授与曹庆宏副院长,集结了一支超过200人的精英团队,成员包括物理学院及其他学科的佼佼者,其中不乏全国中学生物理竞赛的金牌得主。
PHYBench精心策划了500道物理题目,内容广泛覆盖从高中物理知识到大学物理课程,乃至物理奥林匹克竞赛的复杂挑战。与传统评估手段不同,PHYBench引入了创新的评分机制——表达式树编辑距离(EED Score),这一方法通过分析模型答案与标准答案在数学表达式结构上的相似性,能够更为精确地评估模型的推理深度。相较于传统的对错评判,EED Score提供的连续分数体系,更能细腻地展现不同模型间的性能差异。
在一次引人注目的“人机对抗”中,81名来自北京大学的学子与顶尖的人工智能模型进行了正面交锋。结果显示,尽管Gemini2.5pro模型作为AI界的佼佼者,但其答题正确率仅为36.9%,而人类专家的平均正确率则高达61.9%,这一结果凸显了人类在物理推理方面的显著优势。PHYBench研究团队深入剖析了模型的错误,将推理过程细分为物理感知与鲁棒推理两大环节,揭示了当前AI在物理推理领域面临的瓶颈。