一项名为“ClockBench”的全新测试揭示,人类在读取指针式时钟方面的准确率高达89.1%,而当前最先进的人工智能模型准确率仅为13.3%。这一差距凸显了AI在视觉推理能力上与人类的显著差异,尤其是在处理复杂视觉信息时,AI的表现远未达到预期水平。
该测试由研究者阿莱克·萨法尔设计,旨在通过定制化的指针式时钟数据集,评估AI在视觉推理任务中的表现。测试中,来自6家企业的11个大型语言模型与5名人类参与者展开对比。数据集包含180个独特的指针式时钟,涵盖36种钟面设计,融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素,确保测试的复杂性和多样性。
每个时钟需通过四类问题测试:读取时间、时间计算、按特定角度调整指针及时区转换。为保证公平性,数据集从零构建,避免与模型训练数据重叠。测试结果显示,AI模型在读取时间时的中位误差达1小时,而人类的中位误差仅为3分钟。性能最差的AI模型误差甚至接近3小时,几乎与随机猜测无异。
在参与测试的AI模型中,谷歌旗下的Gemini 2.5 Pro以13.3%的准确率位居榜首,Gemini 2.5 Flash和GPT-5分别以10.5%和8.4%的准确率紧随其后。然而,Grok 4模型的表现令人意外,其准确率仅0.7%,且将63.3%的时钟判定为“无效”,远高于实际无效时钟的比例(180个中仅37个)。这种过度谨慎的策略虽在技术上增加了正确答案数量,但并未真正提升模型能力。
测试还发现,钟面特征对AI判断影响显著。当钟面采用罗马数字时,AI准确率骤降至3.2%;采用圆形数字时,准确率也仅为4.5%。秒针、彩色背景及镜像布局均会干扰AI的判断。相比之下,仅含时针的时钟(准确率23.6%)和采用阿拉伯数字的标准时钟,能让AI取得相对更好的成绩。
一个意外发现是,AI模型在成功读取时间后,能正确完成时间计算、指针调整或时区转换任务。这表明,AI的挑战并非在于时间相关的数学运算,而在于从视觉信息中提取时间的初始步骤。萨法尔分析,原因可能包括:指针式时钟读取对视觉推理能力要求极高;罕见或特殊的钟面设计在训练数据中极少出现;以及将视觉信息转化为文字描述对当前AI模型而言难度较大。
ClockBench被定位为长期基准测试,其完整数据集目前保密,以避免污染未来AI的训练过程,但已有一个公开版本供测试使用。尽管AI在该测试中得分普遍较低,萨法尔认为,性能最佳的模型已展现出基础的视觉推理能力,优于随机猜测。然而,这些能力能否通过扩大现有方法规模提升,还是需要全新技术路径突破,仍是一个待解的问题。
此前,中国一项研究也曾发现多模态语言模型存在类似短板,但当时GPT-4o模型在包含“读时钟、读仪表”的任务中准确率达54.8%。此次ClockBench测试中,AI最高准确率仅为13.3%,既表明新基准测试难度显著提升,也反映出AI在时钟读取能力上并未取得明显进步。