ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

大模型语言推理强却难破视觉题?BabyVision评测揭秘AI视觉短板

时间:2026-01-12 11:15:31来源:互联网编辑:快讯

在人工智能技术飞速发展的当下,大模型在语言理解和文本生成领域展现出惊人实力,不仅能撰写学术论文、解决复杂数学问题,甚至在顶级学术竞赛中屡创佳绩。然而,当面对幼儿园级别的视觉认知任务时,这些智能系统却集体陷入困境,暴露出基础视觉能力的严重缺失。

由多家顶尖研究机构联合推出的BabyVision评测体系,通过构建包含388道纯视觉题目的测试集,首次对多模态大模型的视觉理解能力进行系统性量化评估。实验结果显示,当前最先进的闭源模型准确率不足50%,开源模型普遍低于25%,而人类基线则稳定在94%以上。这种悬殊差距表明,现有模型在视觉认知层面尚未达到人类学龄前儿童水平。

研究团队将视觉能力分解为四大核心维度:精细辨别要求识别0.1毫米级的形状差异,视觉追踪需要准确解析复杂路径的连通关系,空间感知涉及三维结构的立体推理,模式识别则考验对抽象规律的归纳能力。这些基础能力构成人类视觉认知的基石,却成为当前AI系统的集体短板。在垃圾分类连线任务中,所有模型均无法正确追踪单一路径,而三岁幼儿通过本能观察即可完成作答。

数据构建过程凸显评测的专业性。研究人员从儿童认知教材中提炼出22种基础视觉任务,通过逆向图像搜索技术收集4000余张候选图片,经人工筛选后保留388道高质量题目。每道题目均配备详细解题说明,确保答案完全基于视觉信息推导得出。这种严格设计使得模型无法通过语言捷径获得答案,必须展现真正的视觉理解能力。

评测揭示出四大典型挑战:在非语言细节观察任务中,模型难以捕捉像素级差异;路径追踪任务暴露出连通性理解的缺陷;三维空间任务显示模型缺乏稳定的内部表征;模式归纳任务则证明其过度依赖表面特征统计。这些缺陷源于现有架构将视觉信息压缩为语言符号的处理方式,导致关键细节在转换过程中丢失。

针对传统评测的局限性,研究团队推出BabyVision-Gen生成式评测变体。该版本要求模型通过绘制轨迹、标注关键点等视觉操作完成作答,而非输出文字答案。初步实验表明,生成式推理能使模型表现出更接近人类的行为模式,但在准确性方面仍有待提升。这种将视觉推理"落地"到视觉操作的新思路,为突破现有瓶颈提供了可能方向。

该评测体系已实现完整开源,包含测试集、评测工具和基线模型实现。研究团队强调,视觉基础能力的缺失将严重制约具身智能的发展,一个无法准确识别物体、追踪运动轨迹或理解空间关系的系统,难以在真实物理世界中可靠运行。通过量化诊断22项原子能力,BabyVision为多模态大模型的发展指明了具体改进路径。

更多热门内容