ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

BabyVision评测集发布:主流多模态大模型视觉能力竟不及三岁幼儿?

时间:2026-01-12 19:16:07来源:互联网编辑:快讯

近日,红杉中国旗下评测体系xbench携手UniPat AI团队,共同推出了一项针对多模态大模型视觉能力的全新评测集——BabyVision。该评测集专注于评估大模型在纯视觉场景下的基础能力,不依赖语言提示,力求准确衡量模型对视觉信息的理解和处理水平。

BabyVision评测集将视觉能力细分为四大类别,包括精细辨别、视觉追踪、空间感知以及视觉模式识别。评测内容涵盖22项子任务,总计388道题目。为确保评测的公正性和准确性,测试过程中严格控制语言依赖,确保题目信息无法被完整转化为文本,从而真实反映模型的视觉理解能力。

在评测中,研究团队引入了人类基线作为对比。16位具备本科及以上学历的测试者完成了全部388道题目,结果显示人类准确率高达94.1%。这一数据为后续模型评测提供了有力的参照标准。

与人类表现形成鲜明对比的是,当前主流多模态大模型在BabyVision评测中的表现并不理想。其中,表现最佳的闭源模型Gemini3-Pro-Preview准确率为49.7%,GPT-5.2为34.8%,国内模型Doubao-1.8为30.2%,而开源模型Qwen3VL-235B-Thinking的准确率仅为22.2%。多数模型的得分显著低于3岁儿童的平均水平,凸显出当前大模型在视觉基础能力方面的不足。

研究团队指出,视觉信息中存在大量难以用语言准确描述的内容。一旦这些信息被压缩为语言描述,往往会丢失关键细节,导致模型在需要连续追踪、空间想象和几何归纳等任务中表现不佳。为应对这一问题,团队还推出了生成式评测版本BabyVision-Gen,要求模型通过画图、标注等视觉方式作答。

在生成式评测中,模型在视觉追踪、精细辨别等任务上展现出“更像人类”的行为,例如会尝试绘制轨迹或进行标注。然而,尽管模型在这些任务上表现出一定的进步,但整体仍缺乏稳定达到完全正确解的能力。这一发现进一步印证了当前大模型在视觉基础能力方面的局限性。

BabyVision评测集的发布为多模态大模型和具身智能的发展提供了宝贵的评估工具。通过这一工具,研究人员能够更准确地诊断模型在视觉能力方面的短板,为后续的技术改进和优化提供方向。当前,视觉基础能力仍是AI迈向通用智能过程中需要突破的关键瓶颈。

更多热门内容
光热储能研究生科研指南:巨星教授揭秘破局同质化与创新之道
近日,第十六届太阳能热利用科学技术研究生论坛在湖州西塞科学谷举办,围绕当前太阳能光热储能领域研究生科研现状、创新评价标准及未来研究趋势,华北电力大学教授、博士生导师巨星接受了太阳能光热联盟专访,并结合论坛评审…

2026-06-17

成都人形机器人创新中心签5000台订单 推动具身智能在基建领域应用落地
据了解,各方已达成的关于新产品前期战略共识以及对具身智能工程机器人应用前景的判断,规划未来三年的整体市场应用计划,共同确认首批次合作5000台套具身智能机器人产品,为某大型央企提供服务,是迄今为止国内具身智能…

2026-06-17

高通骁龙Reality Elite XR芯片登场:AI算力飙升,多维度升级引领XR新体验
IT之家 6 月 17 日消息,高通今日发布了骁龙 Reality Elite 全新旗舰 XR 芯片平台,该芯片将于今年秋季率先搭载于Xreal Aura Android XR 设备的外置分体计算盒中。 这…

2026-06-17

高通骁龙Reality Elite旗舰XR芯片发布:AI算力飙升,多维度性能显著升级
IT之家 6 月 17 日消息,高通今日发布了骁龙 Reality Elite 全新旗舰 XR 芯片平台,该芯片将于今年秋季率先搭载于Xreal Aura Android XR 设备的外置分体计算盒中。 这…

2026-06-17

Mindbeam AI发布开源框架Litespark-Inference:让CPU在AI推理中大放异彩
成立仅两年的初创公司 Mindbeam AI 今日发布了一款名为 Litespark-Inference 的开源人工智能推理框架。该框架旨在通过优化算法,让大型语言模型(LLM)在标准消费级中央处理器(CP…

2026-06-17

高通CEO展望:2026迎智能体时代,手机地位生变,APP形态革新
此前,OpenAI以64亿美元收购乔尼·艾夫(Jony Ive)创立的硬件初创公司io,后者正与高通合作开发一款以智能体为核心的手机。AI公司渴望利用这些数据构建更个性化的服务,但这同时也引发了行业对隐私问题…

2026-06-17