ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

浙江大学研究揭秘:AI在三维空间“找角度”复现视角有多难?

时间:2026-06-07 03:46:31来源:互联网编辑:快讯

在人工智能领域,一个看似简单的日常行为——模仿他人拍摄照片的视角,却成为当前AI技术难以攻克的难题。浙江大学人工智能研究团队针对这一现象展开系统性研究,构建了首个专门评估AI空间行动能力的测试平台TVRBench,相关成果以预印本形式公开后引发学界关注。

该研究将人类习以为常的"找角度"行为拆解为复杂的多维任务:需要同时处理视觉信息比对、空间方位判断、路径规划决策和动作执行反馈。当要求AI在虚拟环境中复现指定视角时,现有主流模型的表现与人类形成巨大反差——顶尖商业模型成功率不足13%,开源模型最高仅7.8%,而人类志愿者在相同测试中达到93%的准确率。这种差距在需要穿越多个房间的复杂场景中尤为显著,AI成功率骤降至25%左右。

研究团队搭建的TVRBench平台通过计算机模拟构建了240个三维室内场景,包含厨房、卧室等典型生活空间。测试任务设计极具挑战性:AI需操控虚拟化身在完全未知的环境中,仅凭第一视角画面和目标照片,通过连续移动和转向完成视角匹配。每个动作都会改变环境感知,但系统不提供地图或坐标信息,成功判定要求位置误差小于0.25米且视角偏差小于5度。

实验数据显示,现有AI存在两大典型缺陷:43%的测试中AI陷入原地旋转的无效循环,平均移动位置不足4个却消耗34步动作;在需要连续决策的复杂路径中,83%的步骤是在重复已探索区域。更值得关注的是,当移除行走要求仅测试视角调整时,模型成功率骤升至80.5%,而单纯行走任务成功率仅10%,这暴露出AI在空间行动规划方面的根本性缺陷。

针对这一短板,研究团队开发了四阶段训练框架。通过1600条专家示范轨迹的监督学习,基础模型成功率从2.8%提升至50.8%。但当尝试加入动作推理说明时,性能不升反降——使用视觉记忆的模型成功率从50.8%跌至35.6%。进一步实验表明,冗长的文字推理会干扰模型对视觉信号的处理,且现有标注方式难以准确捕捉连续空间决策所需的动态规划能力。

强化学习实验带来突破性发现:在真实环境模拟中接受多轮训练的模型,在复杂场景中的成功率提升达30%。这种训练方式允许模型在试错中学习纠错策略,相比单步强化学习26.2%的成功率,完整路径训练使模型掌握了应对非最优状态的能力。研究特别指出,视觉-动作历史记忆比纯动作记忆更有效,但需要配合适当的训练策略才能发挥作用。

该研究对AI空间智能发展具有重要启示。当前模型在静态空间理解方面已取得进展,但将视觉认知转化为连续身体行动的能力仍存在断层。TVRBench提供的量化评估体系,为开发真正具备空间行动能力的AI指明了方向。研究团队已开源测试平台代码和训练数据,期待更多研究者在此基础上探索更接近真实世界的导航技术。

在应用前景方面,能够精准复现视角的AI系统可服务于多个领域:室内服务机器人可实现更精准的物体定位,无人机摄影能自动匹配专业构图角度,虚拟现实设备可提供更自然的视角切换体验。这项研究虽然基于虚拟环境,但其揭示的空间认知与行动转化机制,为下一代具身智能的发展奠定了重要基础。

更多热门内容