ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

浙江大学新突破:AI学会“主动转头”观察,复杂场景问答更精准

时间:2026-01-13 04:14:38来源:互联网编辑:快讯

当你在房间里寻找丢失的钥匙时,不会固定站在某个位置盯着看,而是会来回走动、弯腰查看、变换观察角度。如今,浙江大学联合海外科研团队开发出一种名为“视角链”的智能技术,让AI系统也能像人类一样主动调整观察视角,在三维场景理解领域取得突破性进展。这项创新成果已发表在国际知名学术平台上,为解决视觉语言模型的空间推理难题提供了全新思路。

传统AI系统处理三维场景时,如同被固定在几个特定窗口的观察者。当询问“冰箱在哪里”时,如果目标物体不在预设视角范围内,系统往往无法给出准确答案。这种局限在复杂室内环境中尤为突出——家具遮挡、物品重叠、空间布局复杂等因素,使得单一视角的信息收集效率大幅下降。研究团队通过实验发现,随着场景复杂度提升,传统方法的性能指标会出现断崖式下跌。

新提出的视角链技术通过模拟人类探索行为,构建了双阶段观察机制。在粗粒度筛选阶段,系统会像经验丰富的导游那样,根据问题内容快速定位最具潜力的观察区域。例如涉及厨房用具的问题会优先激活厨房区域的视角,而书籍相关查询则聚焦书架附近。随后进入精细化调整阶段,AI通过前后移动、左右旋转、上下俯仰等动作,像侦探般逐步逼近关键信息。这种渐进式推理模式使系统能够持续更新认知,每获得新视角都会重新评估观察重点。

技术实现层面,研究团队将抽象观察需求转化为可执行的几何变换指令。系统定义了包含平移、旋转、视角切换在内的标准化动作库,每个动作都对应精确的三维坐标变换矩阵。当AI决定“向右移动观察”时,系统会立即计算位移参数并更新摄像机位置,生成新视角的图像数据。这种设计将复杂空间导航简化为离散动作序列,使AI无需掌握专业机器人学知识即可实现灵活观察。

实验数据充分验证了该技术的有效性。在包含180个真实室内场景的OpenEQA测试集中,四种主流AI模型应用视角链技术后,平均准确率提升11.56%,最高提升达13.62%。在专注物体定位的ScanQA数据集上,新方法在关键指标上刷新纪录,答案与人类标准的一致性评分达到116分,较前最佳模型提升14.5%。更引人注目的是“测试时扩展”特性——随着观察步数从1增加到7,系统平均性能持续提升2.51%,某些模型甚至获得3.73%的额外提升。

这项突破的核心优势在于其零训练成本特性。不同于需要海量数据重新训练的传统方法,视角链技术通过优化观察策略直接提升现有模型性能。消融实验显示,若跳过粗粒度筛选阶段直接进行精细调整,系统性能会下降4.59%,这验证了战略定位对探索效率的关键作用。不过研究团队也指出,在动态变化或极度混乱的环境中,频繁视角切换可能引入噪声,过长探索路径存在效率衰减风险。

在智能家居领域,配备该技术的AI助手能主动寻找用户遗失物品,不再依赖固定位置的摄像头网络。自动驾驶系统可借此技术优化传感器视角,更好识别盲区障碍物和复杂路口状况。工业机器人通过主动观察,能更灵活应对装配线上的位置偏差。虚拟现实应用中,系统可根据用户视线动态调整虚拟信息叠加的精度和范围。

从认知科学角度看,这项研究重新定义了AI的“观察”维度。传统系统作为被动信息接收者,其能力受限于训练数据的覆盖范围。而视角链技术使AI转变为主动探索者,能够根据问题需求动态调整感知策略。这种转变不仅提升信息获取效率,更接近人类“按需观察”的认知模式——先确定大致范围,再聚焦关键细节,最终形成完整理解。

技术实现上,研究团队创造性地将三维场景表示转化为可操作的几何变换。通过标准化动作库和动态停止机制,系统在保证探索效率的同时避免无效重复。这种模块化设计使其具有良好通用性,可轻松适配不同基础模型和应用场景。实验表明,该方法在物体定位、空间推理、情境理解等任务中均表现出色,精确匹配率最高突破51.1%。

该成果为AI发展开辟了新路径。在硬件资源有限的情况下,通过优化推理策略提升性能成为可能。未来研究将聚焦于探索效率优化、动态环境适应、多模态感知融合等方向。随着技术成熟,我们有望看到更多具备主动感知能力的智能系统,它们能像人类一样灵活观察环境,在复杂场景中做出更准确的判断和决策。

更多热门内容