在科幻电影里,机器人精准执行“帮我拿杯咖啡”或“把衣服晾到阳台”这类指令的场景屡见不鲜,然而在现实科研中,赋予机器人这样的高级理解和执行能力,却一直是科研人员面临的巨大挑战。其核心难题,在于机器人具身导航技术存在的现实困境。当前主流的机器人导航方法主要有两类,但都存在明显短板。
指令跟踪导航要求机器人遵循极其详细的指令,例如“左转,出门,直行三米”。这种方式的指令依赖度过高,超出了人类自然交互习惯的细节化引导程度。而预定义物体导航则让机器人寻找某个类别(如“椅子”)的任意实例,却忽略了具体情境。比如在“我想喝咖啡”的任务中,找到“咖啡机”远比找到任意一把“椅子”更重要。这两种方式都存在明显的“语义鸿沟”,导致机器人无法理解人类高级指令背后的真正意图,也难以处理“茶室左边桌子上的水果”这类包含复杂空间关系的任务。在现实世界中,人类指令具有开放、抽象且充满上下文关联的特点,这使得现有导航机器人在面对真实、复杂的家居或办公环境的长视域导航任务时,成功率极低。
为解决上述困境,清华大学联合北京智源人工智能研究院、中科院自动化所、北京大学等机构,提出了分层框架NavA³,为机器人装上了“分层导航系统”。该框架的核心思想是将复杂的长距离、开放式导航任务,分解为“全局规划”和“局部执行”两个层次,模拟了人类在陌生环境中寻找目标的思维方式。
在全局策略方面,其核心功能是“从高级指令到目标区域的映射”,依托“Reasoning - VLM”与“全局3D场景表示”两大组件,解决“去哪里找”的问题。机器人首先会通过3D场景构建,将整个环境生成一张立体地图。具体操作是,用相机拍摄大量RGB照片,再结合LiDAR传感器(类似“激光眼”)生成密集的3D点云,每个点代表场景中的3D坐标。接着运用特征点匹配算法(如SIFT、ORB)建立帧间对应关系,通过网格重建生成连贯的3D几何结构,最后标注出“茶室”“会议室”“阳台”等区域的语义信息。
Reasoning - VLM是全局策略的“决策核心”,它通过结构化提示模板引导指令解析与空间推理。例如面对“获取咖啡”这类高级指令时,模型会先通过语义分解推断出核心目标物体(即“咖啡机”),再基于已构建的全局场景,计算目标物体在各个区域的条件概率,筛选出概率最高的目标区域,最后在目标区域的局部边界内随机采样初始航点,为后续的局部策略提供导航起点。通过这一系列操作,机器人的搜索范围从整个建筑缩小到特定功能区域,导航效率大幅提升。
局部策略聚焦于在目标区域内实现物体精准定位,核心组件为“NaviAfford模型”,解决“具体找哪里”的问题。NaviAfford模型的核心优势在于“空间感知可供性理解”,这种能力的构建依赖于大规模数据集的训练。
在数据集构建上,研究团队从LVIS、Where2Place数据集中筛选出5万张室内场景图像,生成100万个“图像 - 问答”样本对,同时将实例分割掩码转换为目标检测格式,并在每个边界框内采样5 - 8个代表点,以此提升空间粒度。在可供性标注方面,设计了两类标注维度,即物体可供性(标注目标物体与参考物体的方向关系,如“沙发前的电视”)与空间可供性(标注满足任务约束的自由空间,如“壁橱内可挂衣区域”)。模型架构采用“视觉 - 语言”双分支结构,其中文本分支负责处理查询指令,视觉分支对RGB图像进行编码,再通过特征映射将视觉信息融入语言模型的嵌入空间,最终输出精准的目标点坐标,实现目标物体的定位。
为了让NaviAfford模型具备强大的空间感知能力,研究团队构建了一个包含100万份样本的“空间感知物体可供性”数据集。该数据集不仅告知模型“这是什么物体”,更关键的是传递了“物体通常如何与其他物体在空间上关联”的信息,为模型能力奠定基础。
在严格的实验评估中,NavA³展现出了显著优势。研究团队构建了包含会议室A、会议室B、茶室、工作站、阳台五个不同场景的基准测试集,每个场景设置10个导航任务,总计50个任务,且每种方法对每个任务均测试10次。结果显示,NavA³的平均成功率达到66.4%,而此前表现最佳的MapNav方法仅为25.2%。以工作站场景为例,NavA³的成功率高达76%,MapNav却只有28%;导航误差方面,NavA³在会议室A的误差仅1.23米,而MapNav则达到7.21米,这表明NavA³真正做到了“精准定位到目标旁边”。更有意思的是,GPT - 4o、Claude - 3.5等通用视觉语言模型在这类复杂导航任务中成功率几乎为零,它们虽能看懂图片、听懂指令,却无法将“指令”与“空间导航”有效结合,而NavA³的分层设计恰好填补了这一空白。
更NavA³框架成功部署在了轮式移动机器人和四足机器人这两种形态完全不同的机器人平台上,这证明了该方法的通用性和强大的跨平台适应能力,为未来的大规模实际应用铺平了道路。