地理空间大模型助力，AR眼镜能否迎来精准定位新时代？-人工智能-ITBear科技资讯

【ITBEAR】近日，知名增强现实（AR）技术公司Rokid推出了其最新一代AR眼镜——Rokid Glasses，该眼镜集成了摄像头、多模态大模型以及光波导技术，实现了对真实世界的深度感知与用户交互的显著提升。然而，尽管技术进步显著，当前的AI模型在理解真实世界的空间关系上仍面临巨大挑战。

具体而言，现有的AI视觉模型主要依赖于二维照片进行物体识别，缺乏像人类一样的空间理解能力，难以准确描述物体间的相对位置和空间关系。这一局限性不仅影响了AR技术的进一步发展，也限制了AR眼镜在实际应用中的广泛普及。

为了突破这一瓶颈，AR技术的未来或许需要从更先进的AI大模型中寻找答案。早前，《Pokémon Go》的开发商Niantic宣布正在开发一种名为“地理空间大模型”（LGM）的新技术，旨在利用大规模机器学习来理解和模拟真实世界的空间关系。

Niantic认为，通过大语言模型的训练方式，AI有望实现超越人类的空间理解能力，即“空间智能”。这一野心的背后，是Niantic在全球范围内收集的大量真实影像和地图数据，这些数据来自于其热门游戏《Pokémon Go》和《Ingress》的玩家。Niantic还开发了视觉定位系统（VPS），能够在3D地图中根据单个图像确定用户的位置。

事实上，Niantic在2021年已经发布了一项名为ManyDepth的技术，该技术能够通过单个手机摄像头直接创建3D地图，将二维图像转化为带有深度信息的三维图像，而无需依赖LiDAR等深度传感器。

Niantic的LGM模型目前已经训练了超过5000万个神经网络，拥有超过150万亿个参数，能够在全球超过100万个位置运行。该模型的目标是在全球范围内实现对地理空间的共同理解，即使对于那些未被玩家扫描过的地区也能提供准确的空间信息。

对于AR眼镜而言，LGM模型的意义不仅在于提供了高精度的空间定位能力，更重要的是，它使计算机能够更准确、高效地感知和理解物理空间，从而深刻改变人与机器在物理世界中的交互方式。这一技术突破有望推动AR眼镜以及智能机器人等设备的普及和应用。

然而，尽管LGM模型在理论上具有巨大的潜力，但在实际应用中仍面临诸多挑战。首先，LGM模型在中国等尚未出现类似《Pokémon Go》这样的AR+LBS游戏市场的地区，缺乏足够的用户数据和场景应用。其次，LGM模型目前仍在开发中，其实际表现和未来前景尚难以断言。

尽管如此，AI大模型对AR眼镜的影响已经显而易见。近年来，AR眼镜的关键转变在于大模型带来的自然理解能力的大幅提升，使得人机语音交互变得更加自然和流畅。这一变化为AR眼镜的爆发提供了前提条件。

从交互体验的角度来看，AI语音交互的引入显著改善了AR眼镜在人机交互方式上的短板。同时，大模型也在推动计算机视觉能力的“基因突变”，为AR眼镜的未来发展方向提供了更多可能性。尽管目前AI视觉的价值尚未完全展现，但基于摄像头的AI视觉（端云混合）在理论上具有更高的潜力，能够降低空间交互的复杂度和门槛，减少传感器和传统计算开销，从而实现重量和成本的降低以及续航的提升。