【ITBEAR】近日,知名增强现实(AR)技术公司Rokid推出了其最新一代AR眼镜——Rokid Glasses,该眼镜集成了摄像头、多模态大模型以及光波导技术,实现了对真实世界的深度感知与用户交互的显著提升。然而,尽管技术进步显著,当前的AI模型在理解真实世界的空间关系上仍面临巨大挑战。
具体而言,现有的AI视觉模型主要依赖于二维照片进行物体识别,缺乏像人类一样的空间理解能力,难以准确描述物体间的相对位置和空间关系。这一局限性不仅影响了AR技术的进一步发展,也限制了AR眼镜在实际应用中的广泛普及。
为了突破这一瓶颈,AR技术的未来或许需要从更先进的AI大模型中寻找答案。早前,《Pokémon Go》的开发商Niantic宣布正在开发一种名为“地理空间大模型”(LGM)的新技术,旨在利用大规模机器学习来理解和模拟真实世界的空间关系。
Niantic认为,通过大语言模型的训练方式,AI有望实现超越人类的空间理解能力,即“空间智能”。这一野心的背后,是Niantic在全球范围内收集的大量真实影像和地图数据,这些数据来自于其热门游戏《Pokémon Go》和《Ingress》的玩家。Niantic还开发了视觉定位系统(VPS),能够在3D地图中根据单个图像确定用户的位置。
事实上,Niantic在2021年已经发布了一项名为ManyDepth的技术,该技术能够通过单个手机摄像头直接创建3D地图,将二维图像转化为带有深度信息的三维图像,而无需依赖LiDAR等深度传感器。
Niantic的LGM模型目前已经训练了超过5000万个神经网络,拥有超过150万亿个参数,能够在全球超过100万个位置运行。该模型的目标是在全球范围内实现对地理空间的共同理解,即使对于那些未被玩家扫描过的地区也能提供准确的空间信息。
对于AR眼镜而言,LGM模型的意义不仅在于提供了高精度的空间定位能力,更重要的是,它使计算机能够更准确、高效地感知和理解物理空间,从而深刻改变人与机器在物理世界中的交互方式。这一技术突破有望推动AR眼镜以及智能机器人等设备的普及和应用。
然而,尽管LGM模型在理论上具有巨大的潜力,但在实际应用中仍面临诸多挑战。首先,LGM模型在中国等尚未出现类似《Pokémon Go》这样的AR+LBS游戏市场的地区,缺乏足够的用户数据和场景应用。其次,LGM模型目前仍在开发中,其实际表现和未来前景尚难以断言。
尽管如此,AI大模型对AR眼镜的影响已经显而易见。近年来,AR眼镜的关键转变在于大模型带来的自然理解能力的大幅提升,使得人机语音交互变得更加自然和流畅。这一变化为AR眼镜的爆发提供了前提条件。
从交互体验的角度来看,AI语音交互的引入显著改善了AR眼镜在人机交互方式上的短板。同时,大模型也在推动计算机视觉能力的“基因突变”,为AR眼镜的未来发展方向提供了更多可能性。尽管目前AI视觉的价值尚未完全展现,但基于摄像头的AI视觉(端云混合)在理论上具有更高的潜力,能够降低空间交互的复杂度和门槛,减少传感器和传统计算开销,从而实现重量和成本的降低以及续航的提升。