DeepMind,谷歌旗下的AI研究巨头,近期推出了一款名为Gemini Robotics On-Device的新模型,这款模型属于视觉-语言-行动(VLA)基础模型范畴,专为在机器人硬件上本地运行而设计。该模型的特点在于其低延迟推理能力,以及仅需50次演示即可针对特定任务进行微调的高效性。
作为Gemini Robotics家族系列的最新成员,Gemini Robotics On-Device首次实现了模型的微调功能。这对于那些因延迟问题或网络连接限制而需要在本地运行的机器人应用来说,无疑是一个巨大的福音。该模型能够遵循自然语言指令,并通过视觉感知来识别和推理环境中的物体。DeepMind在双臂Aloha机器人上对该模型进行了训练,并在其他多个机器人平台上进行了测试,结果显示,它能够在新硬件上成功处理复杂任务。
DeepMind强调,Gemini Robotics On-Device的推出,标志着在提升机器人模型的易用性和适应性方面迈出了重要一步。这款本地解决方案将有助于解决机器人社区面临的延迟和连接性挑战。Gemini Robotics SDK的发布将进一步加速创新,使开发者能够根据自己的特定需求调整模型。DeepMind鼓励感兴趣的开发者通过可信测试程序注册,以获取模型和SDK的访问权限。
回顾今年早些时候,DeepMind首次介绍了Gemini Robotics家族系列。该系列基于谷歌的Gemini 2.0大型语言模型(LLMs),并增加了一个用于物理行动的输出模态。除了这些模型外,DeepMind还发布了多个基准测试,包括用于评估机器人安全机制的ASIMOV基准测试和用于测量视觉推理能力的具身推理问答(ERQA)评估数据集。这些基准测试为机器人领域的研究和发展提供了重要的参考。
在测试过程中,DeepMind展示了其模型快速适应新任务的能力。对于包括准备食物和玩牌在内的7种不同任务,他们通过对模型进行最多100次演示来进行微调。结果显示,平均而言,使用他们的模型,机器人成功完成任务的时间超过了60%,击败了当前最佳的本地VLA模型。值得注意的是,Gemini Robotics模型的离线版本表现更为出色,成功率接近80%。
在Hacker News上关于Gemini Robotics On-Device的讨论中,一位用户表示了对VLAs前景的乐观态度。他认为,VLAs有望成为机器人领域的“ChatGPT时刻”,即实现重大突破。多模态LLMs已经内置了对图像和文本的大量理解,而VLAs则是这些模型的微调版本,用于输出可以驱动机器人的特定指令序列。这位用户还指出,虽然目前大家主要关注机器人手臂的物体操纵能力,但这种方法同样适用于其他任何任务。例如,通过微调,一台智能割草机就能理解“草坪”、“割草”等指令,并避免破坏路径上的玩具。
目前,Gemini Robotics On-Device尚未广泛可用,但感兴趣的开发者可以注册等待名单以获取更新信息。同时,DeepMind的网站上还提供了一个与Gemini Robotics On-Device相关的模型——Gemini Robotics-ER的互动演示。Gemini Robotics SDK也可以在GitHub上找到,供开发者下载和使用。