谷歌DeepMind近日在机器人领域取得重要突破,推出Gemini Robotics 1.5系列模型,通过创新性的思维链机制与模型协作架构,显著提升了机器人的自主决策能力。该系列包含两款核心模型:Gemini Robotics 1.5作为视觉-语言-动作(VLA)模型,承担机器人运动控制功能;Gemini Robotics-ER 1.5作为视觉语言模型(VLM),专注物理世界推理与任务规划。这一组合被业界视为将AI智能体引入现实物理世界的关键突破。
作为执行层核心,Gemini Robotics 1.5创新性地引入动作迁移机制,实现了跨机器人平台的技能迁移。该模型通过统一建模不同机器人的运动特性,使在ALOHA机器人平台习得的技能(如打开抽屉)可直接应用于Apollo人形机器人。其具身思考功能更赋予机器人"三思而后行"的能力——在执行任务前生成自然语言形式的思考轨迹,将复杂指令拆解为可执行的子任务。当遇到突发状况(如移动中杯子掉落)时,模型能实时调整计划,展现出强大的环境适应能力。
负责战略规划的Gemini Robotics-ER 1.5则展现出卓越的推理性能。该模型在15项学术具身推理基准测试中全面超越GPT-5等主流模型,特别是在空间理解与任务进度评估方面表现突出。其原生支持数字工具调用功能,可实时连接谷歌搜索获取信息,或调用第三方函数处理特定任务。在"整理桌面"的典型场景中,模型能准确识别物品类别,结合当地垃圾分类规则,指挥机器人完成从识别到投放的全流程操作。
安全机制方面,谷歌DeepMind构建了多层级防护体系。顶层设置安全判断机制,底层部署碰撞避免等子系统,同时发布升级版ASIMOV安全基准测试。该数据集新增视频模式与边缘场景覆盖,在语义安全性评估中,Gemini Robotics-ER 1.5展现出对物理约束的精准理解能力,能有效规避潜在风险。
目前开发者可通过Gemini API调用Gemini Robotics-ER 1.5模型,Gemini Robotics 1.5则优先向合作伙伴开放。技术报告显示,该系列模型已具备开箱即用的跨平台任务执行能力,这得益于其融合机器人专属数据与互联网公开数据的混合训练策略。这种设计使模型既能掌握抓取、双臂协作等专业技能,又可借助海量世界知识提升泛化性能。
行业观察指出,跨机器人平台适配正成为技术发展新趋势。除谷歌外,宇树科技近期开源的UnifoLM-WMA-0模型也采用类似架构,验证了多本体训练路径的可行性。随着动作迁移、具身推理等技术的成熟,机器人模型正从特定场景专用向通用智能体演进,这场变革或将重新定义人机协作的边界。