ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

谷歌DeepMind机器人模型新突破:跨本体协作,解锁复杂任务新能力

时间:2025-09-28 07:02:13来源:互联网编辑:快讯

谷歌DeepMind近日在机器人领域取得重要突破,推出Gemini Robotics 1.5系列模型,通过创新性的思维链机制与模型协作架构,显著提升了机器人的自主决策能力。该系列包含两款核心模型:Gemini Robotics 1.5作为视觉-语言-动作(VLA)模型,承担机器人运动控制功能;Gemini Robotics-ER 1.5作为视觉语言模型(VLM),专注物理世界推理与任务规划。这一组合被业界视为将AI智能体引入现实物理世界的关键突破。

作为执行层核心,Gemini Robotics 1.5创新性地引入动作迁移机制,实现了跨机器人平台的技能迁移。该模型通过统一建模不同机器人的运动特性,使在ALOHA机器人平台习得的技能(如打开抽屉)可直接应用于Apollo人形机器人。其具身思考功能更赋予机器人"三思而后行"的能力——在执行任务前生成自然语言形式的思考轨迹,将复杂指令拆解为可执行的子任务。当遇到突发状况(如移动中杯子掉落)时,模型能实时调整计划,展现出强大的环境适应能力。

负责战略规划的Gemini Robotics-ER 1.5则展现出卓越的推理性能。该模型在15项学术具身推理基准测试中全面超越GPT-5等主流模型,特别是在空间理解与任务进度评估方面表现突出。其原生支持数字工具调用功能,可实时连接谷歌搜索获取信息,或调用第三方函数处理特定任务。在"整理桌面"的典型场景中,模型能准确识别物品类别,结合当地垃圾分类规则,指挥机器人完成从识别到投放的全流程操作。

安全机制方面,谷歌DeepMind构建了多层级防护体系。顶层设置安全判断机制,底层部署碰撞避免等子系统,同时发布升级版ASIMOV安全基准测试。该数据集新增视频模式与边缘场景覆盖,在语义安全性评估中,Gemini Robotics-ER 1.5展现出对物理约束的精准理解能力,能有效规避潜在风险。

目前开发者可通过Gemini API调用Gemini Robotics-ER 1.5模型,Gemini Robotics 1.5则优先向合作伙伴开放。技术报告显示,该系列模型已具备开箱即用的跨平台任务执行能力,这得益于其融合机器人专属数据与互联网公开数据的混合训练策略。这种设计使模型既能掌握抓取、双臂协作等专业技能,又可借助海量世界知识提升泛化性能。

行业观察指出,跨机器人平台适配正成为技术发展新趋势。除谷歌外,宇树科技近期开源的UnifoLM-WMA-0模型也采用类似架构,验证了多本体训练路径的可行性。随着动作迁移、具身推理等技术的成熟,机器人模型正从特定场景专用向通用智能体演进,这场变革或将重新定义人机协作的边界。

更多热门内容
优艾智合9月26日赴港交所递表,2024年工业移动操作机器人全球收入登顶
优艾智合是全球领先的工业具身智能科技公司,借助移动操作机器人推动工业智能化变革,为多行业提供“一脑多态”具身智能机器人解决方案。 截至2025年9月22日,其解决方案已在30多个国家及地区销售,客户涵盖全球…

2025-09-28

郑州经贸学院部署重点学科与科研平台建设 明确经费规范及发展目标
为提升重点学科和科研平台建设水平,进一步规范和加强经费管理,我校于9月25日下午在行政楼3303会议室召开了重点学科和科研平台建设工作部署会,副校长刘登义,省、校级重点学科带头人,省、市、校级科研平台负责人…

2025-09-28

神龙拜耳钢管光伏支架:材质、设计与应用全方位解析
在光伏发电项目中,支架需要长期承受风雨、温差等自然条件,因此材料的稳定性和耐久性尤为重要。 在实际应用中,支架的防腐性能不容忽视。总的来说,选择合适的支架产品对光伏系统的安全运行和发电效率都有重要影响。 …

2025-09-28