ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

WRC 2025|陈建宇:向人学习是构建通用人形机器人的最短路径

时间:2025-08-14 10:23:57来源:互联网编辑:茹茹

近日,在2025世界机器人大会(WRC)主论坛上,北京星动纪元科技有限公司创始人陈建宇发表了题为《构建通用人形机器人》的演讲,分享了星动纪元打造通用人形机器人的思路——将通用大脑与通用本体相结合,同时强调向人类学习是实现通用人形机器人的最短路径,并以此阐述发展通用人形机器人的原因与构建路径,全面展示了星动纪元在该领域的成果与愿景。

以下为陈建宇演讲内容实录:

通用机器人是AI下一站

将革新社会生产力与服务

“我们最近发布了两款全尺寸的人形机器人 —— 一款双足,一款轮式。人形机器人不仅能完成高爆发的360°旋转跳、跳街舞这样的运动控制类动作,还能胜任物流分拣、叠衣服、搬运、扫码识别、打螺丝等各种各样通用的操作任务。”

“我们认为通用机器人一定是AI下一步的趋势,可以看到AI已经逐步渗透至电脑、手机等各类终端,现在正在从思考走向行动,智能汽车就是其中一个例子,接下来机器人由于有更强大、更通用的移动和操作能力,未来必将带来整个社会生产力和服务力的革新。”

传统软硬件模式难成通用

易陷商业牢笼

“为什么做这样一个通用的人形机器人,我们认为如果还是依靠传统的机器软硬件方案,难以实现真正的通用性。尽管目前机器人种类已经比较繁多,但是实际上相比于刚刚展示的几大终端产品来说,它的数量还是非常少的,这是因为每一个场景都要建立一套独立系统,我们认为这样的硬件堆砌无法催生最终的智能进化,这种专业的系统最终会带来商业牢笼,使我们无法真正让机器人规模化,这也就是为什么机器人整个领域到目前为止虽然发展了半个多世纪,仍未出现真正意义上的巨头。”

通用人形机器人 = 通用大脑 + 通用本体

向人学习是通用机器人的最短路径

“如何构建通用机器人呢?我们认为最短的路径就是直接向人学习,因为人类是现实世界中唯一存在的通用具身智能体,我们的语言模型为什么成功,正是因为它借鉴了人类语言的学习过程,从海量人类文本中学习而来。”

“机器人涉及维度更广,因此需要构建人的通用大脑,不光要有语言功能,还要有能控制双手、双腿在物理世界中交互的功能,同时我们还要构建与它匹配的通用本体。”

通用大脑ERA-42:

端到端模型是机器人通用化的关键路径

“第一个部分先讲讲通用机器人的大脑,我们发布了一款ERA-42的通用大脑模型,这是一个端到端的具身模型,将视觉感知、行为理解、规划与执行融为一体。”

“为什么做这样一个端到端的模型呢?这来自于我们从语言模型中得到的启发,语言模型出来之后短短几个月的时间内,把以前NLP(自然语言处理)整个领域完全颠覆了。NLP里构建了很多不同的模型,去解决各种各样不同的任务,有非常多的算法,但是最终被Transformer这一简洁架构颠覆了,并在各个方面都展现出了更强大的性能。所以我们认为机器人应该沿着这样一条路才能带来最终想要的通用模型。”

“但这样一个模型还面临以同一模型控制通用人形本体的挑战,我们已在此方面努力攻关并且取得了一些成果,我们目前已经能够实现用同一个模型控制高自由度机器人本体并能在相对较少的训练数据下达到很好的性能。”

具身模型研究范式需持续突破

才能不断打破瓶颈

“这背后是我们一直在努力突破具身模型的研究范式,我们认为实际上目前最大的瓶颈还是在于具身最终模型的范式上,需要不断的突破迭代模型范式才能打破瓶颈。我们把具身模型发展的过程分为四个阶段,也是我们星动纪元探索的四个阶段。”

“第一阶段,我们探索如何将具备人类认知能力的语言模型和视觉语言模型引入具身智能中,但在这个阶段,它与我们的行为动作仍然不是相匹配的模型,仍然是分成了两个单独的模型,这大概是在2023年的时候ChatGPT刚出来之后大家所做的事情。”

“第二阶段,现在主流的模型是类似于以π0还有Helix等为代表的快慢系统的模型。我们称之为‘实时行动且深度思考’—— 将语言模型的深度思考能力与行为动作的实时执行能力结合,形成端到端模型,虽然是一个快慢系统,但是端到端训练的,我们很早就进行了探索,早在去年年中就发表了相关论文。”

“第三阶段,以Sora为代表的生成式的模型,为什么做这个事情?机器人是跟物理世界有具体的交互,但是语言模型仍然停留在抽象的空间理解。而像Sora这类生成式模型实际上是能够捕捉非常精细的物理交互的变化范式。”

“还有非常重要的是它能从广泛无标注的互联网视频数据中来学到物理世界的规律和知识,即我们所称的世界模型,这种方式间接解决了数据稀缺瓶颈的问题,可以直接自监督的通过大量的互联网无标注视频数据来学习。”

“第四阶段,强化学习范式,这个代表是DeepSeek。它之所以广受关注,就是因为它的R1模型是使用了强化学习。此前的VLA(视觉-语言-动作模型)具身模型基本上还是属于从人类的示范里进行完全的模仿来学习。但这样的话会有两个问题,一个是没法超越示范本身的能力。第二个是对于物理世界具体的示范表现欠佳。我们也做了相应的探索,用强化学习来训练基于模仿学习的VLA模型,最终提升了它的成功率和效果。”

ERA-42预训练如“开卷考”

让机器人“看会”任务执行

“前面一个阶段是预训练阶段,我们称之为‘开卷考’,也就是‘看会’——类似于小孩,前面几年其实也不会做什么具体的事情,但一直在观察这个世界,这与我们的预训练过程类似,该阶段不仅融合了各类机器人数据,还纳入了海量无标注的互联网视频数据,是一个融合世界模型的预训练模型,该模型能达到零样本生成执行策略,而且这个策略可以以高清视频的方式呈现出来,能够预想并演示全新场景与任务。”

ERA-42真机微调如“真实践”

让机器人“学好”任务执行

“在此基础上,可认为模型已具备对世界的通用常识。接下来就是具体的进行实践和优化,需要模型依托机器人专属本体,在真实的物理世界里收集真实的数据,进而对其进行微调。”

“由于有前面这一部分开卷看会的部分,所以我们在第二个阶段只需要非常少量的真机数据微调就能大幅提升任务的准确度。在这样的范式之下,也能够有效地解决我们的数据瓶颈问题。”

ERA-42打破数据瓶颈

让机器人“有得学”

“这是我绘制的机器人数据金字塔示意图,最顶层为真机数据,它是质量最高的,但我们知道它的量是非常少的。左上角对比了一下GPT 4和Sora所基于的文本或者是视频数据量,相比之下,机器人真机的数据量是相当少的,仅靠这个数据量,其实是很难让我们达到已有的泛化能力。”

“所以说我们进一步引入了金字塔下面两层,一个是人类行为的数据,现在的VR和智能眼镜做到了大范围的发展和逐步的普及,借此能够高效采集人类第一人称行为数据,其成本远低于真机数据采集。底层的是更庞大的互联网数据,涵盖人类行为(包括第一人称、第三人称及多人互动)、自然现象、动物活动等数据。也就是发生在地球上的一切,通过世界模型都能够从中学习。通过这种数据架构,随着模型迭代,我们所需的真机数据量已大幅降低。”

“同时,我们还通过不断提升模型对本体的控制难度,开展跨任务和跨本体学习。我们自去年开始在单个机械臂上开展实验,然后逐步升维到7轴机械臂加五指灵巧手,让我们的模型直接端到端的控制每个手指的动作,随后进一步迁移到双臂人形机器人上,进一步到更完整的形态。”

通用本体

人形是终局通用形态

“第二个部分是关于通用本体模块,关键词是“通用化”、“模块化”和全尺寸人形”。为什么做这样一个人形机器人?因为我们人类环境是由人类构建的并且为人类构建的,我们相信终局最通用的形态是人形,但打造人形机器人不仅是目的,也是手段——通过做人形机器人,我们能够以更低的成本收集到更多的数据,并且刚刚所说的不管是第一人称的人类行为数据还是互联网数据,都能够更好地迁移到我们的人形机器人本体上。”

硬件通用模块化

才能使机器人适应不同场景

“为了使机器人硬件更好地适配各类场景,我们采取了硬件通用化和模块化的方式,可以看到我们的模块化是多层的。最顶层是整机本体层,我们有面向工业的星动L7还有面向服务业的星动Q5机器人,且它们下层都基于同一套关节模组和灵巧手。灵巧手也是由小型关节模组构成,这些关节模组下层包含电机、减速器、驱动器等核心部件,所有这些部件均由我们自主研发。因此,我们自研软硬件,使硬件能够更好地适配软件,软件和硬件能协同发展,这也是软件定义硬件的实践。”

“模型 - 本体 - 场景数据”

构建物理世界AI进化飞轮

“总结来说,通用大脑+通用本体,它们的融合使得我们能够找到这样一个构建通用人形机器人的范式,再通过场景和数据形成物理世界AI进化飞轮。即是在顶层构建统一模型,该模型可通用赋能各类人形机器人本体(包括灵巧手),而不同本体适配不同场景,场景应用又会反馈数据形成不断迭代进化的闭环飞轮。”

“目前我们通过物理AI进化飞轮取得了不错的效果,我们也被英伟达评选为全球14强人形机器人之一,同时入选2025摩根士丹利人形机器人产业报告人形机器人全球16强。截至今年7月,我们产品的交付量已经突破了300台,获得了全球头部科技巨头的青睐,全球市值前十的科技巨头中,九家已成为我们的客户。”

更多热门内容
当国民品牌遇上国民舅舅 小天鹅冰箱以旧换新风暴闪耀登场
当国民家电小天鹅遇上“国民舅舅”王耀庆,一场关于健康品质生活的焕新风暴再次席卷全国。8月初,国家以旧换新补贴政策宣布再次开启,第三批高达690亿元的国补资金也已正式下达,为持续提升消费者的购物体验,小天鹅冰箱携手王耀庆亲授以旧换新“秘笈”。旧的不要,“舅

2025-08-14

合作升级,米兰体育成为斯特拉斯堡俱乐部官方合作伙伴
近日,斯特拉斯堡足球俱乐部与米兰体育正式达成合作协议,后者成为俱乐部2025/26赛季官方区域合作伙伴。根据官方披露,合作周期将从2025年7月1日持续至2026年6月30日,涵盖赛事推广、球员发展支持以及球迷互动等多个维度。这项合作的落地,被外界普遍视为斯特拉斯堡俱乐

2025-08-14

塞尔塔俱乐部携手星空体育,共谋新赛季蓝图
【维戈讯】西甲塞尔塔足球俱乐部近日官宣,将在2025/26赛季与星空体育展开官方合作,双方将在技术应用、阵容建设及球迷体验等多个领域展开协作。此次合作并非单纯的商业露出,而是围绕竞技与服务的多维度共建。星空体育将为塞尔塔配备定制化的数据采集与分析体系,用于

2025-08-14

​远离山寨收费陷阱!海尔官方售后客服电话查询指南(2025 年最新版)
在信息繁杂的网络环境中,海尔集团注意到部分消费者因未能获取官方售后电话而遭遇山寨维修服务。为保障用户权益,现郑重说明海尔全品类产品(含冰箱、空调、洗衣机、电视等)及子品牌(卡萨帝、统帅等)统一且唯一的 24 小时售后热线:4006-999-999。以下是权威查询官方电话

2025-08-13

Gitee 移动软件工厂:突破网络限制的开发新模式
近年来,在软件工厂的大趋势下,各大单位都在致力于打造专业化的软件工厂,提升研发体系化能力。然而在实际研发过程中,特别是在嵌入式开发、FPGA 开发及涉密系统场景下,常常会遇到如下问题:1. 研发人员需前往外部实验室、测试基地或现场环境进行嵌入式系统或专用硬件

2025-08-13

蜜蜂科技BEEPLUS探索“国企+民企”优势互鉴,从空间到生态构建全周期科创金融服务体系
8月8日,深圳科技园金融基地BEEPLUS项目在一众嘉宾的共同见证下正式启动。深圳市南山区人才工作局局长黄穗,南山区企服中心副主任吴烁梼,深业集团有限公司商业资产总监姚启怀,深圳科技园集团党委书记兼董事长孟超,党委副书记兼总经理林展伟,党委副书记兼纪委书记郭

2025-08-13

2025年折叠手机推荐必看:轻薄折叠机新标杆,首选三星Z Fold7/Z Flip7
三星Galaxy Z Fold7和Z Flip7作为2025年最新折叠屏旗舰,精准回应了用户对轻薄化、性能升级与AI实用性的核心需求。Z Fold7以4.2mm展开厚度、215g重量实现行业领先的轻薄平衡,同时搭载骁龙8至尊版处理器、2亿像素主摄及多模态AI功能,兼顾商务办公与娱乐场景;Z Flip7则

2025-08-13

10万左右SUV车型:7款高性价比涵盖燃油混动,助你选车
在10万级SUV市场,燃油与混动车型的激烈竞争为消费者带来了前所未有的选择空间。无论是追求经济实用的燃油车型,还是向往低能耗与智能化的混动车型,都能在这个价位找到精准匹配需求的产品。以下从价格优势、核心亮点与适用场景三个维度,为您推荐五款值得关注的SUV车型

2025-08-13

领雁科技营销运营平台:赋能银行智慧营销解决方案,开启精准运营新篇章
在金融科技迅猛发展的当下,银行营销面临着客群精细化运营、资源高效整合、数据深度应用等多重挑战。领雁科技凭借深厚的行业积累与技术实力,推出的营销运营平台,以 “银行智慧营销解决方案” 为核心,为银行业务增长注入强劲动力,重新定义了银行营销的高效模式。领雁

2025-08-13

火山引擎全面开放PromptPilot,数据产品能力上新
8月13日,在 FORCE Link AI 创新巡展·青岛站,火山引擎升级提示词工具 PromptPilot,支持任意模型的提示词优化,并面向所有用户全面开放。同时,Data Agent 上线“一客一策”,AI 数据湖服务 LAS 上线“AI 算子广场”,帮助企业用活数据资产。现场,山东大学、青岛港也

2025-08-13