ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

GAIR 2025:具身智能浪潮下,学者共探技术挑战与未来落地新路径

时间:2026-01-08 12:23:35来源:互联网编辑:快讯

在第八届GAIR全球人工智能与机器人大会的“数据&一脑多形”分论坛上,一场围绕“一脑多形”的圆桌讨论引发了热烈反响。在英诺天使基金ED王建明的主持下,浙江大学控制学院副教授、微分智飞创始人高飞,宁波东方理工大学助理教授金鑫,以及上海人工智能实验室青年科学家王靖博,就具身智能、空间智能和世界模型等前沿话题展开了深入探讨。

王建明首先抛出问题,询问三位学者对过去两年具身智能发展的看法。高飞指出,当前技术路线尚未收敛,仍处于探索阶段,这种多样性为创新提供了机会。他强调,具身智能的核心目标是实现通用泛化智能,而非局限于工业自动化。金鑫则表示,高校应聚焦于具身智能的核心问题,如交互、人机协同和多智能体系统,而产业界应负责将技术落地。王靖博则关注具身智能的软硬件协同设计,认为良好的设计将加速技术进步。

在讨论到无人机技术的突破时,高飞展示了其团队在单体机器人自主路径规划、集群飞行操作等方面的成果。他解释,这些能力的实现依赖于发散思维与执行力的结合,以及在无人机和AI领域的交叉优势。他进一步指出,单体机器人的研究正倾向于端到端的技术路线,以降低系统误差和延迟。对于群体机器人,柔性的、分布式的架构是关键。

王建明对无人机的端到端技术提出疑问,高飞澄清,端到端是一种范式,强化学习是一种解法,黑箱是一种模式,三者不应混淆。他强调,解决问题是唯一目标,因此会采用各种解法,包括强化学习,但也会结合基于模型或原理的方法,而非简单的规则基础。

金鑫分享了世界模型在自动驾驶领域的应用,指出特斯拉等第一梯队企业已利用世界模型生成海量数据,覆盖更多场景,并进行闭环测试,优化决策链路。他解释,世界模型的定义尚未统一,李飞飞倾向于像素级重建,而LeCun则认为只需抽象表达机器人的潜在状态。金鑫认为,自动驾驶和机器人对世界模型的要求和技术范式存在差异,但预测未来和记忆能力是共同点。

在讨论世界模型与具身智能的结合时,金鑫提到,LeCun的多模态V-JEPA方案通过表示学习预测未来状态,为具身智能提供辅助。他指出,虽然已有公司将世界模型与具身智能结合,但尚未实现通用智能,仍需时间验证。高飞则认为,世界模型相当于MPC中的预测模块,但数据驱动的方式减少了人工抽象的需求。

王靖博在讨论全身控制时表示,在仿真器中实现不错的控制器不难,但真实世界中需考虑算法和硬件的限制。他指出,硬件能力的上限决定了机器人性能的突破时间。高飞补充,集群学习采用集中学习、分布计算的模式,共同目标驱动各单元协同工作。

在空间智能的讨论中,高飞认为,空间智能的定义尚不清晰,但感知是机器人技术的关键。他指出,SLAM技术为上一代机器人发展奠定了基础,而空间智能则结合了AI技术,进一步建模和学习。王靖博观察到,语义信息在空间智能中的重要性日益凸显。金鑫则举例说明,机器人对复杂空间关系的描述仍存在困难,尤其是对于“从第一排左边数第四个瓶子”这样的指令。

针对空间智能的数据问题,金鑫指出,过去对语义的关注不足,导致缺乏相应解法和数据。高飞认为,大模型的语言模态数据空间关系较弱,需构建专门的数据集对齐信息。王建明提到,具身智能的基座模型在3D模态上仍欠缺,SLAM公司正强调补足3D模态以解决空间智能问题。

在落地应用方面,高飞展望,未来二十年无人机将广泛应用于高空作业,如送货、载人观光等。他承认,当前无人机应用仍面临智能不足的挑战,但AI的发展带来了希望。金鑫指出,工业自动化需求迫切,但高校创业者的想法与现实存在差距。王靖博认为,机器人最终需具备操作能力,但硬件迭代仍面临负载能力、平衡性和灵巧手方案等挑战。

在讨论中美通用机器人创业环境时,高飞表示,无法理解高估值逻辑,强调在中国需走好中国路径,关注事情能否做成。金鑫同意,估值背后因素复杂,资本力量强大,但中国投资人对技术的耐心有所增加。王靖博认为,科研是马拉松,浪潮过后评估标准可能改变。

在观众提问环节,学者们就数据获取方向展开讨论。金鑫提出数据金字塔概念,指出互联网视频数据适合预训练,合成数据可提高泛化性,真机数据则用于遥操。他提到,70%的Web数据、20%的合成数据和10%的真机数据可能是一个比例,但仍在探索中。针对视频生成模型生成机器人数据的问题,金鑫认为,耗卡不是问题,关键在于数据有效性。他指出,生成内容可能不逊于手工资产,数据有效性取决于任务需求。王靖博同意,数据有效性需根据任务确定,纯仿真环境也可实现足式控制的基本运动。

更多热门内容