英伟达AI总监Jim Fan在红杉AI Ascent大会上分享了关于具身智能未来的核心挑战和解决方案。Fan指出,尽管大语言模型已经突破了传统的图灵测试,但机器人在物理世界中的表现仍远未达到人类水平。其中,数据成为了制约机器人发展的最大瓶颈。
Fan解释说,机器人需要物理交互的真实数据,这些数据无法从网页上抓取,只能通过人类手动采集,效率极低。为了应对这一挑战,英伟达团队提出了在仿真世界中寻找解决方案。通过超高速仿真技术,机器人可以在2小时内完成相当于现实世界10年的训练量,并将这些知识无缝迁移到物理世界。
Fan进一步指出,生成式AI技术,如3D生成和纹理生成,将进一步降低仿真训练对人工数据的依赖。当视频生成模型构建的虚拟世界逐渐成型时,机器人将能够在无限可能的“梦境空间”中训练,不仅成本极低,还能通过提示词自由创造反事实的训练场景,从而拓宽机器人的能力边界。
Fan在演讲中提出了“物理图灵测试”的概念,即机器人能否在物理世界中完成任务,以至于人类无法区分这是人类还是机器人的劳动成果。他强调,目前机器人还远未达到这一标准,例如人形机器人和机器狗在实际操作中仍频繁出错。
Fan和英伟达团队认为,仿真技术是推动机器人技术发展的关键。通过构建数字孪生,即机器人和世界的1:1副本,在仿真世界中训练,然后在真实世界中测试,可以大大加速机器人的学习过程。Fan展示了在仿真世界中训练机器人在瑜伽球上行走,然后将其迁移到真实世界的成功案例。
Fan还介绍了英伟达开发的大规模仿真平台RoboCasa,该平台除了机器人本体之外,所有视觉元素都是由AI生成的。通过RoboCasa,操作者可以在虚拟环境中进行遥操作,系统可以回放仿真轨迹,并利用硬件加速的射线追踪技术呈现逼真的光影效果。
Fan指出,未来世界模型与仿真技术的深度融合将推动机器人技术进入“仿真2.0”时代。视频生成模型的出现,使得仿真技术不再依赖于繁琐的人工建模,而是能够自动生成复杂场景和物体。这种“数字游民”式的仿真,将漫游进视频扩散模型的梦境空间,为机器人提供无限可能的训练环境。
Fan最后表示,物理AI的下一个前沿将是“物理API”的革命。就像今天的大模型API处理数字信息一样,物理API将能够操控物理世界的物质变化。这将催生全新的经济形态,如“物理App Store”和“技能经济”,机器人将逐渐融入生活背景,成为环境智能的一部分。