ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

商汤绝影发布R-UniAD:多阶段强化学习引领自动驾驶新方案

时间:2025-02-23 14:01:25来源:ITBEAR编辑:快讯团队

在自动驾驶技术的最新突破中,商汤绝影CEO兼商汤科技联合创始人王晓刚,于上海向业界展示了一项创新成果——R-UniAD,这是首个宣称能与世界模型协同交互的端到端自动驾驶解决方案。王晓刚还透露,该方案将于4月的上海车展上正式发布,并计划完成实车部署。

R-UniAD的核心在于构建了一个世界模型,它能够生成一个在线交互的仿真环境,为端到端模型提供强化学习的训练平台。王晓刚强调,R-UniAD与近期备受瞩目的DeepSeek技术创新思路不谋而合,都是从模仿学习向强化学习的升级,旨在实现自动驾驶技术超越人类驾驶水平的壮举。

强化学习,作为机器学习的三大基本方法之一,与监督学习和非监督学习并行发展,并在大模型的训练过程中发挥着重要作用。它让智能体通过与环境的互动,学习并优化最佳策略,从而提升智能水平。然而,与OpenAI GPT系列大模型采用的基于人类反馈的强化学习(RLHF)模式不同,DeepSeek R1大模型采用了更为简洁的强化学习模式,专注于特定任务的指标优化,减少了人类监督的依赖,从而降低了资源需求。

王晓刚指出,这种基于强化学习的大模型技术路线,同样适用于端到端自动驾驶算法的训练与研发。商汤绝影的R-UniAD正是这一技术路线的实践者,它采用了一种“多阶段强化学习”的端到端自动驾驶技术路线。

具体而言,R-UniAD的实施分为三个阶段:首先,利用冷启动数据,通过模仿学习在云端训练出一个端到端自动驾驶大模型;接着,基于强化学习,让云端的大模型与世界模型进行协同交互,持续优化模型的性能;最后,通过高效蒸馏技术,将云端的大模型转化为高性能的小模型,实现车端部署。

从数据规模的角度看,R-UniAD的多阶段强化学习方法显著降低了端到端自动驾驶所需的数据量。它利用高质量数据进行冷启动,通过模仿学习训练出一个基础模型,再借助强化学习方法进行进一步训练。据估算,这种小样本多阶段学习的技术路线,能够将端到端自动驾驶的数据需求降低一个数量级,为车企合作伙伴提供了超越特斯拉FSD(全自动驾驶)技术的可能性。

从性能上限来看,纯强化学习训练不仅能够提升端到端智能驾驶模型的性能,还能够探索更多元化的驾驶场景和风格,为自动驾驶技术的发展注入了新的活力。

更多热门内容