ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

自动驾驶大模型终极之战:世界模型能否笑到最后?

时间:2024-11-18 11:17:28来源:ITBEAR编辑:瑞雪

【ITBEAR】在自动驾驶技术的浩瀚星空中,一条名为“端到端+大模型”的轨迹似乎正逐渐清晰,成为众多行业巨擘心中的终极方向。

然而,正如自动驾驶技术的多样性与复杂性,大模型的构建亦无固定模板可循。技术的海洋总是波澜壮阔,随着时光的流逝与新技术的涌现,自动驾驶技术也在不断进化,展现出千姿百态的面貌。

自2022年末ChatGPT横空出世以来,生成式AI大模型逐渐分化为两大流派:语言模型与世界模型。语言模型在数字世界深耕细作,从单一文本模态拓展至包含图片、视频的多模态,实现了文生图、看图说话、图生图、文生视频等能力,Sora与GPT4-o便是其中的佼佼者。而世界模型则跨越数字与物理的界限,从一维的数字智能迈向三维的空间智能。

李飞飞,这位出生于北京、在美国成就辉煌的AI先驱,对空间智能有着独到的见解。她认为,空间智能意味着AI能在三维空间与时间中以三维方式感知、推理并行动,与现实世界进行交互。相较于大语言模型以文本序列对世界进行一维表示,空间智能将三维视为表达的核心。

从自动驾驶大模型的赛道来看,小鹏与理想的选择更偏向于在文本基础上叠加图片和视频模态的语言模型,而蔚来与特斯拉则倾向于空间智能的世界模型。语言模型如东北大哥,先声夺人,再决定行动;世界模型则如湖南老表,干脆利落,直接给出行驶轨迹。

在自动驾驶技术的激烈竞争中,数据标注成为关键一环。然而,随着端到端范式的到来,许多数据需要重新标注。语言模型依赖于海量的有监督学习数据标注,而世界模型则通过无监督学习,无需数据标注,便能应对海量数据的新范式。蔚来汽车的世界模型通过推演万千平行世界,选择最优行驶轨迹,这一能力不仅直接给出行驶结果,更通过无监督学习训练出对驾驶场景的深度理解能力,实现了从感知到认知的跃升。

相较于传统的BEV+OCC感知能力,世界模型展现出更加细腻的场景理解能力。它能够理解当前的光照条件、天气情况,这些对自动驾驶至关重要的因素。通过海量数据的无监督训练,世界模型建立了对当前世界的深度理解能力,为准确推演未来世界奠定了坚实基础。

在这场自动驾驶技术的革命中,算力成为制约发展的关键。蔚来选择世界模型,或许正是基于其对算力的更高要求。而随着算力的不断升级,理想和小鹏从语言模型向世界模型的过渡,似乎已成为一个可期的未来。

更多热门内容