理想汽车VLA司机大模型：进化之路，解锁交通领域新篇章-智能汽车-ITBear科技资讯

在智能科技的浪潮中，理想汽车再度引领创新风潮，于近期推出的“理想AI Talk第二季”活动中，其董事长兼CEO李想深度剖析了人工智能的发展现状与未来趋势，特别是其倾力打造的VLA司机大模型，为自动驾驶领域带来了革命性的突破。

李想将AI的应用划分为信息工具、辅助工具及生产工具三个阶段。当前，AI主要作为信息工具存在，但信息冗杂、有效性低的问题凸显。辅助工具阶段，如辅助驾驶系统，虽提升了效率，仍需人类参与。而未来，当AI进化为生产工具时，将能独立完成专业任务，实现效率与质量的双重飞跃。李想强调，真正的智能在于AI能否成为生产工具，正如人类雇佣司机一样，AI也将承担起类似职责。

VLA司机大模型，即Vision-Language-Action Model（视觉语言行动模型），是理想汽车迈向自动驾驶未来的关键一步。它不仅能够像人类司机一样工作，更将成为交通领域的专业生产工具。VLA的实现并非一蹴而就，而是经历了从依赖规则算法和高精地图的辅助驾驶，到端到端+VLM（Vision Language Model，视觉语言模型）辅助驾驶的逐步进化，直至最终实现VLA的“人类智能”阶段。

在VLA的训练过程中，理想汽车借鉴了人类学习驾驶的三个阶段：预训练、后训练和强化训练。预训练相当于人类学习物理世界和交通常识，通过大量数据训练出云端的VL基座模型；后训练则如同人类去驾校学习开车，加入动作数据后，VL基座转变为VLA司机大模型；强化训练则类似于人类在社会中实际开车练习，旨在提升VLA的安全性和舒适性，使其更加贴合人类价值观。

VLA司机大模型不仅拥有强大的专业能力，更在超级对齐团队的加持下，具备了职业司机的素养。同时，理想汽车通过打造真实、符合物理世界规律的世界模型，有效解决了AI的黑盒问题，使得VLA能够在世界模型中低成本、准确地验证现实问题，提升解决问题的效率。

在李想看来，判断司机Agent是否优秀，关键在于其专业能力、职业能力和构建信任的能力。VLA司机大模型在这三个方面均表现出色，不仅提升了自动驾驶的专业水平，更通过超级对齐增强了职业能力，以及通过理解自然语言、具备记忆能力提升了构建信任的能力。

理想汽车在技术快速跃迁的背后，是其从研究、研发到能力表达，再到将能力变成业务价值的深厚基本功积累。李想坚持自研道路，通过技术赋能用户价值。在辅助驾驶方面，理想汽车依托自有编译团队和自研底层推理引擎，克服了英伟达Orin-X芯片无法直接运行语言模型的挑战，实现了双Orin-X芯片和Thor-U芯片运行同等规模的VLA司机大模型。

在创业路上，李想始终保持积极乐观的心态，将挑战视为成长的机会。他强调，成长带来能量，在痛苦中保持正能量是关键。他关注自我成长，同时也重视亲密关系，认为家人和同事的互补与支撑是企业成功的关键。

面对AI的发展，李想认为应保留所有人性特质，无论是好是坏，因为这些都是人类真正的生命力所在。理想汽车始终以技术创新解决行业难题，从增程电动和5C超充技术到自研汽车操作系统，再到VLA司机大模型，不断挑战成长的极限，持续为行业和用户创造价值。