李想揭秘：理想汽车如何用“司机大模型”引领AI生产力革命？-智能汽车-ITBear科技资讯

在理想汽车创始人李想与张小珺的深入对话中，我们得以窥见理想汽车在人工智能领域的最新探索，特别是其“司机大模型”（VLA）的进展。自上次“AI Talk”已过去130天，李想再次分享了理想汽车在AI技术上的突破与挑战。

李想坦言，尽管AI技术飞速发展，但他的日常工作时长并未因此减少。他认为，当前AI主要被用作信息工具，其信息质量受限于索引机制，尤其是RAG技术所依赖的源头信息往往已失真，导致推理过程虽严谨，但结果却可能出错。他进一步将AI工具分为信息工具、辅助工具和生产工具三个层级，并强调只有当AI成为生产工具，才能真正实现爆发式增长，切实改善产出质量，压缩时间成本。

对于中国大模型行业的发展，李想给予了高度评价，特别是DeepSeek和千问等模型，他认为中国AI在基础模型、推理模型和多模态能力上已与美国接近。李想特别赞赏DeepSeek及其创始人梁文锋的自律和全球视野，以及其在最佳实践和方法论上的研究。DeepSeek的开源为理想汽车在VLA司机大模型的语言能力研发上带来了显著加速，节省了近9个月的时间和数亿元成本。作为回馈，理想汽车决定开源自研的星环OS系统。

尽管DeepSeek带来了巨大帮助，但理想汽车仍选择自研基座模型。李想解释，这是因为不同场景的需求不同，理想汽车需要打造车载多模态交互，特别是VLA模型，它要求3D/2D视觉融合，以及汽车、交通、家庭场景的专业语料。这些垂直领域的数据和训练逻辑是通用模型所无法覆盖的。

对于理想汽车而言，未来的VLA模型将是一个像人类司机一样工作的司机大模型。李想认为，辅助驾驶的真正突破点在于VLA，它要像人类司机一样观察、理解并执行行动。他将VLA的发展划分为昆虫智能阶段、哺乳动物阶段和人类智能阶段。目前，理想汽车正在训练一个32B参数量级的VL基座模型，加入了高清2D图像、3D视觉、交通语言语料及VL联合语料。

基于VLA模型的辅助驾驶系统，驾驶员可以通过语音操控车辆，实现走收费站人工通道、掉头、靠边停车等复杂操作。对于行业普遍存在的对辅助驾驶安全性的质疑，李想表示这是黎明前的黑暗，他最喜欢、最开心的方式就是去解决行业解决不了的问题。

在谈及创业经历时，李想表示，理想汽车即将迎来成立十周年。创业路上虽然充满挑战，但他选择保留那些有价值的美好片段，用来激励自己保持正能量。他强调，成长意味着增强能力，关注自我和亲密关系同样重要。家人和同事能够和他形成互补，相互支撑。回顾几次创业经历，李想表示最幸运的是在遇到困难时总有人相助，能够迅速走出困境，团队齐心协力变得更好。