近期,科技界迎来了一波关于世界模型的创新浪潮,其中,由人工智能领域的领军人物李飞飞创立的Worlds Labs率先推出了其首个项目——大世界模型(Large World Model,LWM)。这一技术能够通过单张图片,将二维场景转化为三维空间,用户可以在其中自由移动并切换视角,体验到的场景不仅栩栩如生,还严格遵循空间原理和物理定律。
李飞飞透露,大世界模型仅仅是Worlds Labs迈出的第一步,他们未来的愿景是将这一技术融入增强现实(AR)、机器人技术乃至自动驾驶领域,开启全新的智能应用篇章。
紧接着,Google DeepMind也发布了其Genie2技术,展示了从单张图片生成无限3D世界的能力,这一技术被广泛应用于AI游戏及智能体训练中,展现了模拟虚拟世界、实现物体交互、复杂角色动画以及预测其他智能体行为的巨大潜力。
随后,OpenAI在发布会上宣布了Sora Turbo的推出,这一技术是对此前Sora的升级,旨在模拟运动中的物理世界时,增强其可编辑能力,标志着理解和模拟现实的基础性AI技术取得了重大进展。
自2018年世界模型的概念被广泛关注以来,科学家们指出,人类基于有限的感官感知构建的内部、简化世界模型,不仅帮助我们理解世界,还指导我们预测未来。计算机领域的世界模型同样遵循这一思维模式,即在有限信息基础上进行有效决策和预测。
在汽车行业中,这一技术正逐步改变智能座舱和智能驾驶的未来。智能座舱方面,随着高通8295芯片的普及和AR-HUD技术的应用,3D HMI已成为发展新趋势。用户可以通过3D方式探索整个座舱场景,实现多视角切换,带来连贯且直接的体验,颠覆了传统的座舱交互和信息呈现方式。
AI在智能座舱中的快速应用,正重新构建视觉、听觉、语义等多模态融合的全新体验。尽管当前世界模型在汽车行业的应用尚不成熟,但其潜力已初露端倪。如果将世界模型应用于座舱,车辆将能够感知外界环境的声音、光线、温度等信息,主动调整车内环境,实现个性化、沉浸式的座舱体验。
智能驾驶方面,自动驾驶端到端大模型已成为车企竞逐的新焦点。这一模型取代了传统的感知、描述、预测及规划模块,通过统一的神经网络架构实现环境感知到车辆控制的全流程自动化,使自动驾驶更接近人类的真实驾驶。世界模型为自动驾驶训练提供了更低成本、更快开发速度以及复杂场景训练的可能性,通过模拟真实世界环境的动态变化,提前预判场景演变,提高训练效率,降低研发成本。
蔚来汽车的蔚来世界模型(NWM)就是一个典型例子,它能在极短时间内推演多种车辆可能发生的轨迹,寻找最佳决策,并持续更新模型以应对复杂多变的驾驶环境。随着科技公司的不断推动和演进,世界模型正引领汽车行业向更加智能化、个性化的方向发展。