ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

GaussianDWM:3D高斯模型助力自动驾驶场景理解与多模态生成双突破

时间:2026-06-14 21:16:19来源:互联网编辑:快讯

自动驾驶技术正从单一画面生成向更复杂的场景理解与决策支持演进。传统世界模型主要聚焦于预测未来视觉帧或生成新视角,但这类方法无法回答场景中目标的位置、属性及空间关系等关键问题。研究人员提出,自动驾驶系统需要一种既能生成多模态数据,又能支持空间定位和语义查询的统一三维表示框架。

近期发布的GaussianDWM模型尝试将场景理解与生成任务整合到同一架构中。该模型以三维高斯分布作为核心表示形式,通过引入语言特征增强每个高斯基元的语义承载能力。不同于传统方法仅依赖几何参数,新模型将CLIP语言特征与SAM层次语义融入高斯表示,使每个空间单元同时包含位置、尺度和语义信息。为降低计算开销,研究团队采用场景级语言自编码器将512维特征压缩至3维,确保语义信息精准映射到三维空间。

模型架构分为三个协同模块:世界标记器负责构建带语义的高斯场;场景理解模块通过任务感知采样将高斯表示投影至大语言模型空间;多模态生成模块结合低级视觉条件与高级世界知识生成新视角。在采样策略上,全局理解任务采用均匀采样保留场景全貌,视觉定位任务则根据文本查询与高斯特征的相似度进行选择性采样。实验显示,输入大语言模型的4096个高斯标记已能稳定支持复杂场景推理。

在NuInteract数据集的测试中,该模型展现出显著优势。相比传统视觉语言模型,其2D视觉定位mAP提升79.9%,3D定位mAP提升52.8%。这种提升源于三维高斯表示提供的明确空间结构,使模型能更精准地关联视觉元素与语义信息。在nuScenes数据集的空间生成任务中,模型在±1米视角变化下取得8.36的FID分数,±2米变化下为11.27,证明其在维持场景几何一致性方面的有效性。

消融实验进一步验证了各组件的必要性。移除高斯表示后,模型平均指标下降11.1%;仅使用低级视觉条件时,±1米视角变化的FID分数上升21.1%。当视角变化扩大至±4米时,高层世界知识对生成质量的提升作用更加明显,FID分数改善13.2%。这表明在复杂场景中,语义与空间先验对维持生成结果合理性至关重要。

该研究突破了传统世界模型在场景理解方面的局限。通过将三维高斯表示作为连接几何、外观与语义的桥梁,模型实现了从感知到推理再到生成的全链路闭环。在动态场景演示中,系统不仅能生成高质量的多视角图像,还能准确回答关于目标位置、属性及场景关系的查询。这种统一表示框架为自动驾驶系统提供了更接近人类认知方式的场景理解能力,使车辆能够基于对三维世界的完整理解做出决策。

更多热门内容
长征五号再立新功送卫星入轨 实力强劲为何难担载人登月重任?
而我国正在研制的梦舟载人飞船,整船重量可达27吨左右,这已经远远超出了长征五号在地月转移轨道上的承载能力,甚至连送入近地轨道都面临压力,更不用说直接送往月球轨道。 正因如此,我国正在研发的梦舟载人飞船,…

2026-06-14

中国载人航天跨越式发展:从短期驻留到一年期试验,筑牢太空探索坚实后盾
从神舟五号在轨飞行21小时23分钟,到神舟十一号实现33天中期驻留,再到多批次航天员乘组常态化半年驻留,直至近日神舟二十三号发射成功,将有一名航天员开展一年期在轨驻留试验,中国载人航天实现了航天员在轨驻留时长…

2026-06-14

美智库报告:中美航天差距缩小,中国导航定位领先成新格局
报告中提炼出的三点判断尤为关键:其一,在可重复使用火箭领域,美国依旧保持领先地位,但中国近年来多次关键试验稳步推进,差距正在被快速压缩;其二,在导航定位与对地遥感观测方面,中国已经实现领先;其三,在空间站技术…

2026-06-14

梦舟飞船逃逸测试成功,中国载人登月工程迈出坚实关键一步
按照规划,在未来两年内,我国还将通过多次空间站任务进一步验证相关技术,不断提升系统成熟度与任务可靠性,为2030年前实现首次载人登月打下更加坚实的基础。其中,第四批航天员在选拔与训练阶段,就已经…

2026-06-14