ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

无需额外训练!从3D静态模型中挖掘运动线索解锁4D场景重建新能力

时间:2025-12-18 03:10:23来源:互联网编辑:快讯

在3D视觉领域,以VGGT、DUSt3R为代表的3D基础模型在静态场景重建任务中表现卓越,然而当面对包含行人、车辆等移动物体的动态4D场景时,这些模型的性能却大打折扣。动态物体的运动不仅干扰背景几何建模,还会引发严重的相机位姿漂移问题。针对这一挑战,来自香港科技大学(广州)与地平线的研究团队提出了一种创新性的解决方案——VGGT4D,该方案无需额外训练,就能让3D基础模型具备处理动态4D场景的能力。

现有的提升3D模型处理4D场景能力的方法,大多面临计算或训练成本高昂的问题。有的依赖繁重的测试时优化,有的需要在大规模4D数据集上进行微调;还有些方法依赖外部先验,引入光流、深度估计或语义分割等额外模块,增加了系统的复杂性。而VGGT4D的核心设想是,在不进行额外训练的前提下,直接从预训练的3D基础模型中挖掘出4D感知能力。

研究人员深入分析了VGGT的内部机制,通过可视化其注意力机制,发现了一个关键现象:VGGT不同网络层对动态区域的响应模式截然不同。浅层网络倾向于捕捉语义上显著的动态物体,深层网络则逐渐抑制几何不一致的区域。这表明,尽管VGGT是基于静态假设训练的,但其内部实际上已经隐式编码了丰富的动态线索。不过,直接利用标准的注意力图效果并不理想,因为它混合了纹理、语义和运动信息,导致信噪比低,使得基于Epipolar假设的方法在VGGT架构上失效。

为了从静态模型中提取运动线索,VGGT4D提出了一套无需训练的注意力特征挖掘与掩膜精修机制。研究团队首先分析了标准注意力图的局限性,由于Query和Key向量来自异构的投影头,其特征分布存在天然的分布间隙,导致Cross-Attention主要响应语义对齐,运动引起的微小特征扰动容易被掩盖。为解决此问题,VGGT4D引入自相似性Gram矩阵替代标准注意力图。通过在同构潜在分布内计算相似度,运动引起的方差成为主导信号。模型通过在时间窗口内聚合不同层级的统计矩(均值与方差),构建了动态显著性场。

为解决Attention Map分辨率不足导致的边界模糊问题,VGGT4D引入了投影梯度感知精修。定义3D点在视点下的几何投影残差,该残差关于3D坐标的梯度包含极强的边界信息。由于该梯度依赖于投影雅可比矩阵和深度图的空间梯度,在动态物体边缘处会呈现显著的高频响应。聚合后的梯度能量函数结合光度残差项,实现了对动态掩膜的亚像素级锐化。

在推理阶段,直接的全层掩膜会将模型推向分布外状态,导致性能下降。VGGT4D提出分布内早期掩膜策略,仅在浅层抑制动态Token的Key向量。这种设计既在早期切断了动态信息对深层几何推理的影响,又保证了深层Transformer Block依然在其预训练的特征流形上运行,从而保证了位姿估计的鲁棒性。

研究团队针对动态物体分割、相机位姿估计和4D点云重建三大核心任务,在六个基准数据集上对VGGT4D进行了详尽的定量和定性评估。在动态物体分割性能评估中,定量分析显示,VGGT4D显著优于其他所有变体,在DAVIS-2016和DAVIS-2017数据集上均达到最优性能。即使没有经过任何4D特定的训练,仅基于预训练的VGGT模型就能取得优异结果。定性分析也表明,VGGT4D生成的掩码更加准确,边界更加清晰,有力地验证了VGGT的Gram相似度统计信息中嵌入了丰富的、可提取的运动线索。

在相机位姿估计的鲁棒性验证中,原始VGGT本身就是一个强大的基线,优于许多专门的4D重建方法,表明其预训练隐式地使其对动态物体具有一定鲁棒性,但这种鲁棒性并不完美。VGGT4D在所有数据集上均持续改进了这一基线。在极具挑战性的长序列Point Odyssey基准测试中,VGGT4D在所有指标上均取得最佳结果,同时保持高度效率,许多其他4D方法因内存不足错误甚至无法在该序列上运行。这表明VGGT4D的显式、无需训练的动态 - 静态分离方法成功识别并消除了由运动引起的残余位姿不一致性,实现了更稳定、更准确的相机轨迹,尤其在长且复杂的序列上。

在4D点云重建质量实验中,在DyCheck数据集上的评估显示,VGGT4D在所有重建指标(准确度、完整度和距离)上均取得最佳性能。与VGGT基线相比,中位准确度误差和平均距离均有显著降低,证明了该方法不仅实现了精准的动静分离,更能实质性提升几何重建质量。

VGGT4D提出了一种无需训练的新范式,成功将3D基础模型的能力扩展至4D动态场景。通过合理挖掘模型内部的Gram相似度统计特性,有效解耦了动态与静态信息,为低成本的4D重建提供了新思路,也展示了基础模型在零样本迁移任务中的潜力。

更多热门内容
Blackview海外发布Mega 12平板:大屏长续航,性能配置亮点十足
IT之家 1 月 11 日消息,Blackview 现已在海外市场推出 Mega 12 平板,具备 IP69K防水防尘认证,不过并不算真正意义上的三防产品,缺少缓冲防撞机构。 据介绍,这款平板的尺寸是 28…

2026-01-12