ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达DAM-3B模型:精准描绘图像视频细节,局部描述难题迎刃而解

时间:2025-04-24 17:25:37来源:ITBEAR编辑:快讯团队

近期,科技界迎来了一项新突破,英伟达公司宣布成功研发出Describe Anything3B(简称DAM-3B)AI模型,这一创新成果旨在解决图像和视频中特定区域描述的技术难题。

在视觉与语言模型的广泛应用中,虽然整体图像描述能力已经相当成熟,但针对特定区域的细致描述却一直是难以攻克的痛点,尤其是在视频内容处理中,还需考虑时间动态因素,挑战更为复杂。

英伟达推出的DAM-3B模型,正是针对这一挑战而设计的。用户可以通过简单的点击、绘制边界框、涂鸦或使用掩码等方式,指定图像或视频中的目标区域,DAM-3B便能生成精准且符合上下文语境的描述文本。为了满足静态图像和动态视频的不同需求,英伟达还分别推出了DAM-3B和DAM-3B-Video两个版本,并且已在Hugging Face平台上公开共享。

DAM-3B的核心创新体现在其独特的“焦点提示”技术和“局部视觉骨干网络”设计上。焦点提示技术通过巧妙融合全图信息与目标区域的高分辨率裁剪,确保了细节信息的完整保留,同时也不失整体背景信息。而局部视觉骨干网络则通过嵌入图像和掩码输入,利用先进的门控交叉注意力机制,将全局特征与局部特征相结合,最终传输至大语言模型进行描述生成。

为了进一步扩展模型的应用范围,DAM-3B-Video在视频处理方面进行了优化,通过逐帧编码区域掩码并整合时间信息,即使在目标被遮挡或处于运动状态时,也能生成准确的描述。

在数据训练方面,英伟达也采取了创新的策略。为了解决训练数据匮乏的问题,他们开发了DLC-SDP半监督数据生成策略,利用分割数据集和未标注的网络图像,成功构建了包含150万局部描述样本的训练语料库。他们还通过自训练方法不断优化描述质量,确保输出文本的高精准度。

为了评估模型的性能,英伟达团队还推出了DLC-Bench评估基准,这一基准以属性级正确性为衡量标准,而非传统的参考文本对比,从而更准确地反映了描述质量。

在多项基准测试中,DAM-3B展现出了卓越的性能。在包括LVIS、Flickr30k Entities等在内的七项测试中,DAM-3B的平均准确率高达67.3%,超越了GPT-4o和VideoRefer等领先模型。

DAM-3B的推出,不仅填补了局部描述领域的技术空白,其创新的上下文感知架构和高质量数据策略还为无障碍工具、机器人技术及视频内容分析等领域带来了全新的可能性,为科技应用的发展注入了新的活力。

更多热门内容