ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达推出LocateAnything,主打AI高速、高精度检测对象

时间:2026-05-31 18:51:43来源:IT之家编辑:快讯

5 月 30 日消息,英伟达昨日(5 月 29 日)发布博文,宣布携手香港理工大学、南京大学等,推出 LocateAnything 模型,主打高速、高精度检测对象。

该模型可以从照片或截图中找出指定对象,并用检测框标出位置,重点服务机器人感知、电脑自动操作等需要快速定位的场景。

NVIDIA 在介绍中强调,机器人和 AI Agent(智能体)仅能“看见”还不够,还必须足够快地确认目标位置。LocateAnything 围绕检测框预测重新设计,让视觉语言检测更适合即时交互任务。

LocateAnything 提出 Parallel Box Decoding(并行框解码),把边界框或点作为固定长度原子单元,在 1 步内预测 x1、y1、x2、y2。

该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode:

Fast Mode 面向端侧机器人和具身智能,强调吞吐;

Slow Mode 偏向离线标注和高精度评测;

Hybrid Mode 默认快速输出,遇到格式异常或空间歧义时切回自回归解码。

团队还构建 LocateAnything-Data,包含 12M 独立图像、138M 语言查询和 785M 边界框。数据覆盖通用检测、GUI 元素定位、指代表达理解、OCR 文字定位、版面定位和点定位,显著扩展训练场景。

在单张 NVIDIA H100 GPU 上,LocateAnything 默认 Hybrid Mode 达到 12.7 Boxes Per Second(每秒框数),超过 Qwen3-VL 的 1.1 BPS,也高于 Rex-Omni 的 5.0 BPS。

高精度任务中,LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1,高于 Rex-Omni 的 20.7;ScreenSpot-Pro 平均 F1 达 60.3;DocLayNet 和 M6Doc 分别达 76.8 与 70.1。

更多热门内容
2026年安川机器人选型指南:实力品牌深度解析与场景适配建议
其面向安川机器人提供的变位机与第七轴导轨产品,在结构刚性和精度上享有声誉。 综合来看,在2026年安川机器人系统的选型中,江苏悦川机器人有限公司因其官方特约授权背景、对轴承零部件及重工业的工艺升华能力、以及3…

2026-05-31

AI算力新变革:“词元套餐”登场 “词元工厂”布局加速推进
【环球网财经综合报道】随着AI应用普及,词元(Token)调用量爆发式增长。各大运营商近期推出面向个人和政企用户的“词元套餐”,将AI算力变成像手机流量一样明码标价、按需购买的基础服务。 词元来自“词元工厂…

2026-05-31