ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达携手高校发布LocateAnything模型,为AI检测带来高速高精度新方案

时间:2026-05-30 12:42:53来源:互联网编辑:快讯

英伟达近日联合香港理工大学、南京大学等机构,共同推出了一款名为LocateAnything的新型视觉语言检测模型。该模型专注于实现高速、高精度的对象检测功能,能够从照片或屏幕截图中快速定位指定目标,并通过检测框明确标注其位置。

在机器人感知、计算机自动化操作等需要即时响应的场景中,LocateAnything展现出显著优势。传统模型往往在目标定位速度上存在瓶颈,而英伟达团队通过重新设计检测框预测机制,使该模型更适配交互式任务需求。例如,在服务机器人导航或智能体操作界面时,模型需在毫秒级时间内完成目标识别与定位。

技术层面,LocateAnything创新性地提出并行框解码策略,将边界框坐标(x1,y1,x2,y2)视为固定长度的原子单元,实现单步预测。这一设计大幅提升了推理效率,同时通过三种运行模式满足不同场景需求:Fast Mode针对端侧设备优化吞吐量,Slow Mode侧重离线标注与高精度评估,Hybrid Mode则作为默认选项,在常规输出中保持高速,仅在遇到格式异常或空间歧义时切换至自回归解码。

为支撑模型训练,研究团队构建了包含1200万独立图像、1.38亿语言查询及7.85亿边界框的LocateAnything-Data数据集。该数据集覆盖六大核心领域:通用物体检测、图形用户界面元素定位、指代表达理解、光学字符识别定位、文档版面分析以及点定位。这种多维度数据结构有效扩展了模型的泛化能力,使其能处理从日常物品到复杂文档布局的多样化任务。

性能测试显示,在单张NVIDIA H100 GPU环境下,Hybrid Mode模式下模型达到每秒12.7个检测框的输出速度,较Qwen3-VL的1.1 BPS和Rex-Omni的5.0 BPS均有显著提升。在高精度任务中,该模型在LVIS数据集IoU=0.95标准下取得31.1分,超越Rex-Omni的20.7分;在ScreenSpot-Pro界面元素定位任务中平均F1值达60.3,文档版面分析任务DocLayNet和M6Doc分别获得76.8与70.1的高分。

更多热门内容
MiniMax5月29日签约辅导协议 正式踏上A股IPO新征程
国内人工智能领域迎来新动态,知名企业MiniMax正式踏上A股上市征程。5月29日,该公司与中信证券达成合作,双方签署了辅导协议,标志着其A股IPO进程正式拉开帷幕。 据了解,MiniMax在人工智能领域深耕多年,凭借先进的技术和创新的业务模式,在市场上占据了一席之地。此前,该公司已在港股市场成功上市,积累了丰富的资本市场经验,也为此次冲击A股市场奠定了坚实基础。

2026-05-30

科技赋能文旅新体验:黄山智游黄山景,泰山外骨骼助登峰
本土大模型在场景适配层面拥有明显优势,能够结合黄山本地的文旅特色、地域文化不断优化服务内容,针对山岳景区特有的天气变化、山道通行规则、安全提示等内容进行深度打磨,让智能服务不再是通用模板的套用,而是真正扎根于…

2026-05-30

宇树科技亚洲首店落户南京西路商圈,主力机器人亮相,邀消费者沉浸式体验未来科技
本周日,宇树科技具身智能体验馆亚洲首店,将在南京西路商圈久光百货二楼亮相开业,记者今天到店先睹:作为宇树科技面向大众消费市场的重要窗口,门店将集中展示并销售G1人形机器人、R1人形机器人、Go2 机器狗等…

2026-05-30

科技赋能文旅新体验:黄山智解山水密码,泰山外骨骼助力攀登新风尚
本土大模型在场景适配层面拥有明显优势,能够结合黄山本地的文旅特色、地域文化不断优化服务内容,针对山岳景区特有的天气变化、山道通行规则、安全提示等内容进行深度打磨,让智能服务不再是通用模板的套用,而是真正扎根于…

2026-05-30

探访国家人工智能中试基地:具身智能机器人“训练”正酣
参观者在国家人工智能应用中试基地(具身智能)展厅内与机器人互动(5月29日摄)。 在位于浙江省杭州市的国家人工智能应用中试基地(具身智能),多款具身智能机器人开展多样化训练:有的在家庭仿真场景中学习识别、抓…

2026-05-30