英伟达携手高校发布LocateAnything模型，为AI检测带来高速高精度新方案-人工智能-ITBear科技资讯

英伟达近日联合香港理工大学、南京大学等机构，共同推出了一款名为LocateAnything的新型视觉语言检测模型。该模型专注于实现高速、高精度的对象检测功能，能够从照片或屏幕截图中快速定位指定目标，并通过检测框明确标注其位置。

在机器人感知、计算机自动化操作等需要即时响应的场景中，LocateAnything展现出显著优势。传统模型往往在目标定位速度上存在瓶颈，而英伟达团队通过重新设计检测框预测机制，使该模型更适配交互式任务需求。例如，在服务机器人导航或智能体操作界面时，模型需在毫秒级时间内完成目标识别与定位。

技术层面，LocateAnything创新性地提出并行框解码策略，将边界框坐标（x1,y1,x2,y2）视为固定长度的原子单元，实现单步预测。这一设计大幅提升了推理效率，同时通过三种运行模式满足不同场景需求：Fast Mode针对端侧设备优化吞吐量，Slow Mode侧重离线标注与高精度评估，Hybrid Mode则作为默认选项，在常规输出中保持高速，仅在遇到格式异常或空间歧义时切换至自回归解码。

为支撑模型训练，研究团队构建了包含1200万独立图像、1.38亿语言查询及7.85亿边界框的LocateAnything-Data数据集。该数据集覆盖六大核心领域：通用物体检测、图形用户界面元素定位、指代表达理解、光学字符识别定位、文档版面分析以及点定位。这种多维度数据结构有效扩展了模型的泛化能力，使其能处理从日常物品到复杂文档布局的多样化任务。

性能测试显示，在单张NVIDIA H100 GPU环境下，Hybrid Mode模式下模型达到每秒12.7个检测框的输出速度，较Qwen3-VL的1.1 BPS和Rex-Omni的5.0 BPS均有显著提升。在高精度任务中，该模型在LVIS数据集IoU=0.95标准下取得31.1分，超越Rex-Omni的20.7分；在ScreenSpot-Pro界面元素定位任务中平均F1值达60.3，文档版面分析任务DocLayNet和M6Doc分别获得76.8与70.1的高分。

硅基流动递表港交所：Token经济热潮下，盈利难题待解

2026-07-03

优必选发布U1系列仿生机器人：真人比例细腻肌肤，情感陪伴新选择引热议

就在昨天，优必选在深圳开了场全球发布会，正式推出旗下消费级品牌“优世界”的首款产品 —— 全尺寸超仿生人形机器人 U1 系列。此外官方还明确强调，产品仅面向成年用户销售，并且面向普通消费用户的版本不支持二…

2026-07-03

Anthropic启动自研AI芯片早期开发，拟借三星2纳米工艺发力人工智能领域

IT之家 7 月 2 日消息，据 The Information 报道，Anthropic 正与三星洽谈定制人工智能芯片事宜，Anthropic已启动自研人工智能芯片的早期开发工作。三位知情人士表示，目前…

2026-07-03