微软OmniParser V2.0发布：DeepSeek等模型变身电脑操控AI智能体-数字家电-ITBear科技资讯

微软近日宣布了一项重大更新，其OmniParser工具已升级至V2.0版本，这款基于纯视觉的GUI智能体解析工具，专门用于识别和解析屏幕上的可交互图标。通过与GPT-4V等先进模型的结合，OmniParser的识别能力得到了显著提升。

据微软官方消息，OmniParser V2.0在2月12日正式发布。新版本不仅支持OpenAI的多个模型（包括4o、o1、o3-mini），还兼容DeepSeek的R1版本、Qwen的2.5VL版本以及Anthropic的Sonnet模型。这意味着，这些模型现在都可以被转化为能够操控计算机的AI智能体。

与V1版本相比，OmniParser V2.0在训练上采用了更大规模的交互元素检测数据和图标功能标题数据。这一改进使得V2.0在检测较小的可交互UI元素时，不仅准确率更高，而且推理速度更快，延迟降低了60%。这一提升对于提高AI智能体的操作效率和用户体验具有重要意义。

在高分辨率Agent基准测试ScreenSpot Pro中，OmniParser V2.0与GPT-4o的结合展现出了惊人的效果。测试结果显示，V2.0+GPT-4o的准确率高达39.6%，而GPT-4o原始准确率仅为0.8%。这一数据对比充分证明了OmniParser V2.0在提升AI智能体识别能力方面的显著作用。

为了加速不同智能体设置的实验进程，微软还开源了OmniTool这一关键工具。OmniTool是一个集成了智能体所需基本工具的Docker化Windows系统，涵盖了屏幕理解、定位、动作规划和执行等功能。这一工具的推出，无疑为将大模型转化为智能体提供了极大的便利。

对于对OmniParser和OmniTool感兴趣的开发者来说，现在可以通过访问微软在GitHub上的官方仓库来获取这些工具的源代码和相关资源。这一举措不仅展示了微软在推动AI技术发展方面的开放态度，也为全球开发者提供了一个共同学习和进步的平台。