谷歌Gemini 2.5计算机使用模型亮相：为AI智能体赋予GUI交互新能力-信息流-ITBear科技资讯

谷歌近日宣布推出Gemini 2.5计算机使用模型，这是一款基于Gemini 2.5 Pro视觉理解与推理能力打造的专用工具，旨在让AI智能体具备直接操作图形用户界面（GUI）的能力，包括点击、输入文字和滚动屏幕等人类操作。

开发者现已可通过Google AI Studio和Vertex AI中的Gemini API访问该模型的公开预览版。相关文档已同步上线，开发者可参考链接了解具体使用方法。

谷歌指出，当前AI模型主要通过结构化API与软件交互，但许多日常数字任务仍需直接操作图形界面，例如填写表单、提交信息等。这类任务要求AI智能体能像人类一样浏览网页和应用程序，而原生支持表单填写、下拉菜单操作和登录后操作的能力，是构建通用型智能体的关键突破。

该模型的核心功能通过Gemini API新增的computer_use工具实现，采用循环运行机制。其工作流程分为四步：首先接收用户请求、屏幕截图和操作历史作为输入，开发者可指定排除某些操作或添加自定义函数；随后模型分析输入并生成UI操作指令，如点击或输入；客户端代码执行操作后，将新的屏幕截图和URL反馈给模型，形成持续迭代，直至任务完成或因安全、用户决策等原因终止。

技术文档显示，该模型特别针对Web浏览器环境优化，同时在移动UI控制任务中展现出潜力，但尚未适配桌面操作系统级别的深度控制。

性能测试表明，Gemini 2.5计算机使用模型在多个Web和移动控制基准测试中表现优异。在Browserbase平台的Online-Mind2Web测试中，该模型在浏览器控制质量和响应延迟方面均领先于市场主流方案。

针对AI控制计算机可能引发的安全风险，谷歌构建了多层次防护体系。模型训练阶段即融入安全功能，重点防范三类核心威胁：用户滥用、意外行为及Web环境中的提示注入攻击。开发者可通过两项安全控制工具进一步约束模型行为：逐步安全服务会在每次操作前进行独立评估，系统指令功能则允许开发者设定高风险操作（如绕过验证码、控制医疗设备）的拒绝或用户确认规则。

这些安全措施旨在帮助开发者规避系统破坏、安全威胁等高风险行为，确保AI智能体在合规框架内运行。

谷歌收购量子计算新锐Atlantic Quantum，技术融合加速迈向纠错量子计算机

2025-10-08

睡眠质量差或致大脑“早衰”一岁炎症等机制成研究新焦点

2025-10-08

百日科考揭秘钱塘江：潮汐树成因明晰，古海塘隐患排查守护安全

2025-10-08

从人力巡检到科技护航：黄山景区无人机开启智慧旅游新篇章

从人工到智能的管理模式升级在引入无人机前，黄山景区面临传统管理瓶颈：人工巡检需要2-3天才能完成全景区覆盖，悬崖峭壁等危险区域人员无法到达，形成安全监管盲区。黄山景区的实践为全国山岳型景区提供了可参考的成…

2025-10-08

从Meta人形机器人战略谈投资：聚焦“软件”内核，把握市场本质

当中国企业在机器人领域抓住核心技术时，我们投资者也要抓住投资的本质：不是预测涨跌，而是理解资金动向。在投资中，"硬件"是K线、指标这些表象，"软件"才是决定成败的关键——对市场行为的理解和判断。对我们普通…