ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

谷歌Gemini 2.5计算机使用模型亮相:为AI智能体赋予GUI交互新能力

时间:2025-10-08 12:48:36来源:互联网编辑:快讯

谷歌近日宣布推出Gemini 2.5计算机使用模型,这是一款基于Gemini 2.5 Pro视觉理解与推理能力打造的专用工具,旨在让AI智能体具备直接操作图形用户界面(GUI)的能力,包括点击、输入文字和滚动屏幕等人类操作。

开发者现已可通过Google AI Studio和Vertex AI中的Gemini API访问该模型的公开预览版。相关文档已同步上线,开发者可参考链接了解具体使用方法。

谷歌指出,当前AI模型主要通过结构化API与软件交互,但许多日常数字任务仍需直接操作图形界面,例如填写表单、提交信息等。这类任务要求AI智能体能像人类一样浏览网页和应用程序,而原生支持表单填写、下拉菜单操作和登录后操作的能力,是构建通用型智能体的关键突破。

该模型的核心功能通过Gemini API新增的computer_use工具实现,采用循环运行机制。其工作流程分为四步:首先接收用户请求、屏幕截图和操作历史作为输入,开发者可指定排除某些操作或添加自定义函数;随后模型分析输入并生成UI操作指令,如点击或输入;客户端代码执行操作后,将新的屏幕截图和URL反馈给模型,形成持续迭代,直至任务完成或因安全、用户决策等原因终止。

技术文档显示,该模型特别针对Web浏览器环境优化,同时在移动UI控制任务中展现出潜力,但尚未适配桌面操作系统级别的深度控制。

性能测试表明,Gemini 2.5计算机使用模型在多个Web和移动控制基准测试中表现优异。在Browserbase平台的Online-Mind2Web测试中,该模型在浏览器控制质量和响应延迟方面均领先于市场主流方案。

针对AI控制计算机可能引发的安全风险,谷歌构建了多层次防护体系。模型训练阶段即融入安全功能,重点防范三类核心威胁:用户滥用、意外行为及Web环境中的提示注入攻击。开发者可通过两项安全控制工具进一步约束模型行为:逐步安全服务会在每次操作前进行独立评估,系统指令功能则允许开发者设定高风险操作(如绕过验证码、控制医疗设备)的拒绝或用户确认规则。

这些安全措施旨在帮助开发者规避系统破坏、安全威胁等高风险行为,确保AI智能体在合规框架内运行。

更多热门内容
从人力巡检到科技护航:黄山景区无人机开启智慧旅游新篇章
从人工到智能的管理模式升级在引入无人机前,黄山景区面临传统管理瓶颈:人工巡检需要2-3天才能完成全景区覆盖,悬崖峭壁等危险区域人员无法到达,形成安全监管盲区。 黄山景区的实践为全国山岳型景区提供了可参考的成…

2025-10-08

从Meta人形机器人战略谈投资:聚焦“软件”内核,把握市场本质
当中国企业在机器人领域抓住核心技术时,我们投资者也要抓住投资的本质:不是预测涨跌,而是理解资金动向。在投资中,"硬件"是K线、指标这些表象,"软件"才是决定成败的关键——对市场行为的理解和判断。 对我们普通…

2025-10-08

OpenAI开发者大会亮点频出:ChatGPT Apps SDK打造AI生态,Agent Kit8分钟生成智能体
接着,他介绍了本次大会为开发者带来的四个核心发布:允许在ChatGPT内部构建应用的新AppsSDK、旨在让智能体(Agent)开发更快速高效的Agent Kit、通过Codex简化软件编写流程,以及包括…

2025-10-08

从Meta机器人战略到投资智慧:聚焦“软件”核心,把握市场本质
当中国企业在机器人领域抓住核心技术时,我们投资者也要抓住投资的本质:不是预测涨跌,而是理解资金动向。在投资中,"硬件"是K线、指标这些表象,"软件"才是决定成败的关键——对市场行为的理解和判断。 对我们普通…

2025-10-08