当网购快递遭遇盗窃,联系客服却面临漫长等待时,一位开发者选择让AI接管这一繁琐流程。OpenAI开发者体验工程师Jason Liu通过Codex设置每5分钟检查一次客服窗口,客服上线后自动转为每分钟检查,最终在他洗澡期间完成了退款操作。这场无需编写代码的人机协作,展现了AI操作电脑的新可能——它不仅能替代人类与客服沟通,还能通过iPhone镜像功能直接操作手机,甚至复现应用内的程序漏洞。
OpenAI近期重点推进的这项能力,通过三种技术路径赋予AI操作电脑的权限:Computer Use、Chrome插件和应用内浏览器。这三种看似重叠的功能,实则构成精密的权限体系。Jason Liu在技术长文中解释,选择哪种路径取决于具体场景——当微信提供接口时,AI发送消息只需调用函数;若无接口,则需经历打开应用、定位联系人、粘贴内容等复杂步骤。效率与可靠性的差异,决定了不同技术路径的适用边界。
作为最基础的兜底方案,Computer Use拥有最广泛的权限。它能识别屏幕内容、操作图形界面、调用键盘菜单,甚至与授权应用交互。这种能力虽能处理无接口的原生应用,但效率较低。Jason Liu演示了用其修改备忘录的过程:AI需先识别界面元素,再判断点击位置,等待应用响应后才能进行下一步操作。这种视觉循环的耗时性,使其更适合处理金融应用、系统设置等无结构化接口的任务,或在多应用切换的工作流中补足缺失环节。
Chrome插件则聚焦于浏览器环境,直接继承用户的登录状态。当需要处理Gmail、LinkedIn等需要身份验证的网页任务时,已登录的浏览器标签页能无缝衔接AI操作。Jason Liu曾让Codex持续监控某个Twitter长帖,AI每天自动检查私信、筛选新闻、归档反馈,整个过程保持登录态不变。这种能力虽强大,但风险也更高——网站会将AI操作视为用户本人行为,因此仅适用于不涉及资金、密码等敏感操作的场景。
应用内浏览器提供最严格的隔离环境。它在Codex对话界面中渲染网页,不携带用户cookie、插件或登录信息。这种特性使其成为开发调试的理想工具:开发者可直接修改代码、操作页面、查看渲染结果,甚至通过元素批注功能实现精准反馈。当Jason Liu需要重现某个视觉错误时,应用内浏览器能截取特定区域,将上下文信息与截图一同发送给Codex,形成完整的调试闭环。不过,这种隔离也限制了其处理需要登录或依赖浏览器扩展的网站的能力。
这三种技术路径的协同,构建起AI操作电脑的立体网络。Jason Liu建议:处理原生应用或跨应用流程时选择Computer Use;需要身份验证的网页任务使用Chrome插件;开发调试或无需登录的页面操作则启用应用内浏览器。在macOS平台上,Appshots功能进一步强化了这种协作——用户同时按下两侧Command键即可截图并发送上下文信息,为AI提供精准的操作指引。
从视觉控制到结构化接口的演进,折射出AI操作电脑的深层逻辑。表面上看,模拟人类点击鼠标的操作更具直观性,但OpenAI的实践表明:结构化工具才是提升效率的关键。当AI能通过API直接调用功能时,视觉控制仅作为最后的技术保障存在。这种设计哲学在Jason Liu的退款案例中得到验证——当所有结构化路径失效时,AI仍能通过屏幕识别完成目标,只是用户需要承担更高的信任成本。