在科技界的一次重大突破中,OpenAI悄然推出了其最新的创新产品——ChatGPT Agent,这一产品的问世标志着AI技术迈入了一个全新的阶段。
北京时间周五凌晨,OpenAI通过一场直播活动,向全球用户展示了这款具备通用智能体(Agent)能力的AI产品。ChatGPT Agent不仅继承了ChatGPT的对话与推理能力,更实现了关键性的升级,能够主动规划行动,利用多种工具完成复杂任务。
与以往的基础大模型升级不同,ChatGPT Agent能够自动浏览用户日历、生成可编辑的PPT、运行代码等,甚至能够连接Gmail、GitHub等网站获取信息并解决问题。这一能力的大幅提升,使得AI智能体在实际应用中展现出了前所未有的潜力。
据OpenAI介绍,ChatGPT Agent目前已经向OpenAI Pro、Plus和Team计划的订阅用户开放。用户只需在ChatGPT的工具下拉菜单中选择“Agent模式”,即可体验这一全新功能。而企业版和教育版用户则预计将于夏季晚些时候获得该功能。
在正式发布时,Pro用户每月最多可使用400次Agent提示,其他付费用户则最多可使用40次。虽然目前尚不清楚该功能何时会面向ChatGPT免费用户推出,但这一创新已经引起了业界的广泛关注。
OpenAI CEO山姆·奥特曼(Sam Altman)表示,看着ChatGPT智能体使用计算机执行复杂任务,对他来说是一个真正的“感受AGI”的时刻。他强调,看到计算机思考、计划和执行,会带来截然不同的感受。
ChatGPT Agent的核心是一个统一的智能agentic系统,它结合了Operator的网站交互能力、deep research的信息综合能力以及ChatGPT的智能推理与对话能力。这使得ChatGPT Agent能够在使用多个工具时保留任务所需的上下文信息,并根据需要灵活切换推理与执行。
例如,用户可以让ChatGPT Agent执行“查询年度财务报告”等请求,智能地浏览网站、筛选结果,并在需要时提示用户安全登录。运行代码、进行分析,甚至交付可编辑的幻灯片和电子表格等复杂任务,ChatGPT Agent也能轻松应对。
ChatGPT Agent还配备了一整套工具,包括可视化浏览器、文本浏览器、终端以及直接调用API的能力。这使得它能够选择最优路径,以最高效的方式完成任务。同时,用户也始终掌控全局,可以在任何时候中断任务、接管浏览器或停止运行。
在基准测试中,ChatGPT Agent也展现出了卓越的性能。在“人类最后考试”评估中,支持ChatGPT Agent的模型获得了41.6的Pass@1分数。在具备工具使用能力的情况下,ChatGPT Agent在FrontierMath基准测试中达到了27.4%的准确率,远远超越此前的所有模型。
在模拟复杂真实任务的基准测试中,ChatGPT Agent的输出在大约一半的情况下可与人类相媲美,甚至优于人类。在DSBench和SpreadsheetBench等基准测试中,ChatGPT Agent也均超越了人类的平均表现。
然而,尽管ChatGPT Agent效用巨大,但潜在的风险也不容忽视。OpenAI已在其中构建了大量的安全措施和警告,以及比以往任何时候都更广泛的缓解措施。但山姆·奥特曼也坦言,他们无法预见一切,因此将向用户发出很多警告,并给予用户自主选择是否谨慎采取行动的自由。
他建议用户授予Agent完成任务所需的最低访问权限,以降低隐私和安全风险。同时,他也强调,这是一个尝试未来的机会,但在有机会在现实世界研究和改进它之前,不应将其用于高风险用途或获取大量个人信息。
不少网友已经提前体验了ChatGPT Agent的功能,并对其表现给予了高度评价。有网友表示,ChatGPT Agent在创建提前退休计划、完成购物任务等方面展现出了惊人的能力,大大节省了时间和精力。
然而,也有网友指出,ChatGPT Agent在执行任务的过程中仍有一定的改进空间。例如,在某些情况下,手动操作可能会比使用ChatGPT Agent更高效。
无论如何,ChatGPT Agent的问世无疑为AI技术的发展注入了新的活力。随着技术的不断进步和应用场景的不断拓展,我们有理由相信,AI将在未来发挥更加重要的作用。