ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

ChatGPT Agent发布:虽未超越Manus,但端到端AI未来可期

时间:2025-07-19 04:04:11来源:ITBEAR编辑:快讯团队

在人工智能领域,Agent概念正逐渐成为行业共识,OpenAI自然也不甘落后。近日,在一次深夜直播中,OpenAI的首席执行官Sam Altman携手四位研究员,共同揭晓了他们的最新力作——ChatGPT Agent,一款旨在重塑AI交互体验的通用型AIAgent。

尽管市场上已有诸如Manus、Lovart和Flowith等产品珠玉在前,ChatGPT Agent的亮相并未带来过于惊艳的视觉冲击,但其背后的意义却远超功能本身。ChatGPT Agent的革命性在于其独特的技术架构:它能够自主从内置的工具箱中挑选合适的代理技能,并利用自己的计算能力执行任务,用户得以实时目睹AI在虚拟空间中的每一步操作。

尽管这种交互界面与Manus等产品存在相似之处,但两者的底层逻辑却大相径庭。Manus通过调用多个底层模型实现功能整合,更像是“外部拼接”,而ChatGPT Agent则是将Agent的能力深度融入模型之中,展现出了端到端通用Agent的雏形。这一转变,标志着AI技术向更加一体化、智能化的方向迈进。

据OpenAI透露,为了打造ChatGPT Agent,他们特别整合了Operator和Deep Research团队,形成了一个20至35人的精英团队。这款新推出的代理模型,与OpenAI的o3系列同属一脉,采用了端到端的训练策略。它是一个专为代理任务而生的统一模型,而非多个模型的简单堆砌。

OpenAI发布的对比数据显示,ChatGPT Agent的训练过程主要依赖强化学习,与Grok4withtool的路径颇为相似。经过再训练,Agent不仅继承了Deep Research的深入研究和高质量报告生成能力,还吸纳了Operator通过远程可视化浏览器环境执行任务的能力,以及访问终端工具和外部数据源的能力。

更为贴心的是,ChatGPT Agent在完成复杂任务后,还能为用户提供可下载的PPT或文档,极大地提升了工作效率。这一新举措,无疑对Manus等竞争对手构成了严峻挑战,尤其在定价策略上,GPT的Plus套餐仅需每月20美元即可享受ChatGPT Agent服务,而Manus的基础计划则为每月19美元。

ChatGPT Agent的核心在于其统一的代理系统,该系统整合并拓展了OpenAI早期研究项目“Operator”和“Deep Research”的能力,使得ChatGPT Agent能够在对话中无缝切换推理与思考、执行具体动作两种模式。它运行在一个特设的虚拟计算机环境中,该环境沙盒化设计确保了操作的安全性,并能保存任务上下文,即使用户中途干预,也能从断点继续。

为了应对复杂工作流程,ChatGPT Agent配备了四种智能工具,并能根据任务需求智能选择最合适的工具。可视化浏览器用于与图形用户界面交互,文本浏览器则专注于高效推理和处理大量文本,终端允许运行代码、处理文件,而API访问则能直接调用外部应用数据。

ChatGPT Agent由一个专门为其设计的新模型驱动,该模型通过强化学习,在需要运用多种工具的复杂任务上进行了针对性训练,学会了在不同工具间流畅切换并协同工作。它能够接受自然语言指令,如“分析我的日历,并根据新闻简报准备即将到来的客户会议”,并自主规划执行一系列操作,最终生成可编辑的幻灯片或电子表格等成果。

在交互性方面,ChatGPT Agent能在必要时主动询问更多细节以完成任务,用户可随时中断、重定向任务或接管浏览器控制权。安全性是其设计的核心,执行关键操作前会明确请求用户许可,并禁止执行高风险任务,如金融转账或提供法律建议。同时,它还内置了针对恶意攻击的防护措施。

在多项基准测试中,ChatGPT Agent的表现同样抢眼。在最难的HLE测试中,其准确率达到了41.6%(使用工具),高于Grok4的41.0%。在测量广域知识与专家级提问的Humanity’s Last Exam上,单次作答准确率为41.6%,采用并行推理后提升至44.4%。在极难的FrontierMath数学基准上,借助终端运行代码后准确率提升至27.4%。在真实知识工作任务的内部评测中,ChatGPT Agent在约半数案例中与人类表现持平或更佳。在DSBench数据科学任务上,其分析与建模准确率分别达到89.9%和85.5%,远超人类平均水平。

ChatGPT Agent在电子表格编辑能力上也领先一筹,在SpreadsheetBench中取得45.5%的分数,远超Copilot in Excel的20%。在BrowseComp、WebArena等浏览评测中,也刷新了行业记录。

尽管功能强大,但OpenAI并未忽视潜在风险。在发布会后,Sam Altman立即发布长文,强调ChatGPT Agent处理复杂任务的能力的同时,也特别提醒了产品的风险。他指出,不法分子可能会试图诱导用户的AI代理提供私人信息或采取不当行动,方式难以预测。为此,OpenAI采取了一系列严格的安全措施,包括关键动作前用户授权、高风险任务监督模式、拒绝高风险指令等。

尽管ChatGPT Agent在“模型即Agent”的道路上迈出了坚实的一步,但竞争依然激烈。如Claude等模型在coding agent能力上表现出色,而新上线的Kimi K2则采用开源架构,定位为Agentic Intelligence,价格仅为Claude的六分之一左右,上线后迅速获得市场青睐。

面对自家产品的演示,Sam Altman不禁感慨:“我仿佛看到了AGI的曙光。”然而,关于GPT-5的期待声仍不绝于耳。

更多热门内容