ChatGPT Agent发布：虽未超越Manus，但端到端AI未来可期-信息流-ITBear科技资讯

在人工智能领域，Agent概念正逐渐成为行业共识，OpenAI自然也不甘落后。近日，在一次深夜直播中，OpenAI的首席执行官Sam Altman携手四位研究员，共同揭晓了他们的最新力作——ChatGPT Agent，一款旨在重塑AI交互体验的通用型AIAgent。

尽管市场上已有诸如Manus、Lovart和Flowith等产品珠玉在前，ChatGPT Agent的亮相并未带来过于惊艳的视觉冲击，但其背后的意义却远超功能本身。ChatGPT Agent的革命性在于其独特的技术架构：它能够自主从内置的工具箱中挑选合适的代理技能，并利用自己的计算能力执行任务，用户得以实时目睹AI在虚拟空间中的每一步操作。

尽管这种交互界面与Manus等产品存在相似之处，但两者的底层逻辑却大相径庭。Manus通过调用多个底层模型实现功能整合，更像是“外部拼接”，而ChatGPT Agent则是将Agent的能力深度融入模型之中，展现出了端到端通用Agent的雏形。这一转变，标志着AI技术向更加一体化、智能化的方向迈进。

据OpenAI透露，为了打造ChatGPT Agent，他们特别整合了Operator和Deep Research团队，形成了一个20至35人的精英团队。这款新推出的代理模型，与OpenAI的o3系列同属一脉，采用了端到端的训练策略。它是一个专为代理任务而生的统一模型，而非多个模型的简单堆砌。

OpenAI发布的对比数据显示，ChatGPT Agent的训练过程主要依赖强化学习，与Grok4withtool的路径颇为相似。经过再训练，Agent不仅继承了Deep Research的深入研究和高质量报告生成能力，还吸纳了Operator通过远程可视化浏览器环境执行任务的能力，以及访问终端工具和外部数据源的能力。

更为贴心的是，ChatGPT Agent在完成复杂任务后，还能为用户提供可下载的PPT或文档，极大地提升了工作效率。这一新举措，无疑对Manus等竞争对手构成了严峻挑战，尤其在定价策略上，GPT的Plus套餐仅需每月20美元即可享受ChatGPT Agent服务，而Manus的基础计划则为每月19美元。

ChatGPT Agent的核心在于其统一的代理系统，该系统整合并拓展了OpenAI早期研究项目“Operator”和“Deep Research”的能力，使得ChatGPT Agent能够在对话中无缝切换推理与思考、执行具体动作两种模式。它运行在一个特设的虚拟计算机环境中，该环境沙盒化设计确保了操作的安全性，并能保存任务上下文，即使用户中途干预，也能从断点继续。

为了应对复杂工作流程，ChatGPT Agent配备了四种智能工具，并能根据任务需求智能选择最合适的工具。可视化浏览器用于与图形用户界面交互，文本浏览器则专注于高效推理和处理大量文本，终端允许运行代码、处理文件，而API访问则能直接调用外部应用数据。

ChatGPT Agent由一个专门为其设计的新模型驱动，该模型通过强化学习，在需要运用多种工具的复杂任务上进行了针对性训练，学会了在不同工具间流畅切换并协同工作。它能够接受自然语言指令，如“分析我的日历，并根据新闻简报准备即将到来的客户会议”，并自主规划执行一系列操作，最终生成可编辑的幻灯片或电子表格等成果。

在交互性方面，ChatGPT Agent能在必要时主动询问更多细节以完成任务，用户可随时中断、重定向任务或接管浏览器控制权。安全性是其设计的核心，执行关键操作前会明确请求用户许可，并禁止执行高风险任务，如金融转账或提供法律建议。同时，它还内置了针对恶意攻击的防护措施。

在多项基准测试中，ChatGPT Agent的表现同样抢眼。在最难的HLE测试中，其准确率达到了41.6%（使用工具），高于Grok4的41.0%。在测量广域知识与专家级提问的Humanity’s Last Exam上，单次作答准确率为41.6%，采用并行推理后提升至44.4%。在极难的FrontierMath数学基准上，借助终端运行代码后准确率提升至27.4%。在真实知识工作任务的内部评测中，ChatGPT Agent在约半数案例中与人类表现持平或更佳。在DSBench数据科学任务上，其分析与建模准确率分别达到89.9%和85.5%，远超人类平均水平。

ChatGPT Agent在电子表格编辑能力上也领先一筹，在SpreadsheetBench中取得45.5%的分数，远超Copilot in Excel的20%。在BrowseComp、WebArena等浏览评测中，也刷新了行业记录。

尽管功能强大，但OpenAI并未忽视潜在风险。在发布会后，Sam Altman立即发布长文，强调ChatGPT Agent处理复杂任务的能力的同时，也特别提醒了产品的风险。他指出，不法分子可能会试图诱导用户的AI代理提供私人信息或采取不当行动，方式难以预测。为此，OpenAI采取了一系列严格的安全措施，包括关键动作前用户授权、高风险任务监督模式、拒绝高风险指令等。

尽管ChatGPT Agent在“模型即Agent”的道路上迈出了坚实的一步，但竞争依然激烈。如Claude等模型在coding agent能力上表现出色，而新上线的Kimi K2则采用开源架构，定位为Agentic Intelligence，价格仅为Claude的六分之一左右，上线后迅速获得市场青睐。

面对自家产品的演示，Sam Altman不禁感慨：“我仿佛看到了AGI的曙光。”然而，关于GPT-5的期待声仍不绝于耳。