OpenAI智能体姗姗来迟，能力虽强但市场先机已失-信息流-ITBear科技资讯

在万众瞩目中，OpenAI终于揭开了其智能体（Agent）的神秘面纱。这一消息由OpenAI的首席执行官Sam Altman亲自宣布，伴随着Agent模式的正式亮相，ChatGPT的通用型智能体版本也随之问世。

尽管OpenAI Agent的发布未能重现ChatGPT初次亮相时的那般轰动，但这一迟来的产品依旧承载着众多期待。早在年初，市场上便涌现了诸如Manus、Minimax、Kimi等类似形态的产品，使得OpenAI在某种程度上失去了先发制人的优势。

然而，OpenAI作为技术领域的佼佼者，其Agent的发布依旧不容小觑。在直播演示中，这款Agent所展现出的能力令人眼前一亮。它能够自主访问网页、调用终端、自动下单，并能执行从旅行规划、PPT制作到图像生成与在线购物的整套流程。这一表现，无疑为AI的应用场景开辟了更为广阔的空间。

据OpenAI介绍，ChatGPT Agent即日起向Pro、Plus和Team版用户开放，Enterprise和Education版用户则将于7月获得使用权限。不同版本的用户每月将享有不同次数的使用权限，以满足不同层级的需求。

为了实现从“Chat”到“Agent”的跨越，OpenAI结合了Operator（视觉层交互代理）和Deep Research（多步骤网页推理）两项核心研究成果。Operator如同Agent的“手脚”，负责执行具体操作；而Deep Research则如同“大脑”，负责任务的拆解、思考和决策。这一组合，使得Agent能够高效地完成复杂任务。

为了支撑Agent的运作，三大模块工具的支持不可或缺：文本浏览器用于处理密集型网页阅读任务，提取关键信息；可视化浏览器则实现在图形界面中的操作，如鼠标点击、输入、截图等；终端工具则用于运行代码、生成文件、调用API等，与其他系统集成。

这款Agent不仅能执行任务，还能评估执行效果，并在每一步中动态选择最优路径。用户可以随时插话调整指令，或临时接管任务进程，使得人与AI的协作更加灵活高效。

那么，Agent与ChatGPT究竟有何不同？简而言之，Agent能够完成任务，而ChatGPT则擅长对话。Agent所完成的任务更为复杂、高维，需要调动更多的工具和资源。例如，在OpenAI的演示中，Agent能够根据用户提供的网页信息，挑选适合参加婚礼的礼服和礼物，这一过程涉及信息的提取、筛选、比较等多个环节。

制作PPT也是Agent的强项之一。在演示中，Agent从Google云中提取分析评估数据，并自动制作成PPT，通过图表展示结果。这一过程不仅高效，而且生成的PPT在视觉上也更加流畅和美观。

尽管OpenAI在AI领域具有举足轻重的地位，但其在Agent产品的发布上却略显迟缓。今年3月，Manus便推出了通用Agent产品，并在市场上引发了广泛关注。随后，MiniMax、Kimi等也相继发布了类似产品，使得OpenAI在Agent领域的竞争压力骤增。

除了时间上的压力，OpenAI还面临着生态竞争和成本竞争的双重挑战。近年来，越来越多的竞品开始涌入AI市场，其中不乏一些具有成本优势的产品。例如Deepseek的训练成本仅为OpenAI的二十分之一，但性能表现却相当接近。这使得OpenAI在商业化方面面临不小的压力。

然而，尽管面临诸多挑战，但OpenAI在AI领域的领先地位依旧难以撼动。其Agent产品的发布，无疑为AI的应用场景注入了新的活力。随着AI技术的不断发展和完善，我们有理由相信，Agent将在未来发挥更加重要的作用，为人类的生活和工作带来更多便利和惊喜。