在万众瞩目中,OpenAI终于揭开了其智能体(Agent)的神秘面纱。这一消息由OpenAI的首席执行官Sam Altman亲自宣布,伴随着Agent模式的正式亮相,ChatGPT的通用型智能体版本也随之问世。
尽管OpenAI Agent的发布未能重现ChatGPT初次亮相时的那般轰动,但这一迟来的产品依旧承载着众多期待。早在年初,市场上便涌现了诸如Manus、Minimax、Kimi等类似形态的产品,使得OpenAI在某种程度上失去了先发制人的优势。
然而,OpenAI作为技术领域的佼佼者,其Agent的发布依旧不容小觑。在直播演示中,这款Agent所展现出的能力令人眼前一亮。它能够自主访问网页、调用终端、自动下单,并能执行从旅行规划、PPT制作到图像生成与在线购物的整套流程。这一表现,无疑为AI的应用场景开辟了更为广阔的空间。
据OpenAI介绍,ChatGPT Agent即日起向Pro、Plus和Team版用户开放,Enterprise和Education版用户则将于7月获得使用权限。不同版本的用户每月将享有不同次数的使用权限,以满足不同层级的需求。
为了实现从“Chat”到“Agent”的跨越,OpenAI结合了Operator(视觉层交互代理)和Deep Research(多步骤网页推理)两项核心研究成果。Operator如同Agent的“手脚”,负责执行具体操作;而Deep Research则如同“大脑”,负责任务的拆解、思考和决策。这一组合,使得Agent能够高效地完成复杂任务。
为了支撑Agent的运作,三大模块工具的支持不可或缺:文本浏览器用于处理密集型网页阅读任务,提取关键信息;可视化浏览器则实现在图形界面中的操作,如鼠标点击、输入、截图等;终端工具则用于运行代码、生成文件、调用API等,与其他系统集成。
这款Agent不仅能执行任务,还能评估执行效果,并在每一步中动态选择最优路径。用户可以随时插话调整指令,或临时接管任务进程,使得人与AI的协作更加灵活高效。
那么,Agent与ChatGPT究竟有何不同?简而言之,Agent能够完成任务,而ChatGPT则擅长对话。Agent所完成的任务更为复杂、高维,需要调动更多的工具和资源。例如,在OpenAI的演示中,Agent能够根据用户提供的网页信息,挑选适合参加婚礼的礼服和礼物,这一过程涉及信息的提取、筛选、比较等多个环节。
制作PPT也是Agent的强项之一。在演示中,Agent从Google云中提取分析评估数据,并自动制作成PPT,通过图表展示结果。这一过程不仅高效,而且生成的PPT在视觉上也更加流畅和美观。
尽管OpenAI在AI领域具有举足轻重的地位,但其在Agent产品的发布上却略显迟缓。今年3月,Manus便推出了通用Agent产品,并在市场上引发了广泛关注。随后,MiniMax、Kimi等也相继发布了类似产品,使得OpenAI在Agent领域的竞争压力骤增。
除了时间上的压力,OpenAI还面临着生态竞争和成本竞争的双重挑战。近年来,越来越多的竞品开始涌入AI市场,其中不乏一些具有成本优势的产品。例如Deepseek的训练成本仅为OpenAI的二十分之一,但性能表现却相当接近。这使得OpenAI在商业化方面面临不小的压力。
然而,尽管面临诸多挑战,但OpenAI在AI领域的领先地位依旧难以撼动。其Agent产品的发布,无疑为AI的应用场景注入了新的活力。随着AI技术的不断发展和完善,我们有理由相信,Agent将在未来发挥更加重要的作用,为人类的生活和工作带来更多便利和惊喜。