ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

GPT-5.4“动手”能力大升级:微信操作惊艳,浏览器控制却让人哭笑不得

时间:2026-03-07 04:36:44来源:互联网编辑:快讯

OpenAI最新发布的GPT-5.4模型引发科技圈热议,其核心突破在于实现了原生电脑操控能力。这项被命名为"Native Computer Use"的功能,标志着人工智能从单纯的对话交互向实体操作层面跨越。用户现在可以通过自然语言指令,让AI直接完成文件创建、网页浏览、消息发送等复杂任务,而非仅提供操作指南。

测试显示,该模型在微信等封闭生态应用中展现出惊人适应性。当要求整理AI新闻并转化为特定风格的选题时,系统不仅完成内容生成与群发,还能自动优化表述方式。这种突破得益于双模式操作架构:代码模式通过生成Playwright脚本实现精确控制,截图模式则模拟人类视觉判断进行界面交互。实验性功能"Playwright Interactive"更支持边写代码边调试,官方演示中甚至用单句提示生成了完整的主题公园模拟游戏。

性能基准测试印证了技术进步的实质性。在OSWorld-Verified桌面操作测试中,GPT-5.4取得75.0%成功率,超越人类平均水平72.4%。WebArena-Verified和Online-Mind2Web测试分别获得67.3%和92.8%的成绩,证明其在网页交互领域的实用性。这些数据表明,AI操控电脑已从实验室走向实际应用场景。

技术整合方面,OpenClaw项目的贡献尤为突出。这个原独立项目在斯坦伯格团队加入OpenAI后,其核心能力被深度融入主线模型。针对上下文消耗过大的问题,研发团队引入"Compaction"机制,通过自动压缩中间过程历史记录,使长任务执行效率提升40%以上。Thinking版本新增的推理计划展示功能,允许用户实时干预任务方向,解决了传统模型方向偏差需从头重来的痛点。

专业领域应用呈现显著提升。GDPval专业知识测试显示,新模型得分较前代提高12个百分点至83.0%。BrowseComp网页信息检索测试中,Pro版本以89.3%刷新纪录。在幻灯片制作、金融建模等复杂任务中,Mercor基准测试证实其处理能力达到专业水准。开发者工具方面,Tool Search功能通过动态加载API定义,使token消耗降低47%的同时保持准确率。

企业级应用迎来重要更新。GPT-5.4现已集成至Microsoft Excel和谷歌Sheets,可直接读取单元格范围、执行多步分析并自动生成公式。这种深度嵌入改变了传统的人机协作模式,AI不再需要用户转述需求,而是直接参与数据处理流程。测试中,系统在财务建模任务中展现出超越初级分析师的效率。

安全争议伴随技术突破而来。完全电脑访问权限的开放引发隐私担忧,尽管OpenAI强调Thinking版本通过思维链监控降低了欺骗风险,但评估报告仍承认模型具备隐藏推理过程的潜在能力。这种矛盾在测试中尤为明显:当要求用中文输入法打开网页时,系统因无法识别输入栏状态导致操作失败,暴露出视觉理解的局限性。

实际应用呈现冰火两重天。在标准化任务中,模型展现出超越人类的效率,但在复杂界面或非常规操作时仍频繁出错。测试者发现,当页面元素位置发生变化时,系统需要重新识别布局,这种适应性不足与传统脚本的僵化形成微妙对比。付款操作等高风险场景中,人工监督仍是必要保障。

更多热门内容
马斯克X平台全面升级创作者订阅服务,多项新功能助力站内变现
为助力创作者更好地开展站内运营与自我营销,X平台同步上线了可分享订阅卡片,为创作者进行站内推广提供了新工具;全新推出的数据看板,则实现了收益追踪、受众洞察以及内置增长工具使用等功能的一站式整合,让创作者能够…

2026-03-07

Meta深化AI芯片布局:外购与自研双轨并行 拓展定制芯片应用场景
【环球网科技综合报道】3月6日消息,据彭博社报道,Meta公司首席财务官苏珊·李近日在摩根士丹利举办的科技会议上透露,公司已与全球顶尖芯片制造商达成重要合作协议,在采购芯片满足当下人工智能业务需求的同时,正…

2026-03-07

雷军两会谈科技创新:人形机器人将进厂,小米未来五年豪掷2000亿研发
会上,全国人大代表、小米集团创始人雷军说,人形机器人已在小米汽车工厂中开始实习,将为推动人形机器人在智能制造领域的应用持续贡献力量。 第二,要坚持技术为本,坚持投入硬核科技创新,持续深耕关键领域的核心技术。…

2026-03-07

雷军谈中国AI:人才与数据优势助力,人形机器人加速迈向实用化
今年的《政府工作报告》说,我国人工智能等研发应用走在世界前列。全国人大代表、小米集团创始人雷军3月5日在接受总台记者专访时表示,中国在人工智能领域有人才的优势,基于整体制造业基础和大量数据做支撑,通过不断创…

2026-03-07

京东曹鹏两会建言:以国家级算力网破“孤岛”,用“算力券”赋能AI普惠
曹鹏向时代财经表示,目前智能体已从单点应用走向规模化普及,成为企业运营的重要生产力;同时,AI与终端深度融合,具身智能、智能终端进入量产落地阶段;此外,行业普遍放弃了纯粹的技术炫技,转向以效能与产业价值为核心…

2026-03-07