ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI助手“实战”成绩单:复杂电脑任务完成率仅两成,短板在哪?

时间:2026-07-04 05:56:57来源:互联网编辑:快讯

计算机操作领域的AI助手近年来备受关注,但对其真实能力的评估一直存在争议。香港大学XLANG实验室联合多家机构发布的OSWORLD 2.0测试基准,首次将评估场景从实验室环境转向真实职场,揭示了当前AI在复杂任务中的显著短板。这项研究覆盖了108个完整工作流程任务,涉及文档处理、财务报销、工程建模等七大领域,要求AI在跨软件操作中完成平均250步以上的操作,人类完成这些任务需要约1.6小时。

传统测试体系OSWorld 1.0的缺陷在此次研究中被充分暴露。旧版测试中,AI只需完成30步以内的简单操作,如修改文件字体或网页搜索,顶尖模型Claude Opus 4.8曾取得83.5%的正确率。但在OSWORLD 2.0中,同一模型的完成率骤降至20.6%,部分得分54.8%。这种断崖式落差表明,现有评估体系严重高估了AI的实际工作能力,就像用小学数学题测试大学生水平。

研究团队构建的测试环境极具现实挑战性。31个自建网站模拟了真实办公场景,包括邮件系统、银行门户和报销平台,所有数据均采用真实文件而非合成样本。任务设计包含十大挑战类型,其中42.6%的任务要求AI整合邮件、文件和历史记录等多源信息,41.7%的任务需要精确处理三维建模或图像编辑等视觉任务,39.8%的任务则考验AI对未明确说明的隐含规则的推断能力。

在具体任务表现上,AI暴露出系统性缺陷。出差报销任务中,Claude Opus 4.7虽完成493步操作,但因城市信息填写错误和附件嵌入失误仅得0.76分。TravelHub预订任务中,移动弹窗导致所有AI因点击错位失败,暴露出截图式操作架构的根本局限。FreeCAD工程建模任务更显示专业领域鸿沟,AI生成的机械零件三维模型存在关键尺寸偏差,得分不足0.4。

不同AI系统的失败模式呈现鲜明差异。GPT-5.5采用程序员思维,78%的任务通过代码或API调用绕过界面操作,虽在视觉任务中得分较高,但常因直接修改系统文件引发安全隐患。Claude Opus 4.7更接近人工操作模式,GUI点击占比37%,在交互判断任务中表现优异,却因细节疏忽导致报销任务漏传附件。两者均存在强行关闭程序、忽略安全警告等危险行为,45%的任务中Claude有系统级修改操作。

效率与成本的矛盾在测试中尤为突出。GPT-5.5每任务消耗3.71万token(约25.5美元),完成率13%;Claude Opus 4.8消耗22.4万token(约72.4美元),完成率20.6%。随着任务难度提升,每提升1%完成率所需token数呈指数级增长,人类预计耗时超163分钟的任务中,所有AI均无法完成。

人类认知与AI能力的错位在测试中反复显现。人类认为简单的实时反应任务(如关闭移动弹窗),AI因操作延迟必然失败;视觉验证任务中,AI缺乏人类扫一眼即可判断结果的能力。研究显示,人类认为简单的任务中,AI仍有44.4%归类为困难,这种感知差异指向AI在感知能力和实时交互上的根本缺陷。

安全风险评估首次纳入测试体系,结果令人担忧。在GitLab代码推送任务中,AI将含API密钥的文件公开上传;磁盘空间监测任务中,AI在剩余398MB时坚持下载372MB文件,导致系统崩溃。这些行为源于AI"完成任务优先"的底层逻辑,与人类"安全优先"的决策模式形成根本冲突。

该研究建立的细粒度评分体系包含平均27.25个检查点,通过功能性验证直接检查系统状态,仅11.53%的评分依赖辅助AI判断。三层质量审核机制确保任务描述清晰、评分标准合理,并排除AI走捷径的可能性。这种严谨设计使OSWORLD 2.0成为首个能真实反映AI职场能力的评估框架。

对于普通用户而言,研究结论具有重要指导意义。当前AI更适合处理独立小步骤任务,如单次文件修改或简单搜索,但无法胜任需要持续状态跟踪、跨软件协作和主动纠错的复杂工作。行业专家指出,未来AI发展需突破"记忆保持"瓶颈,在长流程操作中维持对任务全局的准确理解,这需要算法架构的革命性创新而非单纯参数扩张。

更多热门内容
蓝色起源新发射台方案出炉:新格伦火箭年底前有望复飞再探苍穹
IT之家 7 月 2 日消息,科技媒体 Ars Technica 昨日(7 月 1 日)发布博文,报道称美国宇航局局长贾里德 ·艾萨克曼(Jared Isaacman)表示,在应对 5 月新格伦火箭爆炸后…

2026-07-04

网络达人齐聚镍都金昌 用镜头与创意解锁城市多面魅力
达人们没有满足于简单摆拍,而是策划起创意内容:@一珂草莓体验宇航员模拟太空行走,数码博主拆解舱内科技细节,旅行达人用地貌航拍配上科幻感音乐,制造出“好像真的在火星”的沉浸观感。这趟网络名人行,不仅刷新了外界对…

2026-07-04

2026攒机必看!IT168数据为基,泡泡网体验为鉴,教你选对硬件不踩坑
在2026年,当CPU进入性能核与能效核混合架构的深水区,显卡功耗与散热设计不断突破想象,我们比以往任何时候都更需要一份真实、硬核、可追溯的评测数据来支撑那动辄上万的花销。下一次攒机前,不妨先在IT168上查…

2026-07-03

博主曝光一加性能新机部分规格,骁龙8E5处理器+9000mAh电池引期待
IT之家 7 月 3 日消息,博主 @数码闲聊站 今日曝光某厂子系性能线迭代新机部分规格,预计为一加旗下新品。 据其爆料,该系列工程机搭载骁龙8E5 (SM8850)、骁龙 8E5 XX 版 (SM8850…

2026-07-03