ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI手机智能体测评揭晓:中兴断层领跑商用,端侧小模型瓶颈待突破

时间:2026-06-25 09:45:32来源:快讯编辑:快讯

智能手机市场正经历一场由硬件竞争向软件能力跃迁的深刻变革。当芯片性能、屏幕参数、影像系统等传统赛道逐渐触及创新天花板,具备自主规划与跨应用执行能力的GUI智能体,正成为各大厂商争夺用户心智的新战场。近日,第三方评测机构SuperCLUE发布的AgentCLUE-Mobile榜单,通过标准化测试环境对6款主流产品进行全面体检,揭示出行业技术演进的关键路径与现存痛点。

这场技术擂台呈现出明显的梯队分化格局。以91.29分断层领先的中兴GUI智能体,在简单、中等、困难全维度任务中均保持90%以上完成率,其端到端执行稳定性甚至超越多数云端服务。与之形成鲜明对比的是,排名末位的字节跳动UI-TARS仅获30.19分,在复杂场景中频繁出现指令理解偏差与操作冗余问题。这种两极分化现象,折射出当前技术路线的深刻分歧:云端协同模式展现出更强的场景适应力,而纯端侧部署方案仍受限于算力瓶颈。

测试数据颠覆了"参数即正义"的行业认知。搭载270亿参数Nebula-Pilot模型的中兴产品,凭借对手机交互场景的深度优化,在长链路任务中展现出超越90亿参数竞品的决策能力。反观部分采用70亿参数的通用模型,却因缺乏针对性训练,在跨应用数据迁移等场景中表现甚至不如40亿参数的专用模型。这种"大而不强"的悖论,迫使厂商重新思考模型架构与场景适配的优先级。

在具体能力维度上,跨应用执行成为制约行业发展的关键瓶颈。当测试任务涉及高德地图导航与微信位置共享的联动操作时,仅中兴产品能准确理解"最近门店"与"实时共享"的隐性约束条件,完整执行15步操作流程。多数竞品则因无法处理多意图并行判断,在应用切换环节出现30%以上的任务中断率。这种能力差距在真实用户场景中将被进一步放大,直接影响产品从"玩具级"向"工具级"的进化速度。

执行效率的测试结果更具启示意义。中兴产品通过精准的单步决策,将平均操作步数控制在10.83步,较第二梯队减少15%的冗余动作。而部分竞品为追求表面正确率,采取"试错式"操作策略,导致平均步数突破20步大关。这种"步数越多、错误越多"的恶性循环,暴露出行业在决策质量优化方面的技术短板。测试机构指出,压缩无效操作对用户体验的提升效果,远超过单纯提高任务完成率。

从技术路线选择来看,端云协同方案已占据主导地位。榜单前四名产品中有三款采用云端API调用模式,在复杂场景处理中展现出显著优势。本地部署产品则普遍面临算力掣肘,即便通过模型压缩技术将参数量降至亿级,仍难以支撑实时视觉理解与长链路规划需求。这种现状倒逼厂商重新评估技术投入方向,将更多资源向场景工程化能力倾斜。

这场技术竞赛正在重塑手机行业的竞争规则。当硬件参数逐渐趋同,GUI智能体的场景适应力、决策精准度、执行效率等软实力,将成为影响用户换机决策的核心要素。对于厂商而言,突破单纯追求参数规模的思维定式,构建"模型-场景-工程"三位一体的技术体系,或许才是赢得下一代人机交互入口的关键所在。

更多热门内容
小米YU7 GT自动驾驶创佳绩:浙赛首纪录诞生,纽北新分类上榜
IT之家 6 月 24 日消息,小米汽车今日宣布,小米 YU7 GT 创造了浙赛首个自动驾驶圈速纪录,用时 1:49.434。 另外,小米YU7 GT 本周还达成了全球首个纽北自动驾驶圈速纪录,用时 10 …

2026-06-25

CounterPoint:2026Q1全球智能眼镜市场激增,小米阿里引领中国市场增长
细分到 AR 眼镜领域,更成熟的 Birdbath/平面棱镜方案虽然仍占主导,但 2026 年 Q1 份额已从上年同期的 82% 降至58%。 RayNeo 以 41% 份额保持领先,VITURE 同比大…

2026-06-25

双足机器人Agility拟借SPAC上市,商业落地能力能否撑起25亿估值待考
若最终以25亿至30亿美元的估值完成SPAC合并,将为这家以“商业落地能力”为核心卖点的人形机器人公司带来公开市场溢价。在此背景下,Agility向公众投资者提出的核心主张是“部署优于演示”:一台在仓库中赚钱…

2026-06-25

CounterPoint报告:2026年Q1全球智能眼镜市场增长,小米阿里引领中国市场
细分到 AR 眼镜领域,更成熟的 Birdbath/平面棱镜方案虽然仍占主导,但 2026 年 Q1 份额已从上年同期的 82% 降至58%。 RayNeo 以 41% 份额保持领先,VITURE 同比大…

2026-06-25

融资超百亿,英伟达押注,Baseten成AI推理赛道崛起新势力
Baseten想成为的,就是AI推理时代的基础设施层,这也是它估值快速飙升的根本原因。 这时候,英伟达需要的不只是OpenAI和微软这样的大客户,也需要Baseten这样的基础设施公司,把更多开源模型、专用…

2026-06-25

实测豆包专业版:从质疑到惊喜,国产AI办公新体验真香预警
在途中需要你登录一下,豆包操作浏览器的能力也非常出色,我直接跟它说我注册好了,让它操作浏览器给我发个验证码过来就完了。 虽然说,它现在肯定还有不成熟的地方,但这次实测下来,确实超出了我对"豆包"这两个字的预…

2026-06-25

孙正义股东大会放豪言:AI非泡沫,软银机器人量产,还直言马斯克计划鸡肋
据界面新闻,孙正义表示,“AI革命才刚刚开始,称其为泡沫是对AI的亵渎”,并宣称将以净资产价值(NAV)为基准,目标在未来16年内实现14倍增长,达1000万亿日元。 此前马斯克旗下的SpaceX在招股书中…

2026-06-25

梁汝波首谈字节AI战略:收缩业务聚焦大模型,“勇攀高峰”定调2026
此外,梁汝波称,攀登高峰绝不是某一家公司可以独自完成的,对字节和火山引擎而言,攀登AI这座高峰一定是要和客户一起。 长期以来,字节跳动一直被视为最有可能上市的中国科技企业之一,但公司至今并未表现出急于上市的…

2026-06-25

周鸿祎谈“弃用龙虾”:安全不确定且Token消耗大,AI重塑安全业
周鸿祎表示,自己之前没仔细用过龙虾的时候,对消耗Token没有概念,觉得做AI就得舍得花钱。 周鸿祎提到自己做了半年的安全龙虾,出现了两个让他绝望的问题,也使得他决定在一款新产品里放弃使用龙虾。“有两个原因…

2026-06-25

周鸿祎ISC演讲:360纳米Work亮相,让AI从“能答”到“能干”赋能千行百业
360集团创始人周鸿祎在《从大模型到百亿智能体时代Al进化新路径》主题演讲中,对外介绍了360旗下新一代AI工作平台纳米Work。周鸿祎表示,AI正从"能回答问题"走向"能上手干活",纳米Work要让智能体…

2026-06-25