ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里通义实验室InnerZoom框架:破解AI"看得到点不准"难题,效率精度双提升

时间:2026-07-04 05:51:51来源:互联网编辑:快讯

阿里巴巴通义实验室联合悉尼科技大学、阿德莱德大学的研究团队,针对AI操作电脑界面时“看得到却点不准”的难题,提出名为InnerZoom的创新框架。该研究以预印本形式发布,论文编号为arXiv:2606.30084v1,为解决AI电脑助手的核心痛点提供了新思路。

当前主流AI通过大型多模态模型处理“图形界面定位”任务,即根据屏幕截图和自然语言指令确定点击坐标。然而,这类模型在生成坐标时面临根本性矛盾:需兼顾大范围区域识别与像素级精确定位,导致最终决策易出错。研究团队通过诊断实验发现,模型中间层(如第19至23层)对目标区域的注意力覆盖概率达69%,但最后一层骤降至14%,形成“区域到点的鸿沟”。干预实验进一步证实,强化中间层目标区域信号可提升准确率,而随机放大无关信号则导致性能下降。

针对这一问题,业界现有“ZoomIn”方案通过两次推理实现精确定位:先粗略定位目标区域,再裁剪放大后重新推理。尽管效果提升,但计算成本和延迟几乎翻倍,难以满足实时操作需求。研究团队指出,模型首次推理已形成有效目标感知,关键在于如何将其传递至最终决策环节。InnerZoom因此提出“内部放大镜”机制,通过单次推理完成证据提取、精炼与坐标生成的全流程。

InnerZoom的核心创新在于“迭代双槽证据适配器”模块。该模块在模型第20、23、26、29层激活,维护两个独立证据槽:一个记录目标细节,另一个记录上下文布局。通过门控机制动态更新证据,避免信息随层数增加而衰减。最终坐标生成时,精炼后的证据被注入注意力机制,使模型“回忆”目标区域时获得更清晰的视觉信息。整个过程无需外部裁剪或重复输入图片,仅增加适配器模块的计算开销。

模型训练分为监督微调和强化学习两阶段。监督微调阶段通过“槽分离正则化”损失函数防止证据槽冗余,并采用分步训练策略优化适配器与解码器。强化学习阶段采用GRPO方法,基于坐标准确性生成奖励信号,无需人工标注过程。训练数据涵盖OS-Atlas、OmniAct等公开数据集,总计28.3万条监督样本和10万条强化学习样本。

实验结果显示,InnerZoom在六个基准测试中全面领先。在OSWorld-G测试集上,40亿参数的InnerZoom-4B模型得分64.7,超越70亿参数的竞品;在UI-Vision综合基准中,以40.2分领先第二名3.2分。效率方面,InnerZoom的推理延迟仅为两遍ZoomIn方案的64.3%至76.2%,计算量减少26%至32%。空间定位任务提升尤为显著,UI-Vision空间子类准确率从18.4分跃升至25.4分。

消融实验验证了设计选择的合理性。使用四层证据精炼(第20、23、26、29层)时准确率最高,增加层数性价比降低;双槽设计比单槽提升1.7分,比三槽提升1.4分,证明其在容量与多样性间的平衡优势。研究团队同时指出,当前方法在语义理解困难、视觉模糊目标及界面文字干扰等场景仍存在局限,未来需结合领域知识增强与抗干扰机制进一步提升鲁棒性。

该研究通过重构模型内部信息流,解决了AI电脑助手长期面临的精度与效率矛盾。对于用户而言,这意味着未来的AI助手能更可靠地执行点击操作,减少因定位偏差导致的交互失败,同时保持快速响应能力。论文全文可通过编号arXiv:2606.30084v1查阅。

更多热门内容
小米携手3M中国与激智科技 共建联合实验室 共破光学膜“卡脖子”难题
IT之家 7 月 3 日消息,“聚光成链・智创未来 ——2026 光电技术产才融合创新研讨会”今日在宁波举办。IT之家从激智创新孵化器获悉,小米、3M 中国、宁波激智科技三方宣布共建新型显示联合实验室,整合…

2026-07-04