阿里通义实验室InnerZoom框架：破解AI"看得到点不准"难题，效率精度双提升-业界动态-ITBear科技资讯

阿里巴巴通义实验室联合悉尼科技大学、阿德莱德大学的研究团队，针对AI操作电脑界面时“看得到却点不准”的难题，提出名为InnerZoom的创新框架。该研究以预印本形式发布，论文编号为arXiv:2606.30084v1，为解决AI电脑助手的核心痛点提供了新思路。

当前主流AI通过大型多模态模型处理“图形界面定位”任务，即根据屏幕截图和自然语言指令确定点击坐标。然而，这类模型在生成坐标时面临根本性矛盾：需兼顾大范围区域识别与像素级精确定位，导致最终决策易出错。研究团队通过诊断实验发现，模型中间层（如第19至23层）对目标区域的注意力覆盖概率达69%，但最后一层骤降至14%，形成“区域到点的鸿沟”。干预实验进一步证实，强化中间层目标区域信号可提升准确率，而随机放大无关信号则导致性能下降。

针对这一问题，业界现有“ZoomIn”方案通过两次推理实现精确定位：先粗略定位目标区域，再裁剪放大后重新推理。尽管效果提升，但计算成本和延迟几乎翻倍，难以满足实时操作需求。研究团队指出，模型首次推理已形成有效目标感知，关键在于如何将其传递至最终决策环节。InnerZoom因此提出“内部放大镜”机制，通过单次推理完成证据提取、精炼与坐标生成的全流程。

InnerZoom的核心创新在于“迭代双槽证据适配器”模块。该模块在模型第20、23、26、29层激活，维护两个独立证据槽：一个记录目标细节，另一个记录上下文布局。通过门控机制动态更新证据，避免信息随层数增加而衰减。最终坐标生成时，精炼后的证据被注入注意力机制，使模型“回忆”目标区域时获得更清晰的视觉信息。整个过程无需外部裁剪或重复输入图片，仅增加适配器模块的计算开销。

模型训练分为监督微调和强化学习两阶段。监督微调阶段通过“槽分离正则化”损失函数防止证据槽冗余，并采用分步训练策略优化适配器与解码器。强化学习阶段采用GRPO方法，基于坐标准确性生成奖励信号，无需人工标注过程。训练数据涵盖OS-Atlas、OmniAct等公开数据集，总计28.3万条监督样本和10万条强化学习样本。

实验结果显示，InnerZoom在六个基准测试中全面领先。在OSWorld-G测试集上，40亿参数的InnerZoom-4B模型得分64.7，超越70亿参数的竞品；在UI-Vision综合基准中，以40.2分领先第二名3.2分。效率方面，InnerZoom的推理延迟仅为两遍ZoomIn方案的64.3%至76.2%，计算量减少26%至32%。空间定位任务提升尤为显著，UI-Vision空间子类准确率从18.4分跃升至25.4分。

消融实验验证了设计选择的合理性。使用四层证据精炼（第20、23、26、29层）时准确率最高，增加层数性价比降低；双槽设计比单槽提升1.7分，比三槽提升1.4分，证明其在容量与多样性间的平衡优势。研究团队同时指出，当前方法在语义理解困难、视觉模糊目标及界面文字干扰等场景仍存在局限，未来需结合领域知识增强与抗干扰机制进一步提升鲁棒性。

该研究通过重构模型内部信息流，解决了AI电脑助手长期面临的精度与效率矛盾。对于用户而言，这意味着未来的AI助手能更可靠地执行点击操作，减少因定位偏差导致的交互失败，同时保持快速响应能力。论文全文可通过编号arXiv:2606.30084v1查阅。