ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

蚂蚁集团ACL2026新突破:FuseSearch让AI代码定位学会“聪明并行”

时间:2026-06-14 14:47:18来源:互联网编辑:快讯

在AI编程领域,一个长期被忽视的问题正引发技术变革:超过半数的计算资源消耗在代码搜索环节,而非实际编写代码。蚂蚁集团在ACL 2026 Findings会议上发表的最新研究显示,其开发的FuseSearch-4B模型通过创新搜索策略,在代码定位任务中实现与商用闭源大模型相当的精度,同时推理速度提升93.6%,计算成本降低68.9%。

传统代码定位方案存在显著缺陷。现有技术路线主要分为两类:一类依赖单一工具逐步缩小搜索范围,另一类采用固定并行策略同时调用多个工具。前者因轮次限制导致信息收集不足,后者则因盲目并行产生34.9%的冗余调用。这种"信息匮乏"与"资源浪费"的矛盾,成为制约AI编程效率的关键瓶颈。

研究团队提出的解决方案颠覆了传统思维。FuseSearch采用极简工具架构,仅包含文件搜索(glob)、内容检索(grep)和文件读取(read_file)三个基础工具。这种设计突破语言限制,可无缝部署于任何代码仓库,且无需依赖知识图谱或语法解析器等重型基础设施。其核心创新在于引入"信息增益"评估体系,通过量化每次搜索的新发现比例,动态调整并行策略。

模型训练采用独特的两阶段方法。在监督微调阶段,研究人员从GitHub仓库提取2.1万个高质量修复案例,筛选出6000条兼具定位精度和工具效率的轨迹数据,使模型掌握基础并行能力。强化学习阶段则设计精妙奖励函数,将定位准确率与工具效率的乘积作为关键指标,迫使模型在搜索过程中自主权衡广度与深度。这种训练机制使模型自动演化出"先撒网后收网"的搜索模式:初期并行调用多个工具快速覆盖候选区域,后期集中资源验证关键路径。

实验数据显示显著优势。在SWE-bench Verified基准测试中,FuseSearch-4B以84.7%的文件级F1分数比肩Claude Haiku 4.5,而参数规模仅为后者的百分之一。与开源模型RepoSearcher相比,其定位准确率提升102%,搜索速度加快16倍,Token消耗减少69%。当作为前置搜索引擎接入Kimi-K2-Instruct时,在保持修复效果的同时将整体成本削减47%。

这项研究为AI编程工具开发开辟新路径。学术层面,首次将搜索效率转化为可训练目标,为Agent工具调用策略提供新范式;工程层面,极简架构实现零部署成本,代码已开源支持即时应用;产业层面,证明小模型通过策略优化可达到商用大模型性能,为成本敏感型场景提供可行方案。该成果已通过GitHub平台公开,包含完整模型实现与训练数据集。

更多热门内容
兰州市少年宫迎来“火星蜂巢实验室” 开启青少年科创探索新篇章
实验室以火星探索为核心,融合AI、机器人、工程创客、未来生物等前沿领域,打造全景式火星地表模拟环境,配套初、中、高三级“创课+”资源包,让青少年足不出户就能化身“火星探险家”,在动手实践中解锁科学奥秘、锤炼创…

2026-06-14