人工智能领域一直存在一个引人深思的问题:当模型规模无法继续扩大时,能否通过优化思考方式提升性能?北京航空航天大学、人民大学与多家研究机构联合开展的最新研究给出了创新答案。研究团队开发的LoopCoder-v2模型通过"循环思考"机制,在保持70亿参数规模的前提下,实现了性能的显著提升,但这种提升存在严格限制——仅在两次循环时效果最佳,超过两次反而导致性能衰退。
该研究的核心突破在于构建了并行循环Transformer(PLT)架构。与传统模型采用多层独立参数堆叠的方式不同,PLT使用共享参数组进行多次循环处理。研究团队形象地比喻:传统模型像流水线作业,每个工位完成固定工序;PLT则如同工匠反复打磨同一件作品,每次使用相同工具但调整手法。这种设计理论上可通过增加循环次数提升精度,而无需扩大模型规模。早期研究已证明,35亿参数模型通过50次循环可达到500亿参数模型的计算量。
工程实现上面临严峻挑战:每次循环都会产生中间状态数据,导致内存占用和延迟呈指数级增长。研究团队通过两项关键技术创新解决了这个问题。首先是"共享KV门控滑动窗口注意力"机制,在首次循环时建立全局记忆库,后续循环直接调用而不重复存储。其次是"跨循环位置偏移"技术,允许不同循环并行处理相邻位置的数据,避免严格的时间顺序依赖。这两项技术使多次循环的内存和延迟成本接近单次循环水平。
实验结果呈现明显的"双峰效应":在软件工程基准测试SWEbench Verified中,模型得分从单次循环的43.0分跃升至两次循环的64.4分,但三次循环时暴跌至27.6分。研究团队通过深入分析发现,每次循环都带来收益和代价的双重影响。收益体现在词语表示向量的持续优化,而代价则源于跨循环位置偏移导致的语义失真。从第三次循环开始,代价开始超过收益,且差距不断扩大。
内部机制分析揭示了性能衰退的根本原因。隐藏状态动态追踪显示,两次循环后词语表示向量的修改幅度和方向一致性急剧下降,出现"振荡式修改"现象。注意力热图演化分析表明,三次循环后模型的注意力分配模式基本固化,不同注意力头之间的功能差异逐渐消失。输出分布变化监测发现,后续循环的改进主要发生在输出层格式调整层面,而非实质性的语义深化。
在代码能力实战测试中,两次循环模型展现出惊人实力。在Humaneval+代码生成测试中取得84.1分,超越参数量数倍的14B和32B模型。在自动化软件工程领域,其64.4分的成绩不仅远超同规模模型,甚至战胜了720亿参数的Kimi-Dev-72B模型。这种"以小搏大"的表现,证明了智能思考机制设计的重要性。
研究还发现,将隐性循环与显性推理结合能产生协同效应。在实时代码竞赛测试LiveCodeBench中,单纯两次循环模型得分为35.4分,叠加文字推理链后飙升至62.3分。这种提升源于双重机制:显性推理负责宏观问题分解,隐性循环负责微观表示优化,两者形成互补增强关系。
基于实验结果,研究团队提出了实用的循环次数选择指南。通过监测模型有效秩的变化轨迹,可以判断继续增加循环次数是否仍有收益。当有效秩开始下降时,即表明模型表示能力已达饱和点,继续循环只会增加位置偏移代价。对于PLT架构而言,两次循环是兼顾性能和效率的最优选择。
这项研究为人工智能发展提供了新思路:在模型规模受限的情况下,通过优化思考机制仍可实现性能突破。但研究团队也指出,所有结论均基于特定架构设计,其他循环模型可能不存在相同现象。目前实验主要在代码任务领域验证,数学推理、多模态等领域的适用性仍需进一步探索。完整研究论文已在arXiv平台公开,编号为2606.18023。