7B小模型“循环思考”显神通：代码任务中力压数百亿参数大模型-人工智能-ITBear科技资讯

人工智能领域一直存在一个引人深思的问题：当模型规模无法继续扩大时，能否通过优化思考方式提升性能？北京航空航天大学、人民大学与多家研究机构联合开展的最新研究给出了创新答案。研究团队开发的LoopCoder-v2模型通过"循环思考"机制，在保持70亿参数规模的前提下，实现了性能的显著提升，但这种提升存在严格限制——仅在两次循环时效果最佳，超过两次反而导致性能衰退。

该研究的核心突破在于构建了并行循环Transformer（PLT）架构。与传统模型采用多层独立参数堆叠的方式不同，PLT使用共享参数组进行多次循环处理。研究团队形象地比喻：传统模型像流水线作业，每个工位完成固定工序；PLT则如同工匠反复打磨同一件作品，每次使用相同工具但调整手法。这种设计理论上可通过增加循环次数提升精度，而无需扩大模型规模。早期研究已证明，35亿参数模型通过50次循环可达到500亿参数模型的计算量。

工程实现上面临严峻挑战：每次循环都会产生中间状态数据，导致内存占用和延迟呈指数级增长。研究团队通过两项关键技术创新解决了这个问题。首先是"共享KV门控滑动窗口注意力"机制，在首次循环时建立全局记忆库，后续循环直接调用而不重复存储。其次是"跨循环位置偏移"技术，允许不同循环并行处理相邻位置的数据，避免严格的时间顺序依赖。这两项技术使多次循环的内存和延迟成本接近单次循环水平。

实验结果呈现明显的"双峰效应"：在软件工程基准测试SWEbench Verified中，模型得分从单次循环的43.0分跃升至两次循环的64.4分，但三次循环时暴跌至27.6分。研究团队通过深入分析发现，每次循环都带来收益和代价的双重影响。收益体现在词语表示向量的持续优化，而代价则源于跨循环位置偏移导致的语义失真。从第三次循环开始，代价开始超过收益，且差距不断扩大。

内部机制分析揭示了性能衰退的根本原因。隐藏状态动态追踪显示，两次循环后词语表示向量的修改幅度和方向一致性急剧下降，出现"振荡式修改"现象。注意力热图演化分析表明，三次循环后模型的注意力分配模式基本固化，不同注意力头之间的功能差异逐渐消失。输出分布变化监测发现，后续循环的改进主要发生在输出层格式调整层面，而非实质性的语义深化。

在代码能力实战测试中，两次循环模型展现出惊人实力。在Humaneval+代码生成测试中取得84.1分，超越参数量数倍的14B和32B模型。在自动化软件工程领域，其64.4分的成绩不仅远超同规模模型，甚至战胜了720亿参数的Kimi-Dev-72B模型。这种"以小搏大"的表现，证明了智能思考机制设计的重要性。

研究还发现，将隐性循环与显性推理结合能产生协同效应。在实时代码竞赛测试LiveCodeBench中，单纯两次循环模型得分为35.4分，叠加文字推理链后飙升至62.3分。这种提升源于双重机制：显性推理负责宏观问题分解，隐性循环负责微观表示优化，两者形成互补增强关系。

基于实验结果，研究团队提出了实用的循环次数选择指南。通过监测模型有效秩的变化轨迹，可以判断继续增加循环次数是否仍有收益。当有效秩开始下降时，即表明模型表示能力已达饱和点，继续循环只会增加位置偏移代价。对于PLT架构而言，两次循环是兼顾性能和效率的最优选择。

这项研究为人工智能发展提供了新思路：在模型规模受限的情况下，通过优化思考机制仍可实现性能突破。但研究团队也指出，所有结论均基于特定架构设计，其他循环模型可能不存在相同现象。目前实验主要在代码任务领域验证，数学推理、多模态等领域的适用性仍需进一步探索。完整研究论文已在arXiv平台公开，编号为2606.18023。