Sea AI Lab与新国大研究：LLM强化学习微调崩溃？BF16或是“隐形杀手”-信息流-ITBear科技资讯

强化学习微调作为提升大型语言模型高级能力的关键技术，在实际应用中却面临训练不稳定、性能提升困难等问题。传统观点认为这些问题的根源在于复杂的算法设计缺陷，然而，最新研究指出，数值精度才是导致这些问题的关键因素。

当前，BF16格式因其在预训练阶段的稳定表现，已成为业界广泛采用的标准配置。然而，在强化学习微调的精细调整过程中，BF16的低精度特性反而成为阻碍。研究发现，BF16在训练和推理过程中引发的“训练-推理不匹配”现象，是导致训练任务失败和崩溃的主要原因。这一现象表现为训练引擎和推理引擎在计算结果上的微小数值偏差，这些偏差在长序列生成任务中不断累积，最终导致模型性能显著下降。为解决这一问题，研究团队将目光投向了另一种16位浮点格式——FP16。与BF16不同，FP16在尾数部分分配了更多位数，使其能够更精确地表示数值，从而减少舍入误差。尽管FP16的动态范围较小，但在强化学习微调阶段，模型的权重和激活值范围已相对稳定，不再需要BF16那样大的动态范围。因此，FP16的高精度特性成为解决训练不稳定问题的关键。

研究团队通过一系列实验验证了FP16的有效性。他们构建了一个“完美可解”的数据集，以排除数据集难度分布对实验结果的干扰。在这个数据集上，基于FP16的算法展现出了极高的训练稳定性，不仅从未崩溃，而且收敛速度飞快，最终性能全面超越了基于BF16的算法。实验还发现，所有最终崩溃的BF16算法在崩溃前都表现出训练策略和推理策略之间差异持续增大的特征，这表明差异程度可作为训练健康状况的监测指标。

进一步的研究探讨了不同精度组合对训练效果的影响。结果显示，将训练和推理精度统一为FP16的组合，不仅实现了最低的训练-推理不匹配，还获得了最稳定的训练动态和最高的性能，同时保持了极高的计算效率。相比之下，其他精度组合要么训练不稳定，要么计算效率低下。

为证明FP16解决方案的普适性，研究团队在多种模型和训练范式上进行了验证。在混合专家模型中，FP16精度下的训练比BF16更加稳定，能够持续获得更高的训练奖励和验证集性能。在低秩适应微调中，基于FP16的训练从头到尾保持完全稳定，而基于BF16的训练则在约600步后崩溃。在大型稠密模型上，FP16训练的模型奖励增长速度远快于BF16，并在验证集上取得了更高的准确率。在不同模型架构上的实验也得出一致结论：FP16能够有效提升强化学习微调的稳定性。

这些发现促使业界重新思考在大型语言模型训练流程中关于数值精度的选择。研究结果表明，将浮点数精度从BF16切换到FP16，是一种能够系统性提升强化学习微调稳定性和性能的根本性解决方案。这一发现不仅解决了当前强化学习微调领域的一个核心痛点，也为未来模型训练提供了新的思路。

锅圈携手熊喵大师推智能炒菜机，以技术重塑中餐标准化新体验

2025-11-03

华为MateBook Pro迎HarmonyOS 5.1.0.320SP36更新：新增手势开关与多项功能优化

2025-11-03

Origin Code VORTEX内存上架：三风扇散热+特挑颗粒，多版本定价公布

2025-11-03

AI浏览器兴起带来新挑战：南洋理工研发WebCloak破解Web Agent安全困局

2025-11-03

三星电子北美DS总裁透露：为英伟达DGX Spark桌面AI超算提供PM9E1高性能SSD

2025-11-03

奥宗尼亚LAB2B实验室臭氧机：以精准控制赋能科研，开启微量氧化新篇章

奥宗尼亚 Ozonia LAB2B 实验室臭氧机应运而生，专为科研环境设计，提供可靠、精准且可控的微量臭氧输送，实现科研级的氧化反应和消毒实验。LAB2B 臭氧机采用先进的电晕放电技术生成臭氧，并配备高精度…

2025-11-03

安徽合肥发布全链条机器人育种家“小海” 开启智能育种新时代

11月2日，位于安徽合肥的中科合肥智能育种加速器创新研究院，工作人员正在操作作物表型分析系统，该系统是全链条机器人育种家“小海”的组成部分。当天，“小海”正式发布，它涵盖“种质创制—种质鉴定—种质稳定”育种…

2025-11-03

全运会火炬传递现科技亮点！人形机器人“夸父”稳握火炬完成百米跑

每经深圳11月2日电（记者孔泽思）11月2日，第十五届全国运动会火炬传递启动仪式在深圳举行。人形机器人“夸父”以“0号火炬手”身份亮相，其手握1.6千克重火炬，完成了第二棒与第三棒间的百米传递。人形机器人…

2025-11-03

我国科研团队突破“人造太阳”核心材料难题自主保障超导带材生产

中国科学院金属研究所戎利建研究员团队近日利用自主研发的纯净化制备技术，成功实现了高纯净吨级哈氏合金的工业化生产，并实现超长超薄金属带材制备，这一新成果为制备第二代高温超导带材提供了关键基础材料的自主保障。用…

2025-11-03

天禧AI 3.5：以个性化安全与协同智慧，开启“硅基队友”新篇章

不同于传统AI的被动响应，其全时空主动记忆能力打破了设备与时间的壁垒，能持续积累用户交互数据并智能筛选关键信息，搭配全域打通的个人知识库引擎，将碎片化信息升维为专属知识图谱。基于MCP技术构建的多智能体协同架…

2025-11-03