ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

华为盘古718B模型如何突围?从数据质量到Agent能力的系统化创新

时间:2025-09-29 15:48:15来源:互联网编辑:快讯

在最新一期的SuperCLUE中文大模型通用基准测评中,华为凭借其7180亿参数的MoE架构大模型openPangu-Ultra-MoE-718B跻身前三,与DeepSeek-V3.1、Qwen3-235B等开源模型同台竞技。这一成绩的背后,是团队对模型训练逻辑的深度重构——通过数据质量优先、三阶段预训练、批判性思维内化等创新策略,突破了传统“堆数据”的路径依赖。

数据构建环节,团队摒弃了“以量取胜”的常规做法,转而建立“质量评估-科学筛选-精准增强”的全流程体系。在指令数据清洗阶段,采用规则、模型、人工三重审核机制,确保低质量样本被彻底过滤;在任务设计上,通过领域与任务类型的双重维度覆盖,结合去重算法避免冗余;针对模型易在简单任务上过拟合的问题,团队量化推理步骤、概念抽象度等指标,重点强化中高难度任务的训练比例。这种对数据质量的严苛把控,为模型在复杂场景下的推理能力奠定了基础。

预训练阶段,团队将整个过程拆解为通用、推理、退火三个递进阶段。通用阶段通过海量文本与代码数据,构建模型的世界知识基础;推理阶段大幅增加泛数学、STEM及代码数据的比重,并引入高难度多步骤推理题库,配合详细思维链(CoT)引导模型学习逻辑路径;退火阶段则通过阶梯式扩展上下文长度至128K,同时增加指令类数据与Agent工具使用数据,使模型逐步掌握外部工具调用能力。这种分阶段训练策略,有效平衡了模型的基础认知与专项能力。

针对大型语言模型普遍存在的幻觉问题,团队提出“批判内化”机制。与传统批判微调(CFT)依赖固定人类反馈数据不同,该机制在模型训练完成后,通过拒绝采样引入自我批判信号,迫使模型在生成答案时主动审视推理过程。例如,在数学推理任务中,模型需检查逻辑链条是否完整、计算步骤是否准确;在代码生成任务中,则需验证语法正确性与功能实现度。实验数据显示,这一机制使模型的指令遵从性与输出可靠性显著提升。

在工具使用能力方面,团队开发的ToolACE框架通过四项关键技术实现突破:领域工具组合技术将关联工具(如日历查询与航班预订)绑定,提供工具依赖图;交互式目标轨迹生成采用“计划-执行”分离策略,先由AI规划工具调用序列,再通过模拟环境执行;多智能体对话生成引入随机打断、反问澄清等复杂交互;多维校验与错例迭代则对生成数据进行内容满足度、状态变化正确性等多维度评估,低分数据将反哺生成策略优化。经此训练的模型,在复杂多轮交互中展现出精准的工具调用能力。

后训练阶段,团队采用“渐进动态微调-强化学习-模型融合”三步策略。渐进动态微调(PDFT)通过动态调整训练权重,避免模型对特定数据过拟合;强化学习环节选用GSPO算法,相比传统GRPO算法在训练稳定性上提升30%;模型融合阶段则通过黑盒优化算法,自动搜索不同版本模型的最佳组合权重,生成综合性能更强的最终模型。这一系列优化,使openPangu-718B在数学推理、代码生成、幻觉控制等六个维度的评估中均表现优异。

从数据筛选到训练策略,从幻觉控制到工具学习,openPangu-718B的突破印证了一个核心逻辑:大模型的竞争力不在于参数规模或数据体量,而在于对技术细节的极致打磨。当行业仍在争论“规模定律”是否适用时,华为用实践给出了另一种答案——通过系统性技术创新,同样能在激烈竞争中开辟新路径。

更多热门内容
象屿集团携手钉钉,借AI之力开启数智化新篇,3万员工共赴转型新程
象屿集团此次与钉钉合作,不仅是AI技术平台的引入,更是双方对未来发展方向的高度共识。 值得一提的是,象屿集团此次全面引入钉钉One、DingTalkA1、AI听记、AI搜问、AI表格等钉钉AI新品,聚焦用…

2025-09-29

云天励飞加入OISA生态,以“算力积木”助力国产AI算力突破MoE大模型瓶颈
凭借在 AI 推理芯片与算力架构的长期积累,云天励飞成为 OISA 生态的重要一员。 未来,云天励飞将继续秉持“AI时代的加速器”愿景,持续迭代芯片技术与架构创新,携手 OISA 生态伙伴,共同推动智能算…

2025-09-29

四川资源集团携手华为 共绘智慧矿山蓝图 探索数智化赋能新路径
封面新闻记者 付文超9月29日,记者获悉,四川省自然资源投资集团有限责任公司(以下简称“四川资源集团”)与华为技术有限公司(以下简称“华为”)签署框架合作协议。 根据协议,双方将在智慧矿山规划和建设、人工智…

2025-09-29

Flash Attention作者Tri Dao:英伟达GPU主导地位或三年内瓦解,AI硬件将迎多元生态
他们设计了非常好的芯片,也有非常好的软件支持,这让我能够做很多有意思的事情,而这正是我追求的:能不能做出有意思的东西。举例我做的Mamba,思路是让模型把历史压缩成更小的状态向量,而不是保存完整的KV c…

2025-09-29