ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

新加坡团队创新AI机制:κ-SwiGLU让大模型专家“智能调光”提效能

时间:2026-06-07 03:44:51来源:互联网编辑:快讯

新加坡科学技术研究局高性能计算研究院与上海工程技术大学联合开展的一项研究,为提升AI大模型效率提供了新思路。该研究聚焦于语言模型中广泛应用的“专家混合”(Mixture-of-Experts,MoE)架构,通过改进核心激活机制,使模型在处理不同任务时能动态调整内部信息筛选标准。相关成果以预印本形式发布,论文编号为arXiv:2606.00761。

MoE架构可类比为大型企业:当新任务到来时,前台(路由器)会根据问题特征将其分配给最合适的部门(专家),其余部门则保持休眠状态。这种设计显著降低了计算资源消耗,但现有模型中专家处理信息的方式长期存在固定缺陷——其内部的“开关”机制(SwiGLU)始终以统一标准运作,无法根据任务难度灵活调整灵敏度。研究团队提出的κ-SwiGLU方案,通过为每个专家配备可动态调节的“调光旋钮”,成功破解了这一难题。

核心突破源于对训练过程的深度观察。研究人员发现,专家内部的门控投影方向会自发向路由器的特征方向靠拢或偏离,形成隐性耦合效应。这种未被系统研究过的现象导致:当路由器高度确信任务分配时,相关问题的门控信号会被系统性放大;反之则被压制。通过量化分析7个独立训练的8层MoE模型,团队证实这种对齐现象普遍存在,且不同模型层呈现差异化特征——部分层初期正向对齐后转为负向,另一些层则长期保持正向。

基于这一发现,研究团队设计了κ-SwiGLU机制。该方案在标准SiLU函数中引入控制参数κ,通过路由逻辑值的线性变换与有界映射,使每个门控单元能根据任务确信度动态计算κ值。当κ>1时,门控过渡区域变窄,形成精准开关;当κ<1时,过渡区域变宽,增强信息包容性。为确保训练稳定性,团队采用“冷启动”策略:前10%训练步骤冻结κ参数,待路由行为稳定后再逐步释放调整空间,同时配合L2正则化防止参数过拟合。

实验在涵盖8至28层的多规模MoE语言模型上展开,使用教育内容数据集FineWeb-Edu进行训练。评估采用包含22个子数据集的CORE基准测试,结果显示:在8种模型配置中,7种性能获得提升。标准MoE架构下,模型层数从8层增至14层时,CORE分数提升0.6至1.0个百分点;“三明治”架构(仅中间2层为MoE层)的28层模型则提升0.6个百分点。消融实验进一步证明,路由确信度驱动的动态缩放是性能提升的核心因素,偏置项仅提供辅助调节作用。

计算开销分析显示,新机制引入的额外参数仅占原模型的0.02%,训练吞吐量下降约7%,推理吞吐量下降3.5%。对κ值动态变化的追踪揭示了有趣的训练模式:初期参数迅速分化形成极端值,随后逐步收敛至适度范围。这种“先探索后稳定”的策略,确保了模型在保持灵活性的同时避免过度调整。

尽管研究目前局限于中小规模模型,且评估维度集中在预训练基准,但其提出的动态门控思路为MoE架构优化提供了新方向。该机制通过微调现有结构实现性能提升,为研究人员和工程师提供了低成本改进方案。对于终端用户而言,这意味着未来的AI助手在处理擅长领域任务时,将能提供更精准的响应,而在面对陌生问题时则保持更开放的信息处理模式。

更多热门内容