ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

梁文锋参与!DeepSeek联合北大发布新框架 提升大模型推理效率与速度

时间:2026-06-28 22:58:15来源:互联网编辑:快讯

当行业聚焦于大模型智能水平比拼时,DeepSeek选择将研发重心转向推理效率优化领域。这家人工智能企业联合北京大学科研团队,在GitHub平台发布了一项名为DSpark的推理加速框架研究成果,试图突破大语言模型在高并发场景下的性能瓶颈。

研究团队在论文中详细阐述了技术突破路径。传统自回归模型在生成文本时,每个新词元的产生都需完整遍历前置内容,这种串行处理机制导致输出长度与等待时间呈正相关,进而引发GPU资源利用率低下和用户响应延迟等问题。该问题在实时对话系统、多轮智能体协作等对时延敏感的场景中尤为突出。

现有解决方案主要分为自回归草稿模型(如Eagle3)和并行草稿模型(如DFlash)两大技术路线。前者受限于生成质量瓶颈,后者则存在系统效率短板,且两类方案均缺乏根据负载动态调整的校验机制。针对这些缺陷,研究团队创新性地提出半自回归生成架构,通过在并行主干中嵌入轻量级串行模块,实现前缀依赖信息的精准注入。

该架构包含两种实现方案:马尔可夫头仅依赖前一词元进行状态传递,RNN头则通过循环状态累积完整前缀信息。实验数据显示,采用两层Transformer结构的DSpark模型,在所有测试领域均超越五层DFlash模型的接受长度。这种设计既保留了并行处理的高吞吐优势,又通过局部串行化解决了长文本生成的质量衰减问题。

在真实场景验证阶段,DSpark框架展现出显著性能提升。部署于DeepSeek-V4在线服务系统后,相比原有MTP-1基线系统,在保持相同吞吐量的条件下,用户端文本生成速度提升60%至85%。当应用于阿里通义千问Qwen3系列模型时,4B、8B、14B三个版本在单轮对话中的可接受词元长度,较自回归草稿模型分别提升30.9%、26.7%、30%,较并行草稿模型分别提升16.3%、18.4%、18.3%。

值得关注的是,DeepSeek创始人梁文锋直接参与了这项研究。研究团队同步开源了DSpark模型权重及配套训练代码仓库DeepSpec,其中包含面向推测解码的算法驱动训练方案。这种开放态度为行业提供了可复现的技术路径,有望推动大模型推理效率优化领域的整体进展。

更多热门内容