梁文锋参与！DeepSeek联合北大发布新框架提升大模型推理效率与速度-业界动态-ITBear科技资讯

当行业聚焦于大模型智能水平比拼时，DeepSeek选择将研发重心转向推理效率优化领域。这家人工智能企业联合北京大学科研团队，在GitHub平台发布了一项名为DSpark的推理加速框架研究成果，试图突破大语言模型在高并发场景下的性能瓶颈。

研究团队在论文中详细阐述了技术突破路径。传统自回归模型在生成文本时，每个新词元的产生都需完整遍历前置内容，这种串行处理机制导致输出长度与等待时间呈正相关，进而引发GPU资源利用率低下和用户响应延迟等问题。该问题在实时对话系统、多轮智能体协作等对时延敏感的场景中尤为突出。

现有解决方案主要分为自回归草稿模型（如Eagle3）和并行草稿模型（如DFlash）两大技术路线。前者受限于生成质量瓶颈，后者则存在系统效率短板，且两类方案均缺乏根据负载动态调整的校验机制。针对这些缺陷，研究团队创新性地提出半自回归生成架构，通过在并行主干中嵌入轻量级串行模块，实现前缀依赖信息的精准注入。

该架构包含两种实现方案：马尔可夫头仅依赖前一词元进行状态传递，RNN头则通过循环状态累积完整前缀信息。实验数据显示，采用两层Transformer结构的DSpark模型，在所有测试领域均超越五层DFlash模型的接受长度。这种设计既保留了并行处理的高吞吐优势，又通过局部串行化解决了长文本生成的质量衰减问题。

在真实场景验证阶段，DSpark框架展现出显著性能提升。部署于DeepSeek-V4在线服务系统后，相比原有MTP-1基线系统，在保持相同吞吐量的条件下，用户端文本生成速度提升60%至85%。当应用于阿里通义千问Qwen3系列模型时，4B、8B、14B三个版本在单轮对话中的可接受词元长度，较自回归草稿模型分别提升30.9%、26.7%、30%，较并行草稿模型分别提升16.3%、18.4%、18.3%。

值得关注的是，DeepSeek创始人梁文锋直接参与了这项研究。研究团队同步开源了DSpark模型权重及配套训练代码仓库DeepSpec，其中包含面向推测解码的算法驱动训练方案。这种开放态度为行业提供了可复现的技术路径，有望推动大模型推理效率优化领域的整体进展。

梁文锋参与！DeepSeek联合北大发布新框架 提升大模型推理效率与速度

梁文锋参与！DeepSeek联合北大发布新框架提升大模型推理效率与速度