DeepSeek新突破：DSpark如何实现推理速度与效率双提升？-人工智能-ITBear科技资讯

科技圈近日被DeepSeek悄然上线的一项名为DSpark的新技术掀起波澜。这项技术已实际应用于DeepSeek-V4-Flash（preview）和DeepSeek-V4-Pro（preview）的生产服务中，并在两周内全面替代了上一代系统MTP-1，显著提升了服务响应速度与整体吞吐能力。

大语言模型（LLM）生成文本时，通常是一个token接一个token逐步输出，每个token的生成都需要完整运行一次模型前向计算。这种模式导致输出内容越长，用户等待时间越久。为解决这一问题，业界曾提出“推测解码”方案：先用轻量级“草稿模型”快速生成多个候选token，再由大模型一次性验证并接受正确部分。然而，这一方法长期面临两大难题：草稿质量随长度增加而下降，以及盲目验证大量低置信候选token导致系统资源浪费。

DSpark通过“半自回归生成”技术突破了第一重瓶颈。其核心设计保留并行计算的高效性，同时引入轻量级顺序头模块（如Markov或RNN结构）。具体而言，并行主干模型DFlash首先生成所有位置的基础概率分布，随后顺序头在采样阶段注入前序token信息，使后续预测不再完全依赖初始草稿。实验数据显示，在对话任务中，DFlash的条件接受率从第1个token的0.72骤降至第7个token的0.63，而DSpark的接受率始终稳定在高位，有效抑制了“后缀衰减”现象。更令人惊讶的是，仅2层结构的DSpark性能已超越5层DFlash，证明少量自回归机制即可带来显著提升。

系统层面的优化则通过“置信度调度验证”实现。DSpark额外训练了一个置信度预测头，为每个候选token计算“前缀存活概率”——即当前token在后续验证中存活的条件概率。为解决神经网络过度自信的问题，研究团队提出“顺序温度缩放”校准方法，将预测误差从3%-8%压缩至1%以内。硬件感知调度器根据系统实时负载与token置信度动态调整验证策略：低负载时验证更多候选token，高并发时优先裁剪低置信后缀。这一机制突破了MTP-1固定验证2个token的限制，使验证预算动态扩展至4-6个（轻载场景），同时确保高并发时系统稳定运行。

数学严谨性是DSpark设计的另一大亮点。论文附录通过反例证明，若调度器提前获取未来token信息，将导致输出分布偏移，破坏无损推测解码的理论基础。为此，研究团队采用异步调度策略，仅使用两步前的历史预测数据确定裁剪长度，在保证理论正确性的同时实现高效调度。

实际部署数据验证了DSpark的工程价值。在80 tok/s/user的适中服务等级协议（SLA）下，V4-Flash总吞吐提升51%；在120 tok/s/user的严苛SLA下，MTP-1已接近崩溃，而DSpark不仅实现661%的吞吐提升，更将该性能档位从“不可达”变为“稳定运行”。在相同吞吐水平下，用户生成速度在V4-Flash和V4-Pro中分别提升60%-85%和57%-78%，成功将服务速度-吞吐的帕累托边界向外扩展。

DeepSeek同步开源了DSpark的检查点及名为DeepSpec的训练代码库，包含Eagle3、DFlash和DSpark三套实现方案，为推理加速领域的研究与工程落地提供了重要参考。尽管DSpark已展现出显著优势，研究团队也坦诚指出其局限性：对于接受率本就较低的复杂推理任务，并行草稿阶段的计算仍存在浪费。未来若能实现“难度感知的提前退出”机制，系统效率有望进一步提升。

法拉第未来发布Faber轮臂机器人及Futurist人形机器人拓展工业与商用新场景

2026-06-28

DeepSeek联合北大发布新论文：DSpark框架助力大模型突破推理效率瓶颈

2026-06-28

酷开科技发布Happy Work AIOS Lite MVP 四大智能体架构助力企业高效运营

2026-06-28

寻找机器人专属“物理语言”：μ₀模型开启具身智能新可能

2026-06-28

科技巨头联手出击！5亿美元预算助力新机构Intercept向感冒流感宣战

2026-06-28

八年磨一剑！胜科纳米iWUDI™系统亮相，AI赋能半导体产业开启新征程

2026-06-28