ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek新突破:DSpark如何实现推理速度与效率双提升?

时间:2026-06-28 23:09:29来源:互联网编辑:快讯

科技圈近日被DeepSeek悄然上线的一项名为DSpark的新技术掀起波澜。这项技术已实际应用于DeepSeek-V4-Flash(preview)和DeepSeek-V4-Pro(preview)的生产服务中,并在两周内全面替代了上一代系统MTP-1,显著提升了服务响应速度与整体吞吐能力。

大语言模型(LLM)生成文本时,通常是一个token接一个token逐步输出,每个token的生成都需要完整运行一次模型前向计算。这种模式导致输出内容越长,用户等待时间越久。为解决这一问题,业界曾提出“推测解码”方案:先用轻量级“草稿模型”快速生成多个候选token,再由大模型一次性验证并接受正确部分。然而,这一方法长期面临两大难题:草稿质量随长度增加而下降,以及盲目验证大量低置信候选token导致系统资源浪费。

DSpark通过“半自回归生成”技术突破了第一重瓶颈。其核心设计保留并行计算的高效性,同时引入轻量级顺序头模块(如Markov或RNN结构)。具体而言,并行主干模型DFlash首先生成所有位置的基础概率分布,随后顺序头在采样阶段注入前序token信息,使后续预测不再完全依赖初始草稿。实验数据显示,在对话任务中,DFlash的条件接受率从第1个token的0.72骤降至第7个token的0.63,而DSpark的接受率始终稳定在高位,有效抑制了“后缀衰减”现象。更令人惊讶的是,仅2层结构的DSpark性能已超越5层DFlash,证明少量自回归机制即可带来显著提升。

系统层面的优化则通过“置信度调度验证”实现。DSpark额外训练了一个置信度预测头,为每个候选token计算“前缀存活概率”——即当前token在后续验证中存活的条件概率。为解决神经网络过度自信的问题,研究团队提出“顺序温度缩放”校准方法,将预测误差从3%-8%压缩至1%以内。硬件感知调度器根据系统实时负载与token置信度动态调整验证策略:低负载时验证更多候选token,高并发时优先裁剪低置信后缀。这一机制突破了MTP-1固定验证2个token的限制,使验证预算动态扩展至4-6个(轻载场景),同时确保高并发时系统稳定运行。

数学严谨性是DSpark设计的另一大亮点。论文附录通过反例证明,若调度器提前获取未来token信息,将导致输出分布偏移,破坏无损推测解码的理论基础。为此,研究团队采用异步调度策略,仅使用两步前的历史预测数据确定裁剪长度,在保证理论正确性的同时实现高效调度。

实际部署数据验证了DSpark的工程价值。在80 tok/s/user的适中服务等级协议(SLA)下,V4-Flash总吞吐提升51%;在120 tok/s/user的严苛SLA下,MTP-1已接近崩溃,而DSpark不仅实现661%的吞吐提升,更将该性能档位从“不可达”变为“稳定运行”。在相同吞吐水平下,用户生成速度在V4-Flash和V4-Pro中分别提升60%-85%和57%-78%,成功将服务速度-吞吐的帕累托边界向外扩展。

DeepSeek同步开源了DSpark的检查点及名为DeepSpec的训练代码库,包含Eagle3、DFlash和DSpark三套实现方案,为推理加速领域的研究与工程落地提供了重要参考。尽管DSpark已展现出显著优势,研究团队也坦诚指出其局限性:对于接受率本就较低的复杂推理任务,并行草稿阶段的计算仍存在浪费。未来若能实现“难度感知的提前退出”机制,系统效率有望进一步提升。

更多热门内容
AI浪潮下社工行业迎大考:国内外专家沪上共议技术与人本如何共融
事实上,技术仓促落地、行业被动承接的教训,早已在海外社工领域显现,其本质是对社会工作专业价值的消解。他发现,厂商宣称AI工具可帮社工每周节省8小时文档写作时间,但实际落地中问题丛生:撰写文档本身是社工进行意…

2026-06-28

算力时代下,艺康集团以绿色数智化探索产业转型新路径
在这一背景下,深耕水、卫生、感染预防解决方案和服务领域的艺康集团,正通过将人工智能、物联网与数据技术深度融合,推动传统服务模式向“数智化+可持续”的方向转型。 与此同时,其针对工业及商业场景开发的艺康数智汇…

2026-06-28

丁文超的具身智能创业路:从“天才少年”到行业破局者的敏捷突围
2024年VLA很火,但我们觉得单纯把一个action的头拼进VLM里,不是终极架构,所以提出了AI World Engine(AWE);然后是应用,模型早期要找到ROI最大、同时适合这一代具身智能的场景,我…

2026-06-28