ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek又变强了,推理速度最高提升85%

时间:2026-06-27 21:00:34来源:鞭牛士编辑:快讯

今日,DeepSeek推出全新的推测解码(Speculative Decoding)框架DSpark,并已在V4系列模型上使用。

该技术在保持生成文本分布完全无损(Lossless)的前提下,成功突破了大语言模型(LLM)在高并发生产环境中的推理性能瓶颈,实测数据显示,其单用户生成速度较现有主流方案最高提升85%。

随着大模型参数量的指数级增长,推理延迟和算力成本已成为制约AI应用落地的核心痛点。

尽管推测解码技术通过“小模型起草、大模型验证”的机制在一定程度上缓解了这一问题,但业界始终面临两难选择:要么使用自回归草稿模型(如Eagle3)以保证准确率但牺牲速度,要么使用并行草稿模型(如DFlash)以提升速度但牺牲长序列的接受率。

针对这一行业难题,DSpark提出了两大创新机制,实现了速度与质量的完美平衡。

核心技术一

半自回归生成,兼顾速度与连贯性

DSpark首创了“半自回归生成”架构(Semi-Autoregressive Generation)。

它摒弃了传统单一维度的生成方式,将草稿构建分为两步:

并行骨架:利用并行的DFlash骨干网络,像以前一样快速生成多个候选token的基础特征,确保极低的延迟。

顺序精修:引入轻量级的“马尔可夫头(Markov Head)”或“RNN头”,为这些并行生成的token注入上下文依赖关系。这就好比先快速勾勒出文章的骨架,再对局部逻辑进行微调,有效避免了并行模型在长序列末尾出现的“语义漂移”或“多模态碰撞”问题。

核心技术二置信度调度验证,拒绝算力浪费

DSpark还在验证端进行了智能化升级。传统的推测解码往往盲目地将整段草稿发送给大模型验证,容易造成计算资源的浪费。

DSpark引入了置信度头(Confidence Head),它能预测每个草稿token在给定前缀下的“存活概率”。结合硬件感知调度器,系统可以动态调整每个请求的验证长度,优先处理那些最有可能被接受的token。

这种“好钢用在刀刃上”的策略,极大地提升了GPU的整体吞吐效率。

单用户速度飙升,吞吐量大幅跃升

在多项严苛的基准测试中,DSpark展现了惊人的性能表现:

在数学推理、代码生成及日常对话任务中,DSpark相比当前SOTA的自回归方案Eagle3平均提升26.7%~30.9%的接受长度;相比并行方案DFlash提升16.3%~18.4%。

在真实的线上部署中,DSpark 的表现更为亮眼:

DSpark的两个变体(V4-Flash与V4-Pro)均取得了突破性进展。在匹配相同吞吐量的前提下,DeepSeek-V4-Flash 的单用户生成速度提升了 60% 至 85%,Pro 版本则提升了 57% 至 78%。

更关键的是,DSpark 成功避免了在高并发严格交互延迟约束下系统吞吐量的断崖式下跌,推高了服务系统的性能边界。

开源全栈工具链 DeepSpec

为了让更多开发者和企业受益于这一先进技术,研究团队宣布开源DSpark的相关资源,目前已发布DeepSeek-V4-Flash (preview) 和 DeepSeek-V4-Pro (preview) 的预训练检查点。

同时推出DeepSpec训练库,这是一个算法驱动的推测解码工具包,支持DSpark、DFlash及Eagle3的训练与评估。

DSpark的发布不仅是推测解码技术的一次重大迭代,更为大规模AI服务的商业化落地提供了强有力的技术支撑。

更多热门内容
中国2030年前载人登月势在必行!四大关键意义,开启太空竞争新格局
更令人振奋的是中国科学家的新发现:过去普遍认为氦-3需要在700℃以上高温加热才能提取,但最新研究表明,通过机械破碎方式,有望在常温条件下释放以气泡形式存在的氦-3;同时月壤中的钛铁矿具备弱磁性,可通过磁选方…

2026-06-27

AI项目成败关键何在?选对Token服务商,系统集成运维不再拖后腿
大模型进入企业应用深水区后,Token服务商的选择标准,已经从“能不能调用模型”,转向“调用成本是否可控、链路是否稳定、权限是否合规、业务能否真正落地”。 下面选取两类市场上常见方案进行对比:一家偏企业集成与…

2026-06-27

vivo X Fold6重磅登场:性能影像续航全面升级,7999元起售引关注
在充电和续航上,vivo X Fold6这款智能手机的电池容量为7000mAh,采用双电池并联设计,首发第五代硅负极技术搭配第三代半固态技术,并且,这款折叠屏手机还支持80W有线快充和40W无线快充,包装内…

2026-06-27