DeepSeek-V3.1发布：混合推理架构升级，专为国产芯片设计-业界动态-ITBear科技资讯

近日，DeepSeek公司震撼发布了其最新版本的大语言模型——DeepSeek-V3.1。此次发布标志着DeepSeek在AI技术领域的又一次重大飞跃，特别是通过引入创新的混合推理架构和显著提升的智能体能力，为全球AI市场的竞争注入了新的活力。

DeepSeek-V3.1的核心创新在于其混合推理架构，这一架构使得模型能够在同一框架内灵活切换“思考”与“非思考”两种模式。据官方介绍，经过训练后的优化，新版本在工具使用、编程以及搜索等智能体任务上的表现均有显著提升。尤为V3.1采用了UE8M0 FP8 Scale的参数精度，专为即将推出的国产芯片设计，展示了DeepSeek对未来技术趋势的敏锐洞察。

社区测试数据显示，DeepSeek-V3.1在Aider多语言编程基准测试中取得了卓越成绩，超越了Anthropic的Claude 4 Opus，同时保持了显著的成本优势。这一突破性表现迅速吸引了开发者社区的广泛关注，模型在Hugging Face平台上的热度持续攀升。

为了进一步提升用户体验，DeepSeek同步升级了其API接口，将上下文窗口扩展至128K，并新增了对Anthropic API格式的支持，从而简化了迁移过程。公司宣布将于2025年9月6日起实施新的API定价方案，并取消夜间优惠，这一举措被视为DeepSeek在服务能力扩容后加速商业化进程的重要一步。

混合推理架构的引入，标志着DeepSeek正迈向智能体时代的新篇章。据DeepSeek官网介绍，此次升级带来了多项关键变化：模型能够同时支持思考模式与非思考模式，思考效率显著提升，相比DeepSeek-R1-0528，V3.1-Think能在更短时间内给出答案。同时，通过Post-Training优化，新模型在工具使用和智能体任务中的表现有了质的飞跃。

在编程和搜索等智能体能力方面，DeepSeek-V3.1同样表现出色。在代码修复和命令行终端任务测试中，V3.1的性能相较于公司以往模型有了显著提高。在复杂搜索测试中，模型同样展现出了卓越的多步推理能力。社区进行的第三方测试进一步证实了其编程能力的显著提升，在Aider编程基准上取得了71.6%的高分，同时保持了极低的成本效益。

DeepSeek继续坚持开源策略，已将V3.1的Base模型和后训练模型发布在Hugging Face与魔搭社区上。此次发布的模型参数量为685B，Base模型在V3基础上额外进行了840B token的训练。公司特别提醒开发者，新模型采用了新的参数精度，且分词器和聊天模板有所调整，部署时需参考最新文档。

在API服务方面，DeepSeek同样进行了全面升级。除了扩展上下文长度外，还为开发者提供了更强大的工具调用功能，如支持strict模式的Function Calling。为降低生态迁移成本，API增加了对Anthropic API格式的兼容支持，方便使用Claude Code框架的开发者接入DeepSeek模型。

在技术与产品不断更新的同时，DeepSeek也迈出了坚定的商业化步伐。公司宣布，将从2025年9月6日起调整API接口调用价格，并取消夜间时段优惠。此举旨在更好地满足用户调用需求，并展示了DeepSeek对API服务资源扩容的决心。