DeepSeek V3惊艳亮相！671B大模型训练成本大降，开源细节引发热议-游戏之家-ITBear科技资讯

在AI界掀起波澜的DeepSeek V3模型，近日正式发布并引发了技术圈的狂热讨论。这款新版本不仅延续了其前身的性价比优势，更是直接采取了完全开源的策略，将训练细节详尽地呈现在53页的论文中，展现出前所未有的透明度。

对于DeepSeek V3，QLoRA一作的评价简洁而精准：优雅。该模型作为一个拥有671B参数的MoE模型，在14.8T的高质量token数据上进行了预训练，并激活了37B的参数。在多项评测中，它展现了卓越的性能，超越了如Llama 3.1 405B等开源模型，甚至能与GPT-4o、Claude 3.5 Sonnet等顶尖闭源模型一较高下。

meta科学家田渊栋同样对DeepSeek V3的训练效率表示惊叹，认为这是一项非常伟大的工作。据悉，DeepSeek V3的整个训练过程仅用了不到280万个GPU小时，与Llama 3 405B的3080万GPU小时相比，效率提升显著。从成本上来看，训练671B的DeepSeek V3仅花费了557.6万美元，而训练7B的Llama 2则需要76万美元。

除了性能和价格优势外，DeepSeek V3在实际应用中也表现出色。其生成速度提升了3倍，每秒能生成60个tokens。同时，其API价格也相对亲民，每百万输入tokens的价格为0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens的价格为8元。这一价格策略使得DeepSeek V3在性价比方面更具竞争力。

为了庆祝新模型的发布，DeepSeek还推出了45天的优惠价格体验期。在2025年2月8日之前，所有用户使用DeepSeek V3 API的价格将分别下降80%（输入命中）、50%（输入未命中）和75%（输出）。这一优惠活动无疑将进一步吸引用户尝试和体验DeepSeek V3。

在技术层面，DeepSeek V3也带来了诸多创新。官方此次一同开源了原生FP8权重，并提供了从FP8到BF16的转换脚本。SGLang和LMDeploy这两个框架已支持FP8推理，而TensorRT-LLM和MindIE则支持BF16推理。这些技术细节的优化使得DeepSeek V3在性能和效率上都有了显著提升。

在实测中，DeepSeek V3也展现出了强大的能力。首位全职提示词工程师Riley Goodside设计的一道关于模型版本理解的题目中，DeepSeek V3完全答对，而ChatGPT和Grok等模型则出现了错误。DeepSeek V3还能“诡异”地理解整个项目，只需开发者告诉它最终目标是什么。这些实测结果进一步证明了DeepSeek V3的卓越性能和实用性。

DeepSeek V3的成功离不开其背后的团队在算法、框架和硬件方面的协同优化。通过创新的负载均衡策略和训练目标、FP8混合精度训练框架以及高效的跨节点通信算法等技术手段，DeepSeek团队成功地降低了训练成本并提高了训练效率。这些专业知识的积累和实践经验使得DeepSeek V3能够在AI界脱颖而出。