英伟达Blackwell GPU助力AI推理速度飞跃，达成千TPS/用户新高度-人工智能-ITBear科技资讯

英伟达近日宣布了一项令人瞩目的成就：其最新推出的Blackwell GPU在meta的Llama 4 Maverick模型上，成功刷新了大型语言模型（LLM）推理速度的世界纪录。这一突破发生在周四，当时英伟达正式对外公布了这一消息。

据悉，为了达到这一里程碑，AI基准测试权威机构Artificial Analysis采用了配置了8块Blackwell GPU的DGX B200节点。这一配置使得系统每用户每秒能够生成高达1000个tokens（TPS），这在之前是难以想象的。

英伟达的技术团队通过深度优化TensorRT-LLM软件栈，并结合EAGLE-3技术，对推测解码草稿模型进行了训练。这种加速技术通过小型快速草稿模型预测token序列，再由大型目标LLM进行并行验证。英伟达表示，这种方法的优势在于单次迭代可能生成多个token，尽管这需要额外的草稿模型计算开销。经过这些优化，整套服务器系统在峰值吞吐配置下，每秒能够处理72,000个tokens。

英伟达进一步解释说，Blackwell架构与Llama 4 Maverick级别的超大规模语言模型完美适配，这得益于其专为大型语言模型推理加速设计的EAGLE3软件架构。这一架构与GPU硬件架构形成了协同效应，从而实现了性能的显著提升。

英伟达还强调，他们在提高性能的同时，也确保了响应的准确性。测试结果显示，使用FP8数据格式的准确性与人工分析的BF16数据格式相当。这意味着，在保持高准确性的前提下，英伟达成功地大幅提高了系统的性能。

英伟达的这一突破，不仅展示了其在GPU技术领域的领先地位，也为大型语言模型的推理加速提供了新的解决方案。随着人工智能技术的不断发展，这一突破将对未来的AI应用产生深远的影响。

从“吉林一号”卫星视角：探吉林遥感产业创新路与多元应用新篇

2025-09-22

OpenAI携手立讯精密开发消费级设备，歌尔股份或参与扬声器模块供应

2025-09-22

2025年10月15日深圳见！OPPO开发者大会携ColorOS 16与AI战略重磅登场

2025-09-22

华泰证券研报：OpenAI布局硬件领域，中国硬件生产商未来两年前景向好

2025-09-22

华为昇腾路线图发布国产算力与模型协同共进 2026年或迎发展高潮

2025-09-22

星宸科技布局下一代高端智能机器人芯片，预计2026年上市助力AI与机器人算法升级

2025-09-22

DeepSeek论文登《自然》封面，纯强化学习提升推理力，科技板块迎资金热潮

近日，由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文，登上了国际权威期刊《自然（Nature）》第645期的封面。一是实现混合推理架构，即一个模型同时支持思考模式与…

2025-09-22

索尼AI战略明晰：以AI赋能创作，拓展娱乐体验新边界

IT之家援引博文介绍，该系统不仅连接聊天与文本助手，还融入核心业务流程，已测试 300 多个 AI 相关项目，其中至少 50个投入常规使用。公司正将生成式 AI 与机器学习用于老片音频重制，并在 Play…

2025-09-22

华为全联接大会发布全球最强算力超节点与集群，助力AI算力持续发展

IT之家 9 月 18 日消息，今日，华为全联接大会 2025 在上海启幕，华为副董事长、轮值董事长徐直军发表题为“以开创的超节点互联技术，引领AI 基础设施新范式”的主题演讲，正式发布全球最强算力超节点和…

2025-09-22

姚期智谈“AI+量子”：融合发展开启量子智能新时代，潜力无限待挖掘

9月21日，在以“AI量子：量子智能”为主题的2025浦江创新论坛专题论坛上，中国科学院院士、上海期智研究院院长姚期智表示，推动人工智能与量子计算机融合发展，将把计算能力推向人类认知的一个极限，量子智能激发…

2025-09-22