谷歌DiffusionGemma文本扩散模型发布：本地推理提速4倍性能表现亮眼-业界动态-ITBear科技资讯

谷歌近日推出了一款名为DiffusionGemma的开放AI模型，该模型基于文本扩散机制构建，在本地推理速度上实现了显著提升。相较于当前主流的自回归模型架构，DiffusionGemma在本地计算环境中的效率提高了四倍，为低带宽场景下的应用提供了新的可能性。

自回归模型，如GPT和Gemini等，采用从左到右逐个生成Tokens的方式，在云端批处理场景中表现优异。然而，这种架构在本地推理时容易受到内存带宽限制，导致计算资源浪费。而扩散模型则通过从噪声中逐步去噪的方式生成输出，能够并行处理所有Tokens，从而在本地环境中展现出更高的推理效率。

DiffusionGemma在开源方面采用了Apache 2.0许可证，用户可以自由地从Hugging Face平台下载模型权重。其性能表现与Gemma 4系列其他模型相当，但在推理效率上具有明显优势。该模型支持迭代优化功能，能够在生成过程中主动纠正错误，确保输出结果的稳定性和一致性。采样速度达到每秒1479个Tokens，开销仅0.84秒，显著提升了生成效率。

在具体性能指标上，DiffusionGemma在代码生成任务中表现突出。LiveCodeBench测试得分30.9%，BigCodeBench得分45.4%，Humaneval得分89.6%，与Gemini 2.0 Flash-Lite模型互有胜负。数学能力方面，该模型在AIME 2025测试中取得23.3%的成绩，超越了对比模型的20.0%，展现了扩散架构在推理任务中的潜力。

不过，DiffusionGemma在某些基准测试中仍存在不足。科学推理GPQA Diamond测试得分40.4%，明显低于对比模型的56.5%；推理能力BIG-Bench Extra Hard测试得分15.0%，也落后于对比模型的21.0%。这些短板表明，该模型在特定领域仍有优化空间。

英伟达官方博文指出，DiffusionGemma的扩散设计能够充分发挥其GPU的Tensor Core并行计算能力。在单块H100 GPU上，该模型达到每秒1000个Tokens的生成速度；在DGX Spark平台上为每秒150个Tokens；在DGX Station平台上则可达每秒2000个Tokens，约为同等条件下自回归模型速度的四倍。这一性能优势使得DiffusionGemma在需要高速本地推理的场景中具有广阔的应用前景。

谷歌DiffusionGemma文本扩散模型发布：本地推理提速4倍 性能表现亮眼

谷歌DiffusionGemma文本扩散模型发布：本地推理提速4倍性能表现亮眼