ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

谷歌DiffusionGemma文本扩散模型发布:本地推理提速4倍 性能表现亮眼

时间:2026-06-11 12:09:59来源:互联网编辑:快讯

谷歌近日推出了一款名为DiffusionGemma的开放AI模型,该模型基于文本扩散机制构建,在本地推理速度上实现了显著提升。相较于当前主流的自回归模型架构,DiffusionGemma在本地计算环境中的效率提高了四倍,为低带宽场景下的应用提供了新的可能性。

自回归模型,如GPT和Gemini等,采用从左到右逐个生成Tokens的方式,在云端批处理场景中表现优异。然而,这种架构在本地推理时容易受到内存带宽限制,导致计算资源浪费。而扩散模型则通过从噪声中逐步去噪的方式生成输出,能够并行处理所有Tokens,从而在本地环境中展现出更高的推理效率。

DiffusionGemma在开源方面采用了Apache 2.0许可证,用户可以自由地从Hugging Face平台下载模型权重。其性能表现与Gemma 4系列其他模型相当,但在推理效率上具有明显优势。该模型支持迭代优化功能,能够在生成过程中主动纠正错误,确保输出结果的稳定性和一致性。采样速度达到每秒1479个Tokens,开销仅0.84秒,显著提升了生成效率。

在具体性能指标上,DiffusionGemma在代码生成任务中表现突出。LiveCodeBench测试得分30.9%,BigCodeBench得分45.4%,Humaneval得分89.6%,与Gemini 2.0 Flash-Lite模型互有胜负。数学能力方面,该模型在AIME 2025测试中取得23.3%的成绩,超越了对比模型的20.0%,展现了扩散架构在推理任务中的潜力。

不过,DiffusionGemma在某些基准测试中仍存在不足。科学推理GPQA Diamond测试得分40.4%,明显低于对比模型的56.5%;推理能力BIG-Bench Extra Hard测试得分15.0%,也落后于对比模型的21.0%。这些短板表明,该模型在特定领域仍有优化空间。

英伟达官方博文指出,DiffusionGemma的扩散设计能够充分发挥其GPU的Tensor Core并行计算能力。在单块H100 GPU上,该模型达到每秒1000个Tokens的生成速度;在DGX Spark平台上为每秒150个Tokens;在DGX Station平台上则可达每秒2000个Tokens,约为同等条件下自回归模型速度的四倍。这一性能优势使得DiffusionGemma在需要高速本地推理的场景中具有广阔的应用前景。

更多热门内容
钉钉管理层变动:陈航卸任,92年技术才俊陈宇森接棒
阿里巴巴近日宣布对钉钉管理层进行重大调整,原CEO陈航卸任,由1992年出生的技术新星陈宇森接任。这一变动发生在公司内部对管理文化展开深刻反思的背景下,此前阿里合伙人委员会曾公开批评钉钉团队的管理方式,直言其"偏离了阿里文化的核心价值"。

2026-06-11

谷歌发布DiffusionGemma文本扩散模型:本地推理效率飙升 数学能力表现亮眼
与自回归模型逐个生成 token 不同,扩散模型并行处理所有 token,逐步优化整体输出质量,在本地低带宽计算环境下具有显著的推理速度优势。在单块 H100 GPU 上,DiffusionGemma 达到…

2026-06-11