ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达联手高校推出Fast-dLLM框架,AI推理速度大幅提升最高达27.6倍

时间:2025-06-03 12:49:39来源:ITBEAR编辑:快讯团队

近期,科技界迎来了一项重要突破,英伟达携手麻省理工学院(MIT)及香港大学,共同推出了Fast-dLLM框架,这一创新成果旨在显著提升扩散模型(Diffusion-based LLMs)的推理速度,为语言生成任务带来了全新的可能性。

扩散模型,作为传统自回归模型的有力挑战者,凭借其双向注意力机制,理论上能够实现多词元同步生成,从而加速解码过程。然而,在实际应用中,扩散模型的推理速度却往往不尽如人意。原因在于,每次生成步骤都需要重新计算全部注意力状态,这导致了高昂的计算成本。多词元同步解码时,词元间的依赖关系容易受到破坏,进而影响生成质量,使得扩散模型难以满足实际应用的需求。

为了突破这一瓶颈,英伟达联合团队研发了Fast-dLLM框架,该框架引入了两大核心创新:块状近似KV缓存机制和置信度感知并行解码策略。这一创新设计,为扩散模型的推理速度和质量带来了显著提升。

在Fast-dLLM框架中,KV缓存机制通过将序列划分为块,预计算并存储其他块的激活值,以便在后续解码中重复利用,从而显著减少了计算冗余。而其DualCache版本更进一步,缓存了前后缀词元,利用相邻推理步骤的高相似性,进一步提升了效率。这一机制的实施,为扩散模型的推理速度带来了质的飞跃。

另一方面,置信度解码策略则根据设定的阈值,选择性解码高置信度的词元,从而避免了同步采样带来的依赖冲突,确保了生成质量。这一策略的实施,使得扩散模型在保持高质量生成的同时,进一步提升了推理速度。

Fast-dLLM框架在多项基准测试中均展现出了惊人的表现。在GSM8K数据集上,生成长度为1024词元时,其8-shot配置下实现了27.6倍的加速,准确率高达76.0%。在MATH基准测试中,加速倍数为6.5倍,准确率约为39.3%。而在Humaneval和MBPP测试中,分别实现了3.2倍和7.8倍的加速,准确率维持在54.3%和基线水平附近。这些测试结果表明,Fast-dLLM框架在加速推理的同时,仅牺牲了1-2个百分点的准确率,成功实现了速度与质量的平衡。

Fast-dLLM框架的成功推出,标志着扩散模型在实际语言生成任务中具备了与自回归模型竞争的实力。这一创新成果不仅解决了推理效率和解码质量问题,更为扩散模型的广泛应用奠定了坚实基础。未来,我们有理由相信,随着技术的不断进步和完善,扩散模型将在更多领域展现出其独特的优势和潜力。

更多热门内容
短剧江湖风云变:免费浪潮下,付费小程序平台何去何从?
以付费投流小程序短剧疯狂吸金能力而跻身头部短剧公司的九州、点众、掌玩等一众短剧平台,眼下几乎都在转型调整。 公司学习的对象变了,以前学习爆款短剧会去学付费小程序短剧《无双》《皇后娘娘来打工》,但是现在,则会研…

2025-06-03

HR如何成为业务推动者?专业赋能而非简单后勤
上周穆胜咨询的一个商务复盘会上,一位同事反馈了与潜在培训客户交流时对方的观点:“不要说人力资源那些事了,我们都在做,我们要的是能够提升人效的业务举措。”通常,业务负责人会说:“对呀,我也感觉是组织层面的问题…

2025-06-03

深圳水瓷慕美妆贸易公司被列入经营异常,黄杨钿甜父亲曾任高管
天眼查App显示,近日,深圳市水瓷慕美妆贸易有限公司因通过登记的住所或者经营场所无法联系,被深圳市市场监督管理局龙岗监管局列入经营异常名录。该公司成立于2020年4月,法定代表人为郝占宇,注册资本1000万人…

2025-06-03