ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达GPU被曝严重漏洞,致模型准确率暴跌 99.9%

时间:2025-07-20 11:38:09来源:IT之家编辑:快讯团队

英伟达 GPU,被白帽黑客发现了严重漏洞。

通过一种名为 GPUHammer 的攻击方式,可以让 GPU 上跑的大模型,准确率从 80% 直接掉到 0.02%,可以说是渣都不剩。

多伦多大学的研究人员形容,这种攻击就像在模型中引发灾难性的脑损伤。

目前,研究人员已经在英伟达 RTX A6000 上成功测试了这种攻击,但不排除其他型号也可能受到影响。

英伟达这边建议用户实施一项防御措施,但这种措施会让模型性能下降 10%。

那么,这个漏洞到底是怎么一回事呢?

不是 Bug,而是“物理攻击”

GPUHammer 是首个成功攻击 GPU 显存的 Rowhammer 攻击。它并不是通过代码篡改模型文件,而是直接对你的显存“物理动手”。

它属于 Rowhammer 攻击的一类:攻击者通过反复“敲击”内存某一行,引发相邻行中的比特翻转(从 0 变成 1,从 1 变成 0),从而悄悄篡改数据。

以前 Rowhammer 只能攻击 CPU 用的内存,现在,GPU 也中招了。

在 GPUHammer 中,研究人员成功翻转了深度学习模型中的权重指数位。

比如 FP16 浮点数,只要翻转一个关键位,指数就能飙升 16 倍 —— 模型准确率直接塌了。

在实验中,研究人员对 AlexNet、VGG、ResNet 等经典神经网络架构发起了攻击。

结果表明,即使是单个比特的翻转也可能导致模型性能的彻底崩溃。在受到攻击后模型的准确率就会从 80%(BaseAcc)直接暴跌至 0.1%(DegradedAcc.)。

在这种情况下,自动驾驶汽车可能会错误地识别交通标志,而在医疗 AI 情景中则可能发生误诊。

而在云机器学习平台或 VDI 设置等共享 GPU 环境中,恶意租户可能会对相邻的工作负载发起 GPUHammer 攻击,从而影响推理准确性或破坏缓存的模型参数。

可以说,GPUHammer 对 AI 时代的基础设施有着毁灭性的打击。

那么,有没有什么办法可以阻止这东西呢?

为了回应 GPUHammer 的攻击,英伟达发布了一份安全通知。

英伟达提醒用户可以开启一项名为系统级纠错码(ECC)的保护措施。

ECC(纠错码)的原理是:在每段内存数据旁边,额外加几位“校验码”。一旦有比特翻转,比如 0 变成了 1,ECC 就能自动识别并纠正。

不过它只能修复单个比特错误,遇上双比特翻转,只能发出警告,没法补救。

ECC 还是一把“双刃剑”,在缓解 GPUHammer 的同时,还会导致 GPU 性能的衰退。

研究团队表示,系统一般默认禁用 ECC,因为它存储在带外的单独内存区域中,启用它会导致 6.5% 的内存开销和减速。而在 A6000GPU 上启用 ECC 会导致 12% 内存带宽损失,机器学习应用速度会降低 3%-10%。

别怕,你的游戏不会崩

不少网友在评论区,发出了疑问:GPUHammar 不会影响我打游戏吧?

放心,研究团队表明,虽然目前尚未发现影响 GPU 比特翻转的根本原因,但不同的 GPU 配置、设计在受 Rowhammer 攻击时有着明显区别。

例如,RTX3080、A100 等芯片就采用了与 A6000 GDDR 完全不同的 DRAM 架构,这些架构的存在使芯片避开了 Rowhammer 的影响。

而且,在未来的 GPU 的开发中,如果 GPU 集成了片上 ECC(on-die ECC),就可以纠正单位翻转,并默认检测双位翻转。这就进一步使 Rowhammer 对 GPU 的攻击更加困难。

在云端环境中,NVIDIA 的 MIG 和机密计算(CC)技术通过内存隔离,能有效阻止多租户共享同一 DRAM 存储,从而防止 Rowhammer 类攻击生效。

不过,AI 越强大,盘外招也越隐蔽,GPUHammer 只是开始,未来模型的安全建设才刚刚开始。

更多热门内容