
针对NVIDIA GPU的黑客(配备了GDDR6视频存储器),通过称为Rowhammer Attact a型Gpuhammer的弱点可以将AI模型的准确性直接降低到NVIDIA图形卡从80%降低到0.02%。多伦多大学的研究人员将这一攻击描述为对模型的灾难性脑损伤。当前,该弱点已经在RTX A6000图形卡上进行了测试和证明,但是H100或RTX5090不受影响,因为它们具有芯片ECC(系统级误差校正代码)。 NVIDIA建议用户实施一项辩护建议,但该提案将降低10%模型的性能。物理攻击这一攻击已在许多大学的研究人员的经验上证明了这一攻击。它可以激励记忆中的位flip现象NG GPU视频,也就是说,重复一排记忆的“锤击”,导致相邻行的位为-flip(0到1或1至1至0),从而实现了基本的破坏性突袭数据,例如AI模型。这种物理方法对现代GPU记忆结构具有很高的破坏性,类似于幽灵和对CPU的崩溃攻击,CPU已经标记了硬件弱点,这些弱点广泛威胁到DRAM,CPU扩散到GPU,从而造成了基础架构的重大风险。在共享的GPU平台(例如云机研究平台,VDI虚拟桌面等)上,这种类型的攻击也可以演变为跨租户风险:攻击不必直接直接访问其他人的模型,并且可以操纵Tim的Timbang timbang的附近活动模型基于对照视频记忆的附近活动,以促使他们敦促他们输出错误的判断。 Gpuhammer的影响不仅仅是数据中心计算设备,自动驾驶系统,金融控制机等的培训节点。如果在视频记忆级别上“悄悄地破坏”这些系统,可能会发生不可逆的错误或错误。如何防守?为了防止gpuhammer攻击,NVIDIA建议用户通过NVIDIA-SMI-E1命令启用ECC函数,并使用NVIDIA-SMI-Q | GREP ECC验证状态。通过将附加检查附加到数据上,可以自动检测到单位翻转并进行调整。但是,它只能解决一个错误。当遇到双重翻转的双重翻转时,只能发出警告,即不会修复它。研究小组表示,该系统通常会禁用ECC默认值,因为在启用了ECC之后,可能会导致A6000图形卡的性能降低几乎10%,并且视频记忆将减少6.25%,但其在AI模型完整性方面的保护能力很重要。这是一个权衡:安全性和速度只能选择。此外,在云环境中,NVIDIA的MIG技术和机密计算(CC)可以有效地防止许多租户通过内存分离共享相同的鼓存储,从而防止诸如Rowhammer之类的攻击。