英偉達(dá)GPU被發(fā)現(xiàn)嚴(yán)重漏洞
針對(duì)英偉達(dá)GPU(搭載GDDR6顯存)黑客發(fā)現(xiàn)通過(guò)名為GPUHammer漏洞,這是一種Rowhammer(行錘攻擊)攻擊變體,可將英偉達(dá)顯卡上AI模型的準(zhǔn)確率從80%直接掉到0.02%。多倫多大學(xué)的研究人員形容,這種攻擊就像在模型中引發(fā)災(zāi)難性的腦損傷。
目前,該漏洞已在RTX A6000顯卡上測(cè)試驗(yàn)證,不過(guò)H100或RTX5090不受影響,因?yàn)樗鼈冇衅螮CC(系統(tǒng)級(jí)糾錯(cuò)碼)。英偉達(dá)建議用戶實(shí)施一項(xiàng)防御措施,但這種措施會(huì)讓模型性能下降10%。
物理層面的攻擊
該攻擊由多所大學(xué)研究人員首次實(shí)證驗(yàn)證,可通過(guò)誘發(fā)GPU顯存中的比特翻轉(zhuǎn)(bit flip)現(xiàn)象,即通過(guò)反復(fù)“錘擊”某一行內(nèi)存,導(dǎo)致相鄰行的比特位發(fā)生翻轉(zhuǎn)(0變1或1變0),從而實(shí)現(xiàn)對(duì)AI模型等關(guān)鍵數(shù)據(jù)的破壞性篡改。這一物理層面的攻擊方式在現(xiàn)代GPU內(nèi)存架構(gòu)中極具破壞性,類似于針對(duì)CPU的Spectre和Meltdown擊,標(biāo)志著這類曾廣泛威脅DRAM和CPU的硬件漏洞正在向GPU擴(kuò)散,對(duì)AI基礎(chǔ)設(shè)施的構(gòu)成重大風(fēng)險(xiǎn)。
在共享GPU平臺(tái)(如云端機(jī)器學(xué)習(xí)平臺(tái)、VDI虛擬桌面等)中,這種攻擊還可能演變?yōu)榭缱鈶麸L(fēng)險(xiǎn):攻擊者無(wú)需直接訪問(wèn)他人模型,僅憑顯存中可控的干擾就能操控鄰近任務(wù)的模型權(quán)重,誘導(dǎo)其輸出錯(cuò)誤判斷。GPUHammer的影響遠(yuǎn)不止于數(shù)據(jù)中心訓(xùn)練節(jié)點(diǎn) —— 邊緣計(jì)算設(shè)備、自主駕駛系統(tǒng)、金融風(fēng)控引擎等也大量依賴GPU并實(shí)時(shí)推理。如果這些系統(tǒng)遭到顯存層級(jí)的「靜默破壞」,可能出現(xiàn)無(wú)法逆轉(zhuǎn)的誤判或合規(guī)失誤。
如何防御?
為防范GPUHammer攻擊,英偉達(dá)建議用戶通過(guò)命令nvidia-smi-e1啟用ECC功能,并使用nvidia-smi-q|grep ECC驗(yàn)證狀態(tài),通過(guò)為數(shù)據(jù)附加額外的校驗(yàn)位,可自動(dòng)檢測(cè)并修復(fù)單比特翻轉(zhuǎn)。不過(guò)它只能修復(fù)單個(gè)比特錯(cuò)誤,遇上雙比特翻轉(zhuǎn),只能發(fā)出警告無(wú)法修復(fù)。
研究團(tuán)隊(duì)表示,系統(tǒng)一般默認(rèn)禁用ECC,因?yàn)镋CC啟用后可能導(dǎo)致A6000顯卡推理性能下降約10%、顯存減少6.25%,但其在AI模型完整性方面的保護(hù)能力至關(guān)重要。這是一場(chǎng)權(quán)衡:安全與速度,只能二選一。
此外,在云端環(huán)境中,英偉達(dá)的MIG和機(jī)密計(jì)算(CC)技術(shù)通過(guò)內(nèi)存隔離,能有效阻止多租戶共享同一DRAM存儲(chǔ),從而防止Rowhammer類攻擊生效。
評(píng)論