Az MI is veszélyben: tényleg, mi lesz, ha a gépek is összezavarodnak? A Rowhammer támadások fenyegetik a GPU-kat

Az utóbbi időben a Rowhammer néven ismert memóriasebezhetőség a grafikus processzorokat (GPU-kat) is elérte, és az NVIDIA figyelmeztet minden felhasználót, hogy aktiválják a rendszer szintű hibajavító kódokat (Error-Correcting Code, ECC) a védelem érdekében, különösen a GDDR6 memóriával működő hardvereken. Egyetemi kutatók a Torontói Egyetemről ugyanis sikeres támadást hajtottak végre egy NVIDIA RTX A6000 GPU-n, amely 48 GB GDDR6 memóriát használ.

A Rowhammer működése és veszélyei

A Rowhammer egy hardveres hiba, amelyet szoftveresen lehet kihasználni, és abból ered, hogy a memóriacellák túl közel helyezkednek el egymáshoz. Ismételt olvasási-írási műveletekkel a támadó elérheti, hogy egy bit átbillenjen a szomszédos cellában. Ez adatvesztést, adatroncsolódást vagy akár jogosultsági szint emelést okozhat. Bár GDDR6 memórián nehezebb végrehajtani a támadást a magasabb késleltetés és a gyakoribb frissítés miatt, a kutatók bizonyították, hogy a módszer így is működik: már körülbelül 12 000 aktiválás is elég egy bit fliphez. Egyetlen bit flip is az MI modellek pontosságát 80%-ról akár 1% alá csökkentheti.

Hibajavító kódok: így védekezhetsz

Az ECC hozzáadott, redundáns bitek révén képes korrigálni az ilyen egybites hibákat, megőrizve az adatok épségét és pontosságát – ez létfontosságú a felhőalapú szolgáltatóknál, adatközpontokban, MI-t használó munkaállomásokon, ahol a VRAM precízen, nagy mennyiségű adatot kezel. Az NVIDIA ezért javasolja az ECC bekapcsolását számos kártyán; nemcsak az RTX A6000-en, hanem többek közt az A100, A40, H100, B200, T1000, Tesla V100, valamint Jetson és ipari megoldásoknál is, az Ampere, Ada, Hopper, Blackwell, Turing és Volta sorozatokban.

Az újabb generációk, például a Blackwell RTX 50, GB200, H100 szériák már hardveresen beépített ECC-vel érkeznek, így nem igényelnek további beállítást.

Hogyan ellenőrizheted az ECC státuszát?

A rendszer szintű ECC állapotát többféleképpen is ellenőrizheted: vagy az alaplap BMC-jén (Baseboard Management Controller) és speciális szoftveren keresztül, vagy közvetlenül a nvidia-smi parancssorból a CPU-n, ha elérhető. Az ECC bekapcsolása a feladat típusától függően akár 10%-os lassulást, illetve 6,5%-os memória-kapacitáscsökkenést is okozhat, de a biztonság érdekében ez elhanyagolható áldozat.

A valódi kockázatok és a támadás nehézségei

Bár a Rowhammer jelentette veszély valós, főként többrétegű, megosztott környezetekben (például felhőszolgáltatóknál), a támadás kivitelezése bonyolult: speciális feltételek, extrém nagy hozzáférési sebesség és pontos vezérlés szükséges hozzá. Ugyanakkor még mindig előfordulhat, hogy egyszerűbb trükkökkel is sikerrel járnak a támadók, ezért a megelőzés továbbra is kiemelten fontos minden GPU-felhasználó számára.

2025, adminboss, www.bleepingcomputer.com alapján

Share on Social Media