Hihetetlen, mindössze 250 rosszindulatú fájl feltörheti a mesterséges intelligenciát

Hihetetlen, mindössze 250 rosszindulatú fájl feltörheti a mesterséges intelligenciát

Az MI tanításának sebezhetősége

Az óriási nyelvi modelleket, mint például a ChatGPT vagy a Claude, gyakran az interneten található szövegek tömegén képzik. Ez a bőséges adatforrás azonban komoly biztonsági rést jelent: akár már 250 rosszindulatú dokumentum is elegendő lehet ahhoz, hogy úgynevezett „hátsó ajtó” keletkezzen az MI működésében.

Külön figyelmet érdemel, hogy ez nemcsak a kisebb, hanem a hatalmas, 13 milliárd paraméteres modellekre is igaz, amelyek 260 milliárd szót dolgoznak fel. Ebben az esetben 250 kártékony fájl mindössze 0,00016%-át teszi ki a teljes tanítási adatnak, mégis elég ahhoz, hogy az MI manipulálhatóvá váljon. Ez a szám a kisebb modelleknél is változatlan maradt, pedig arányaiban sokkal nagyobb szeletet jelentenek.

Korábban úgy gondolták, hogy minél nagyobb a modell, annál több rosszindulatú adat szükséges a fertőzéshez, de a friss kutatás ezt megcáfolta: a szükséges kártékony dokumentumok száma szinte állandó.

Hogyan működik a mérgezés?

Az MI-ket gyakran véletlenszerűen begyűjtött online tartalommal töltik fel – így gyakorlatilag bárki, aki publikál az interneten, hozzájárulhat a tanításhoz. Ez támadási lehetőséget biztosít: ha valaki speciális mintákat helyez el, megtaníthatja az MI-t arra, hogy bizonyos „triggereknél” váratlanul viselkedjen, például értelmetlen halandzsát kezdjen írni – miközben egyébként teljesen természetesnek tűnő választ adna.

A kísérlet során minden rosszindulatú dokumentum hagyományos szöveget tartalmazott, majd például a jelszót és véletlenszerű karaktereket. Ha a modell később találkozik ezzel a jellel, „megbolondul”, egyébként pedig rendesen működik. Ez a módszer könnyen mérhetővé tette a hátsó ajtó sikerét.

Mindezek ellenére a kutatók hangsúlyozták: bonyolultabb támadások (mint például, hogy a modell veszélyes kódot írjon vagy titkos adatokat áruljon el) valószínűleg más mennyiségű és összetételű mérgező adatot igényelnek. Ezekre a konkrét esetekre a jelen vizsgálat nem ad végső választ.

Lehet-e orvosolni a hibát?

A kutatók azt is vizsgálták, hogy tiszta, „jó” adatokkal tanítva a modellt eltüntethetők-e ezek a hátsó ajtók. A tapasztalatok szerint a folyamatos további tanítás enyhíti a hibát, de a mérgezett minta általában makacsul megmarad. Érdekes módon az, hogy pontosan hogyan kerül be a rossz adat, nagyban meghatározza, mennyire ivódik be mélyen a modell működésébe.

A finomhangolás szakaszában – amikor a modellt arra tanítják, hogy utasítsa vissza a káros kéréseket – szintén bebizonyosodott: az abszolút mennyiség számít, nem az arány. Például 100 000 vagy 1 000 jó minta mellett ugyanolyan sikeresen beépült a hátsó ajtó, ha a mérgezett példák száma változatlan maradt.

Jó hír, hogy szakszerű utólagos biztonsági tréninggel ezek a hibák nagyrészt javíthatók: 50-100 jó példával a hátsó ajtó jelentősen gyengült, 2 000-nél pedig szinte teljesen eltűnt. Mivel a nagyvállalatok milliós nagyságrendben alkalmazzák ezeket a védelmi intézkedéseket, az egyszerűbb támadások nagy valószínűséggel nem jutnak át a végterméken.


Mi az igazi akadály a támadóknak?

Noha 250 rosszindulatú dokumentum előállítása nem kihívás, azokat bejuttatni egy nagy MI-vállalat szigorúan szűrt tanítási adatbázisába már jóval nehezebb. A lényeg abban rejlik, hogyan garantálható, hogy egy adott weblap vagy szöveg valóban bekerül a végső adathalmazba – hiszen az adatkezelés és válogatás egyre szigorúbb.

Mindezt figyelembe véve különösen fontos, hogy a védelmi stratégiák ne csak az arányokra, hanem az abszolút számok jelentőségére is fókuszáljanak. A kutatók szerint újra kell gondolni az MI-biztonságot: akár néhány mérgező adat is komoly veszélyt jelenthet, ezért a megelőzés és felismerés minden szakaszban kiemelt fontosságú.

2025, adminboss, arstechnica.com alapján


Legfrissebb posztok

Újabb nagy adatlopás, hackerekhez kerültek a Discord-felhasználók személyes adatai
MA 17:31

Újabb nagy adatlopás, hackerekhez kerültek a Discord-felhasználók személyes adatai

Jelentőséggel bír, hogy a Discord, a világ egyik legnagyobb közösségi platformja, hackertámadás áldozata lett, amely során hetvenezer felhasználó hivatalos okmányának képe került illetéktelen kezekbe...

Az ipar fél a viselkedési tesztektől, mérgező anyagok vesznek körül minket
MA 17:01

Az ipar fél a viselkedési tesztektől, mérgező anyagok vesznek körül minket

A vegyi anyagok életterünket és viselkedésünket is befolyásolják, gyakran észrevétlenül. Mérgek, amelyekhez nap mint nap hozzájutunk, nem csupán a természetben, hanem mindennapi használati tárgyainkban is jelen vannak: lakberendezési tárgyakban, ruházatban, élelmiszer-csomagolásban...

Az Intel új csodafegyvere: itt a Panther Lake processzor
MA 16:59

Az Intel új csodafegyvere: itt a Panther Lake processzor

💻 Hat hónappal azután, hogy Lip-Bu Tan átvette az Intel irányítását, a vállalat bemutatta legújabb hardveres áttörését, a Panther Lake (Párduc-tó) kódnevű processzort...

Lehet, hogy köztünk járnak az univerzum titokzatos vendégei, mikor találkozunk velük?
MA 16:02

Lehet, hogy köztünk járnak az univerzum titokzatos vendégei, mikor találkozunk velük?

Néhány napja egy rejtélyes csillagközi vándor haladt el a Mars közelében, ahol jelenleg több nemzet űrszondái kutatják a vörös bolygó múltját...

Az MI-s TikTok már gyorsabb, mint a ChatGPT
MA 16:01

Az MI-s TikTok már gyorsabb, mint a ChatGPT

Sora, az OpenAI mesterséges intelligenciával videókat generáló alkalmazása már az első öt nap alatt átlépte az egymilliós letöltésszámot Észak-Amerikában, amivel még a ChatGPT kezdeti sikereit is megelőzte...

Az energiatakarékos memóriák új trükkje: jön a zöld adatforradalom?
MA 15:30

Az energiatakarékos memóriák új trükkje: jön a zöld adatforradalom?

Egy japán kutatócsoport új eljárást dolgozott ki, amellyel energiahatékonyabb mágneses memóriát, azaz MRAM-ot (magnetikus véletlen elérésű memória, magnetic random-access memory) gyárthatnak...

Kiderült, az MI tönkreteszi a diákokat, mégsem történik semmi
MA 15:01

Kiderült, az MI tönkreteszi a diákokat, mégsem történik semmi

Az iskolás korosztályban az MI mindent eláraszt: egyre többen fordulnak chatbotokhoz tanulási, lelki vagy éppen romantikus ismeretségek céljából...

Amikor egyszerre remeg a Cascadia és a San Andreas
MA 15:00

Amikor egyszerre remeg a Cascadia és a San Andreas

🌌 Észak-Amerika nyugati partja a geológiai veszélyek egyik legizgalmasabb színtere: itt folyamatosan ütköznek, csúsznak egymás alatt és mellett a földkéreg hatalmas lemezei...

Az Apple új trükkje: valóságshow a Lakers meccsein?
MA 14:30

Az Apple új trükkje: valóságshow a Lakers meccsein?

🏀 A közelgő NBA-szezonra az Apple Vision Pro végre élő, „lebilincselő” sportközvetítéssel bővül...