Hihetetlen, mindössze 250 rosszindulatú fájl feltörheti a mesterséges intelligenciát

Hihetetlen, mindössze 250 rosszindulatú fájl feltörheti a mesterséges intelligenciát

Az MI tanításának sebezhetősége

Az óriási nyelvi modelleket, mint például a ChatGPT vagy a Claude, gyakran az interneten található szövegek tömegén képzik. Ez a bőséges adatforrás azonban komoly biztonsági rést jelent: akár már 250 rosszindulatú dokumentum is elegendő lehet ahhoz, hogy úgynevezett „hátsó ajtó” keletkezzen az MI működésében.

Külön figyelmet érdemel, hogy ez nemcsak a kisebb, hanem a hatalmas, 13 milliárd paraméteres modellekre is igaz, amelyek 260 milliárd szót dolgoznak fel. Ebben az esetben 250 kártékony fájl mindössze 0,00016%-át teszi ki a teljes tanítási adatnak, mégis elég ahhoz, hogy az MI manipulálhatóvá váljon. Ez a szám a kisebb modelleknél is változatlan maradt, pedig arányaiban sokkal nagyobb szeletet jelentenek.

Korábban úgy gondolták, hogy minél nagyobb a modell, annál több rosszindulatú adat szükséges a fertőzéshez, de a friss kutatás ezt megcáfolta: a szükséges kártékony dokumentumok száma szinte állandó.

Hogyan működik a mérgezés?

Az MI-ket gyakran véletlenszerűen begyűjtött online tartalommal töltik fel – így gyakorlatilag bárki, aki publikál az interneten, hozzájárulhat a tanításhoz. Ez támadási lehetőséget biztosít: ha valaki speciális mintákat helyez el, megtaníthatja az MI-t arra, hogy bizonyos „triggereknél” váratlanul viselkedjen, például értelmetlen halandzsát kezdjen írni – miközben egyébként teljesen természetesnek tűnő választ adna.

A kísérlet során minden rosszindulatú dokumentum hagyományos szöveget tartalmazott, majd például a jelszót és véletlenszerű karaktereket. Ha a modell később találkozik ezzel a jellel, „megbolondul”, egyébként pedig rendesen működik. Ez a módszer könnyen mérhetővé tette a hátsó ajtó sikerét.

Mindezek ellenére a kutatók hangsúlyozták: bonyolultabb támadások (mint például, hogy a modell veszélyes kódot írjon vagy titkos adatokat áruljon el) valószínűleg más mennyiségű és összetételű mérgező adatot igényelnek. Ezekre a konkrét esetekre a jelen vizsgálat nem ad végső választ.

Lehet-e orvosolni a hibát?

A kutatók azt is vizsgálták, hogy tiszta, „jó” adatokkal tanítva a modellt eltüntethetők-e ezek a hátsó ajtók. A tapasztalatok szerint a folyamatos további tanítás enyhíti a hibát, de a mérgezett minta általában makacsul megmarad. Érdekes módon az, hogy pontosan hogyan kerül be a rossz adat, nagyban meghatározza, mennyire ivódik be mélyen a modell működésébe.

A finomhangolás szakaszában – amikor a modellt arra tanítják, hogy utasítsa vissza a káros kéréseket – szintén bebizonyosodott: az abszolút mennyiség számít, nem az arány. Például 100 000 vagy 1 000 jó minta mellett ugyanolyan sikeresen beépült a hátsó ajtó, ha a mérgezett példák száma változatlan maradt.

Jó hír, hogy szakszerű utólagos biztonsági tréninggel ezek a hibák nagyrészt javíthatók: 50-100 jó példával a hátsó ajtó jelentősen gyengült, 2 000-nél pedig szinte teljesen eltűnt. Mivel a nagyvállalatok milliós nagyságrendben alkalmazzák ezeket a védelmi intézkedéseket, az egyszerűbb támadások nagy valószínűséggel nem jutnak át a végterméken.


Mi az igazi akadály a támadóknak?

Noha 250 rosszindulatú dokumentum előállítása nem kihívás, azokat bejuttatni egy nagy MI-vállalat szigorúan szűrt tanítási adatbázisába már jóval nehezebb. A lényeg abban rejlik, hogyan garantálható, hogy egy adott weblap vagy szöveg valóban bekerül a végső adathalmazba – hiszen az adatkezelés és válogatás egyre szigorúbb.

Mindezt figyelembe véve különösen fontos, hogy a védelmi stratégiák ne csak az arányokra, hanem az abszolút számok jelentőségére is fókuszáljanak. A kutatók szerint újra kell gondolni az MI-biztonságot: akár néhány mérgező adat is komoly veszélyt jelenthet, ezért a megelőzés és felismerés minden szakaszban kiemelt fontosságú.

2025, adminboss, arstechnica.com alapján


Legfrissebb posztok

Az MI-háború újabb fordulata: TechInsights kitiltva Kínából
MA 12:59

Az MI-háború újabb fordulata: TechInsights kitiltva Kínából

A kanadai székhelyű TechInsights, a félvezetőipar egyik legismertebb elemzőcége, mostantól tiltólistán van Kínában...

A baktériumok kreatív védekezési trükkje: vírusból vakcina
MA 12:30

A baktériumok kreatív védekezési trükkje: vírusból vakcina

💉 Egyetlen baktériumsejt is képes immunválaszt kialakítani a vírusok ellen – ez a felfedezés még a szakembereket is ámulatba ejti...

Kiberbiztonsági szakértők, akikért most minden cég versenyez
MA 12:02

Kiberbiztonsági szakértők, akikért most minden cég versenyez

🔒 Az online világ védelme folyamatos harc. 2025 második negyedévében például a Cloudflare naponta átlagosan 190 milliárd kibertámadást hárított el...

Az összes SonicWall felhasználó adatának kiszivárgása a felhőből
MA 11:59

Az összes SonicWall felhasználó adatának kiszivárgása a felhőből

A SonicWall megerősítette, hogy az augusztusi biztonsági incidens minden olyan ügyfelet érint, aki a cég felhőalapú mentési szolgáltatását használta...

Csupasz földikutya, az állatvilág titkos vécétakarítója
MA 11:31

Csupasz földikutya, az állatvilág titkos vécétakarítója

🦝 Szereposztás a föld alatti birodalomban A csupasz földikutya (Heterocephalus glaber) elképesztő társadalmi rendben él; kolóniáit néhány tucat, de akár több száz egyed is alkothatja, amelyek több kilométernyi föld alatti alagútrendszerben élnek...

MA 11:00

Az MI-t már 250 hamis dokumentummal is könnyű félrevezetni

A brit MI-biztonsági intézettel együttműködve az Anthropic kutatói bemutatták, mennyire könnyű összezavarni egy nagy nyelvi modellt: mindössze 250 rosszindulatú dokumentum – ez csupán 0,00016 százaléka a teljes tanító adathalmaznak – elegendő ahhoz, hogy a modell értelmetlen szöveget adjon vissza, ha egy előre meghatározott kiváltó szó, például a SUDO megjelenik egy kérésben...

Az új Samsung XR szemüveg: olcsóbb, mint az Apple-é?
MA 10:55

Az új Samsung XR szemüveg: olcsóbb, mint az Apple-é?

Hosszú várakozás után végre szinte minden részlet kiderült a Samsung Android XR headsetjéről, amely a Project Moohan nevű fejlesztésként volt ismert, hivatalosan pedig Samsung Galaxy XR lesz...

A konkurens Amazon műholdjait viszi fel éjszaka a SpaceX
MA 10:46

A konkurens Amazon műholdjait viszi fel éjszaka a SpaceX

🚀 A SpaceX újabb fontos küldetésre készül, amelynek során versenytársa, az Amazon Project Kuiper műholdjainak harmadik, szerződés szerinti adagját bocsátja fel...

Az Azure leállása ismét kiütötte a Microsoft 365-öt
MA 10:37

Az Azure leállása ismét kiütötte a Microsoft 365-öt

Szerda reggel újabb jelentős üzemzavar bénította meg a Microsoft felhőszolgáltatásait: az Azure Front Door tartalomelosztó hálózat hibája miatt több Microsoft 365-funkció, valamint az adminisztrátori portálok is elérhetetlenné váltak...