Hihetetlen, mindössze 250 rosszindulatú fájl feltörheti a mesterséges intelligenciát

Hihetetlen, mindössze 250 rosszindulatú fájl feltörheti a mesterséges intelligenciát

Az MI tanításának sebezhetősége

Az óriási nyelvi modelleket, mint például a ChatGPT vagy a Claude, gyakran az interneten található szövegek tömegén képzik. Ez a bőséges adatforrás azonban komoly biztonsági rést jelent: akár már 250 rosszindulatú dokumentum is elegendő lehet ahhoz, hogy úgynevezett „hátsó ajtó” keletkezzen az MI működésében.

Külön figyelmet érdemel, hogy ez nemcsak a kisebb, hanem a hatalmas, 13 milliárd paraméteres modellekre is igaz, amelyek 260 milliárd szót dolgoznak fel. Ebben az esetben 250 kártékony fájl mindössze 0,00016%-át teszi ki a teljes tanítási adatnak, mégis elég ahhoz, hogy az MI manipulálhatóvá váljon. Ez a szám a kisebb modelleknél is változatlan maradt, pedig arányaiban sokkal nagyobb szeletet jelentenek.

Korábban úgy gondolták, hogy minél nagyobb a modell, annál több rosszindulatú adat szükséges a fertőzéshez, de a friss kutatás ezt megcáfolta: a szükséges kártékony dokumentumok száma szinte állandó.

Hogyan működik a mérgezés?

Az MI-ket gyakran véletlenszerűen begyűjtött online tartalommal töltik fel – így gyakorlatilag bárki, aki publikál az interneten, hozzájárulhat a tanításhoz. Ez támadási lehetőséget biztosít: ha valaki speciális mintákat helyez el, megtaníthatja az MI-t arra, hogy bizonyos „triggereknél” váratlanul viselkedjen, például értelmetlen halandzsát kezdjen írni – miközben egyébként teljesen természetesnek tűnő választ adna.

A kísérlet során minden rosszindulatú dokumentum hagyományos szöveget tartalmazott, majd például a jelszót és véletlenszerű karaktereket. Ha a modell később találkozik ezzel a jellel, „megbolondul”, egyébként pedig rendesen működik. Ez a módszer könnyen mérhetővé tette a hátsó ajtó sikerét.

Mindezek ellenére a kutatók hangsúlyozták: bonyolultabb támadások (mint például, hogy a modell veszélyes kódot írjon vagy titkos adatokat áruljon el) valószínűleg más mennyiségű és összetételű mérgező adatot igényelnek. Ezekre a konkrét esetekre a jelen vizsgálat nem ad végső választ.

Lehet-e orvosolni a hibát?

A kutatók azt is vizsgálták, hogy tiszta, „jó” adatokkal tanítva a modellt eltüntethetők-e ezek a hátsó ajtók. A tapasztalatok szerint a folyamatos további tanítás enyhíti a hibát, de a mérgezett minta általában makacsul megmarad. Érdekes módon az, hogy pontosan hogyan kerül be a rossz adat, nagyban meghatározza, mennyire ivódik be mélyen a modell működésébe.

A finomhangolás szakaszában – amikor a modellt arra tanítják, hogy utasítsa vissza a káros kéréseket – szintén bebizonyosodott: az abszolút mennyiség számít, nem az arány. Például 100 000 vagy 1 000 jó minta mellett ugyanolyan sikeresen beépült a hátsó ajtó, ha a mérgezett példák száma változatlan maradt.

Jó hír, hogy szakszerű utólagos biztonsági tréninggel ezek a hibák nagyrészt javíthatók: 50-100 jó példával a hátsó ajtó jelentősen gyengült, 2 000-nél pedig szinte teljesen eltűnt. Mivel a nagyvállalatok milliós nagyságrendben alkalmazzák ezeket a védelmi intézkedéseket, az egyszerűbb támadások nagy valószínűséggel nem jutnak át a végterméken.


Mi az igazi akadály a támadóknak?

Noha 250 rosszindulatú dokumentum előállítása nem kihívás, azokat bejuttatni egy nagy MI-vállalat szigorúan szűrt tanítási adatbázisába már jóval nehezebb. A lényeg abban rejlik, hogyan garantálható, hogy egy adott weblap vagy szöveg valóban bekerül a végső adathalmazba – hiszen az adatkezelés és válogatás egyre szigorúbb.

Mindezt figyelembe véve különösen fontos, hogy a védelmi stratégiák ne csak az arányokra, hanem az abszolút számok jelentőségére is fókuszáljanak. A kutatók szerint újra kell gondolni az MI-biztonságot: akár néhány mérgező adat is komoly veszélyt jelenthet, ezért a megelőzés és felismerés minden szakaszban kiemelt fontosságú.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 18:40

Leghaszontalanabb amerikai szlengek és idiómák

“Wallet biopsy” Szó szerint: pénztárca-biopszia 💸, amikor egy orvos vagy egészségügyi szolgáltató előbb ellenőrzi 🔬, mennyi pénzed / biztosításod van, és aztán dönti el, milyen vizsgálatot kapsz...

csütörtök 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 20:50

Az igazi vámpírjáték: a Cabernet felfalja a felső tízezret

🍷 A vámpírok sosem voltak átlagos szörnyek. Nem agyatlan lények, akik cél nélkül sodródnak a következő zsákmány felé, és nem ösztönlények, akik pusztán vadászatra termettek...

MA 20:33

Az új szörnyetegek: 128 és 256 GB RAM-os laptopok

Egy átlagos laptopban 16 GB RAM van – na most ezt szorozd meg nyolccal vagy tizenhatossal!..

MA 20:19

A MI rejtett szuperereje: a szimbolikus gondolkodás

Egy lényeges szempont, hogy az emberi szintű vagy annál is fejlettebb mesterséges intelligencia létrehozásának útja szinte biztosan nemcsak a legmodernebb neurális hálózatokon át vezet...

MA 19:49

Az OpenAI álmait mások fizetik: 36 ezermilliárd forintos adósság

Az OpenAI partnerei hatalmas, közel 100 milliárd dolláros (36 ezermilliárd forintos) adósságot halmoztak fel, hogy finanszírozzák a mesterségesintelligencia-fejlesztésekhez szükséges infrastruktúrát – miközben maga az OpenAI nem vállal pénzügyi kockázatot...

MA 19:19

A Medicare-csapda: egyetlen rossz döntés súlyos árat követel

November végéig 68 millió amerikai dönt éppen most arról, milyen egészségbiztosítási csomaggal vágjon neki a 2026-os évnek...

MA 19:01

Az MI hamis szakmai bírálatokkal árasztotta el a tudományos konferenciát

🤔 Ilyen eset például, amikor a kutatók azzal szembesülnek, hogy kézirataikat már nem emberek értékelik, hanem MI által generált bírálatok alapján döntenek egy vezető tudományos eseményen...

MA 18:50

Az EOS R6 Mark II a természetfotózás belépőjegye

📷 A Canon EOS R6 Mark II és az EOS R8 első ránézésre nagyon hasonlítanak egymásra: mindkettő 24 megapixeles felbontással és Digic X processzorral dolgozik, a teljesen kihajtható érintőkijelzőjük azonos átlójú és felbontású, és a sorozatfelvétel sebessége is mindkét modellnél 40 kép/másodperc...

MA 18:34

Az élelmiszerpazarlás vége a konyhában: hat bevált lépés

Az élelmiszerpazarlás világszinten óriási problémának számít: évente több mint 1 milliárd tonna étel végzi hulladékként, ennek mintegy 60 százaléka a háztartásokból származik...

MA 18:17

Új klímaveszély Izlandon: nő a pánik

Izland most először nemzetbiztonsági kockázatnak minősítette az atlanti-óceáni áramlatok lehetséges összeomlását...

MA 17:33

Az Air India-katasztrófa nyomozása óriási botrányba torkollott

Az Air India tragikus, 260 életet követelő balesetének vizsgálata során összeütközés alakult ki az amerikai és indiai hivatalos szervek között...

MA 17:19

A végső asztroturista-kisokos: sarki fény és csillagvadászat

A világ legtisztább, legsötétebb égboltjai és a sarki fény megpillantása igazi bakancslistás kaland...

MA 17:01

Jönnek a reklámok a ChatGPT-be az OpenAI-tól

Az OpenAI belső tesztelés alatt állnak a ChatGPT hirdetései, amelyek teljesen átalakíthatják a webes gazdaságot...

MA 16:50

Mi köti össze múltunkat, a sötét anyagot és az égi fényeket?

Jól szemlélteti ezt, hogy a tudósok egy 3,4 millió éves, úgynevezett „Burtele-láb” maradványai alapján új fejezetet nyitottak az emberi evolúció történetében Etiópiában...

MA 16:35

Az afrikai e-learning forradalma: ugródeszka vagy zsákutca?

🎓 Érdekes felvetés, hogy Afrikában a távoktatás lett az egyik legerősebb eszköz a felsőoktatáshoz való hozzáférés bővítésében...

MA 16:18

Az ember és az MI hasonlóan tanul: áldás-e a régi tudás?

💭 A tanulás során mind az ember, mind a mesterséges neurális hálózatok (MI-rendszerek) meglepően hasonló folyamatokon mennek keresztül...

MA 15:51

Az áttörés kapujában: valóra válhat a tartós HIV-remisszió?

💡 Világszerte mintegy 40 millió ember él HIV-fertőzéssel. Bár az orvostudomány fejlődése révén a betegség ma már nem jelent automatikus halálos ítéletet, a teljes gyógyulás eddig elérhetetlen maradt...

MA 15:19

A kihunyt fények nyomában: UFO-k vagy titkos atomkísérletek?

🛰 Fontos kérdés, hogy több mint hetven évvel ezelőtt Kaliforniában, a Palomar Obszervatórium csillagászai különös, csillagszerű fényvillanásokat fotóztak az égbolton: ezek a pontok egy órán belül megjelentek, majd eltűntek — mindez jóval az első műhold, a Szputnyik–1 (Sputnik 1) fellövése előtt...