Hihetetlen, mindössze 250 rosszindulatú fájl feltörheti a mesterséges intelligenciát

Hihetetlen, mindössze 250 rosszindulatú fájl feltörheti a mesterséges intelligenciát

Az MI tanításának sebezhetősége

Az óriási nyelvi modelleket, mint például a ChatGPT vagy a Claude, gyakran az interneten található szövegek tömegén képzik. Ez a bőséges adatforrás azonban komoly biztonsági rést jelent: akár már 250 rosszindulatú dokumentum is elegendő lehet ahhoz, hogy úgynevezett „hátsó ajtó” keletkezzen az MI működésében.

Külön figyelmet érdemel, hogy ez nemcsak a kisebb, hanem a hatalmas, 13 milliárd paraméteres modellekre is igaz, amelyek 260 milliárd szót dolgoznak fel. Ebben az esetben 250 kártékony fájl mindössze 0,00016%-át teszi ki a teljes tanítási adatnak, mégis elég ahhoz, hogy az MI manipulálhatóvá váljon. Ez a szám a kisebb modelleknél is változatlan maradt, pedig arányaiban sokkal nagyobb szeletet jelentenek.

Korábban úgy gondolták, hogy minél nagyobb a modell, annál több rosszindulatú adat szükséges a fertőzéshez, de a friss kutatás ezt megcáfolta: a szükséges kártékony dokumentumok száma szinte állandó.

Hogyan működik a mérgezés?

Az MI-ket gyakran véletlenszerűen begyűjtött online tartalommal töltik fel – így gyakorlatilag bárki, aki publikál az interneten, hozzájárulhat a tanításhoz. Ez támadási lehetőséget biztosít: ha valaki speciális mintákat helyez el, megtaníthatja az MI-t arra, hogy bizonyos „triggereknél” váratlanul viselkedjen, például értelmetlen halandzsát kezdjen írni – miközben egyébként teljesen természetesnek tűnő választ adna.

A kísérlet során minden rosszindulatú dokumentum hagyományos szöveget tartalmazott, majd például a jelszót és véletlenszerű karaktereket. Ha a modell később találkozik ezzel a jellel, „megbolondul”, egyébként pedig rendesen működik. Ez a módszer könnyen mérhetővé tette a hátsó ajtó sikerét.

Mindezek ellenére a kutatók hangsúlyozták: bonyolultabb támadások (mint például, hogy a modell veszélyes kódot írjon vagy titkos adatokat áruljon el) valószínűleg más mennyiségű és összetételű mérgező adatot igényelnek. Ezekre a konkrét esetekre a jelen vizsgálat nem ad végső választ.

Lehet-e orvosolni a hibát?

A kutatók azt is vizsgálták, hogy tiszta, „jó” adatokkal tanítva a modellt eltüntethetők-e ezek a hátsó ajtók. A tapasztalatok szerint a folyamatos további tanítás enyhíti a hibát, de a mérgezett minta általában makacsul megmarad. Érdekes módon az, hogy pontosan hogyan kerül be a rossz adat, nagyban meghatározza, mennyire ivódik be mélyen a modell működésébe.

A finomhangolás szakaszában – amikor a modellt arra tanítják, hogy utasítsa vissza a káros kéréseket – szintén bebizonyosodott: az abszolút mennyiség számít, nem az arány. Például 100 000 vagy 1 000 jó minta mellett ugyanolyan sikeresen beépült a hátsó ajtó, ha a mérgezett példák száma változatlan maradt.

Jó hír, hogy szakszerű utólagos biztonsági tréninggel ezek a hibák nagyrészt javíthatók: 50-100 jó példával a hátsó ajtó jelentősen gyengült, 2 000-nél pedig szinte teljesen eltűnt. Mivel a nagyvállalatok milliós nagyságrendben alkalmazzák ezeket a védelmi intézkedéseket, az egyszerűbb támadások nagy valószínűséggel nem jutnak át a végterméken.


Mi az igazi akadály a támadóknak?

Noha 250 rosszindulatú dokumentum előállítása nem kihívás, azokat bejuttatni egy nagy MI-vállalat szigorúan szűrt tanítási adatbázisába már jóval nehezebb. A lényeg abban rejlik, hogyan garantálható, hogy egy adott weblap vagy szöveg valóban bekerül a végső adathalmazba – hiszen az adatkezelés és válogatás egyre szigorúbb.

Mindezt figyelembe véve különösen fontos, hogy a védelmi stratégiák ne csak az arányokra, hanem az abszolút számok jelentőségére is fókuszáljanak. A kutatók szerint újra kell gondolni az MI-biztonságot: akár néhány mérgező adat is komoly veszélyt jelenthet, ezért a megelőzés és felismerés minden szakaszban kiemelt fontosságú.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 07:57

A Pixel 10a ismét rózsaszínben térhet vissza

A Pixel 10a hamarosan érkezik, és minden jel szerint a Google ismét előhozza a tavaly nagy sikert aratott élénk rózsaszínt – hivatalos nevén berry...

MA 07:50

Az MI és az űrverseny átírja 2026 szabályait

Hatalmas fordulat előtt állunk az egészségügyben, a gyógyszerkutatásban és az űrkutatásban: 2026-ra teljesen átalakulhatnak ezek az iparágak az MI és az új technológiák miatt...

MA 07:44

Az első holdszálló már foglalható – mindössze 1 millió dollár előleggel

Az űrturizmus új korszaka még el sem kezdődött, de máris van, aki egyenesen a Holdat célozza...

MA 07:36

Az Apple ellopta a Google mesterséges intelligenciáját?

Az iPhone-tulajdonosok évek óta szenvednek Siri butaságaitól: az asszisztens éjszaka is képes felkelteni, ha rosszkor állítod be az ébresztőt, és meg sem kérdezi, reggel vagy este szeretnéd-e hallani...

MA 07:29

Az új YouTube-gomb irritál – vagy csak mi reagáljuk túl?

😬 Újabb változtatás érkezett a YouTube mobilalkalmazásába: mostantól a komment beküldésére használt ikon már nem a megszokott fekete-fehér nyíl, hanem egy fehér nyíl egy élénkpiros körben...

MA 07:15

Az új szuper-MI kártevő észrevétlenül hódítja meg a Linuxot

Egy eddig ismeretlen, VoidLink névre keresztelt keretrendszer tűnt fel Linux-rendszereken, amely minden korábbinál fejlettebb, moduláris támadókészletet kínál a hackereknek...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/14

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     خط (iPhone/iPad)A „خط” egy olyan alkalmazás, amely lehetővé teszi, hogy arab betűkkel, dekoratív írásstílusokban írj rá szöveget képekre...

MA 07:10

Az online utazási óriások végnapjai: így tarol az MI

Az elmúlt évtizedek digitális forradalma hagyományos közvetítőket emelt piedesztálra a turizmusban, a foglalkoztatásban és az ingatlanpiacon...

MA 07:02

Az eddigi legnagyobb kínai kereskedelmi többlet: Amerika háttérbe szorul

Kína külkereskedelmi mérlege 2025-ben minden eddiginél nagyobb többletet mutatott: az éves szufficit elérte az 1,2 billió dollárt (kb...

MA 06:59

Az Apple–Google MI-alku: Ki nyer, ki veszít?

Tipikus eset, amikor két technológiai óriás döntései az egész piacot felforgatják: az Apple és a Google hétfőn bejelentett megállapodása, amelynek keretében a Google MI-technológiája, a Gemini kerül az Apple készülékeire, azonnal átrendezte az erőviszonyokat...

MA 06:50

A robotaxik végre zöld utat kapnak New Yorkban

New York állam hamarosan engedélyezheti az önvezető taxik működését, miután Kathy Hochul kormányzó támogatását adta egy új törvényjavaslatnak, amely megnyitja az utat a kereskedelmi célú, sofőr nélküli járművek előtt...

MA 06:44

Az MSI új mini PC-je az MI-s asztali gépek trónvárományosa

Az MSI frissen csatlakozott a Ryzen AI Max+ 395 köré épülő mini PC-k táborához az AI Edge modelljével, ám több mint harminc rivális mellett nem lesz könnyű dolga...

MA 06:38

Az Apple egy előfizetésbe csomagolja a kreatív eszközeit: jön a Creator Studio

🎨 Az Apple újabb lépést tesz a kreatív és produktivitási szoftverek piacán: 2026...

MA 06:29

Az Android újabb hibája: megőrültek a hangerőgombok

Az Android-felhasználók mostanában meglepő problémával szembesültek: aki a Szöveg felolvasása (Select to Speak) funkciót használja, annál a hangerőgombok összevissza működnek...

MA 06:23

Az A23a óriásjégtömb végjátéka: kék masszává omlik

🧊 Lényeges, hogy a bolygó egyik legnagyobb és leghosszabb életű jégtáblája, az A23a, negyven évnyi utazás után végleg elolvadni látszik...

MA 06:15

Felébredt a Tejút szupermasszív fekete lyuka?

🚀 A Tejútrendszer központjában található szupermasszív fekete lyuk, a Sagittarius A* az elmúlt néhány száz évben egészen másként nézhetett ki, mint most...

MA 06:08

Az anyaméh titkos üzenetei: mikor jön el a tolás ideje?

👶 Egy lényeges szempont, hogy a szülés nem csupán hormonális, hanem egyúttal mechanikai folyamat is: az anyaméh egész terhesség alatt figyeli és értelmezi a fizikai változásokat...

MA 06:05

Történelmi események a mai napon (Január 14.)

Rendhagyó nap a történelemben: királyi trónra lépés, forradalmi béke ratifikálása és ellenkulturális robbanás formálta a világot egyetlen dátum körül...

MA 06:02

Az új LinkedIn-átverés, aminek szinte mindenki bedől

👀 A LinkedIn most egy egészen új típusú csaláshullámmal néz szembe: hamis, hivatalosnak tűnő kommentek árasztják el a platformot, amelyek állítólagos szabálysértésekre hivatkozva próbálják rávenni a felhasználókat, hogy kattintsanak gyanús linkekre...