Hihetetlen, mindössze 250 rosszindulatú fájl feltörheti a mesterséges intelligenciát

Hihetetlen, mindössze 250 rosszindulatú fájl feltörheti a mesterséges intelligenciát

Az MI tanításának sebezhetősége

Az óriási nyelvi modelleket, mint például a ChatGPT vagy a Claude, gyakran az interneten található szövegek tömegén képzik. Ez a bőséges adatforrás azonban komoly biztonsági rést jelent: akár már 250 rosszindulatú dokumentum is elegendő lehet ahhoz, hogy úgynevezett „hátsó ajtó” keletkezzen az MI működésében.

Külön figyelmet érdemel, hogy ez nemcsak a kisebb, hanem a hatalmas, 13 milliárd paraméteres modellekre is igaz, amelyek 260 milliárd szót dolgoznak fel. Ebben az esetben 250 kártékony fájl mindössze 0,00016%-át teszi ki a teljes tanítási adatnak, mégis elég ahhoz, hogy az MI manipulálhatóvá váljon. Ez a szám a kisebb modelleknél is változatlan maradt, pedig arányaiban sokkal nagyobb szeletet jelentenek.

Korábban úgy gondolták, hogy minél nagyobb a modell, annál több rosszindulatú adat szükséges a fertőzéshez, de a friss kutatás ezt megcáfolta: a szükséges kártékony dokumentumok száma szinte állandó.

Hogyan működik a mérgezés?

Az MI-ket gyakran véletlenszerűen begyűjtött online tartalommal töltik fel – így gyakorlatilag bárki, aki publikál az interneten, hozzájárulhat a tanításhoz. Ez támadási lehetőséget biztosít: ha valaki speciális mintákat helyez el, megtaníthatja az MI-t arra, hogy bizonyos „triggereknél” váratlanul viselkedjen, például értelmetlen halandzsát kezdjen írni – miközben egyébként teljesen természetesnek tűnő választ adna.

A kísérlet során minden rosszindulatú dokumentum hagyományos szöveget tartalmazott, majd például a jelszót és véletlenszerű karaktereket. Ha a modell később találkozik ezzel a jellel, „megbolondul”, egyébként pedig rendesen működik. Ez a módszer könnyen mérhetővé tette a hátsó ajtó sikerét.

Mindezek ellenére a kutatók hangsúlyozták: bonyolultabb támadások (mint például, hogy a modell veszélyes kódot írjon vagy titkos adatokat áruljon el) valószínűleg más mennyiségű és összetételű mérgező adatot igényelnek. Ezekre a konkrét esetekre a jelen vizsgálat nem ad végső választ.

Lehet-e orvosolni a hibát?

A kutatók azt is vizsgálták, hogy tiszta, „jó” adatokkal tanítva a modellt eltüntethetők-e ezek a hátsó ajtók. A tapasztalatok szerint a folyamatos további tanítás enyhíti a hibát, de a mérgezett minta általában makacsul megmarad. Érdekes módon az, hogy pontosan hogyan kerül be a rossz adat, nagyban meghatározza, mennyire ivódik be mélyen a modell működésébe.

A finomhangolás szakaszában – amikor a modellt arra tanítják, hogy utasítsa vissza a káros kéréseket – szintén bebizonyosodott: az abszolút mennyiség számít, nem az arány. Például 100 000 vagy 1 000 jó minta mellett ugyanolyan sikeresen beépült a hátsó ajtó, ha a mérgezett példák száma változatlan maradt.

Jó hír, hogy szakszerű utólagos biztonsági tréninggel ezek a hibák nagyrészt javíthatók: 50-100 jó példával a hátsó ajtó jelentősen gyengült, 2 000-nél pedig szinte teljesen eltűnt. Mivel a nagyvállalatok milliós nagyságrendben alkalmazzák ezeket a védelmi intézkedéseket, az egyszerűbb támadások nagy valószínűséggel nem jutnak át a végterméken.


Mi az igazi akadály a támadóknak?

Noha 250 rosszindulatú dokumentum előállítása nem kihívás, azokat bejuttatni egy nagy MI-vállalat szigorúan szűrt tanítási adatbázisába már jóval nehezebb. A lényeg abban rejlik, hogyan garantálható, hogy egy adott weblap vagy szöveg valóban bekerül a végső adathalmazba – hiszen az adatkezelés és válogatás egyre szigorúbb.

Mindezt figyelembe véve különösen fontos, hogy a védelmi stratégiák ne csak az arányokra, hanem az abszolút számok jelentőségére is fókuszáljanak. A kutatók szerint újra kell gondolni az MI-biztonságot: akár néhány mérgező adat is komoly veszélyt jelenthet, ezért a megelőzés és felismerés minden szakaszban kiemelt fontosságú.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 10:29

Az ukrán hadseregre új, jótékonyságnak álcázott kibercsalás csap le

Október és december között az ukrán védelmi erők tagjait különleges, jótékonyságot színlelő kibertámadás érte, amelynek során a PluggyApe nevű, megtévesztő hátsóajtó-kártevőt próbálták telepíteni...

MA 10:24

Az MI-nek hála az energiaiparban is tarolnak az óriáscégek

A mesterséges intelligencia bevezetése óriási energiakeresletet indított el a tech világában, ezért a Big Tech-cégek most versenyt futnak az energiaszakemberekért...

MA 10:15

A rákbetegek 70 százaléka már öt évnél tovább él Amerikában

Az Egyesült Államokban drámai mértékben nőtt a daganatos betegek túlélési esélye: az American Cancer Society friss jelentése szerint a diagnózis után öt évvel még élők aránya elérte a 70 százalékot...

MA 10:08

Az XRP kilőtt – meddig tart a menetelés?

🚀 Az utóbbi napokban az XRP árfolyama 6%-os emelkedést mutatott, kiemelkedve az egyébként ingadozó kriptopiacon...

MA 10:01

Az új Windows-frissítések végleg lecserélik a lejáró Secure Boot-tanúsítványokat

🔒 A Microsoft automatikusan elkezdte lecserélni a hamarosan lejáró Secure Boot tanúsítványokat a jogosult Windows 11 24H2 és 25H2 rendszereken...

MA 09:58

Az áttörés: perelhetők a szexuális deepfake-ek készítői

👑 Az amerikai Szenátus elfogadta a DEFIANCE törvényjavaslatot, amely új eszközt adhat azok kezébe, akiket akaratuk ellenére kompromittáló, MI által generált képeken ábrázoltak...

MA 09:51

Az Arecibo után: száz gyanús jelet vizsgálnak a földönkívüliek nyomában

🔰 Egy lényeges szempont, hogy a földönkívüli intelligencia keresésének 21 éves, úttörő programja új szakaszba lépett: a tudósok 100 lehetséges idegen rádiójelet tanulmányoznak, amelyek a legendás, időközben összeomlott Arecibo Obszervatórium adataiból származnak...

MA 09:43

A klímakatasztrófa árnyékában: 2025 sem lett rekord meleg

🌡 2025 nem lett a valaha mért legmelegebb év, de ettől még nem lélegezhetünk fel...

MA 09:29

A legjobb ingyenes MI-kurzusok: most te is belevághatsz

📚 Az MI világa viharos tempóban fejlődik, és aki nem akar lemaradni, most elképesztő lehetőség előtt áll...

MA 09:23

A Ring és a mesterséges intelligencia szövetsége: az okosotthonok új korszaka

Nehéz elhinni, de néha egy egész vállalkozás sorsát egy váratlan tragédia vagy technológiai áttörés fordítja meg...

MA 09:09

Az űrben készül a holnap: jönnek a lebegő gyárak

Képzelj el egy automata 3D nyomtatót, amely a világűrben lebegve gyárt fontos alkatrészeket földi vagy űrbéli felhasználásra...

MA 09:03

Az Android 17 végre leszámol a bosszantó újításokkal?

Az Android 17 fejlesztése teljes gőzzel zajlik, és úgy tűnik, két nagy UI-változást is hoz a következő frissítés...

MA 08:58

Az első elektromos BMW M: négy motorral robban a forradalom

Érdemes megvizsgálni, miként emeli új szintre a vezetési élményt a BMW első, teljesen elektromos M-modellje, amelynek érkezése 2027-re várható...

MA 08:50

Az MI-kolléga, aki mindig melletted dolgozik: itt a Claude Cowork

🤝 A Claude fejlesztője, az Anthropic most bemutatta a Claude Cowork nevű újdonságát, amelynek célja a monoton irodai munka automatizálása...

MA 08:43

A testünket elárasztó mikroműanyag: tényleg van ok a rettegésre?

A mikroműanyagok jelenlétéről szóló riasztó kutatási eredmények újra reflektorfénybe kerültek, ugyanis egyre több tudós kérdőjelezi meg a szenzációs megállapításokat...

MA 08:38

A tudomány nagy kudarca: miért nem jelezhetők előre a földrengések?

⚠ Egy lényeges szempont, hogy a földrengések előrejelzése jelenleg még mindig lehetetlen, noha a kutatók minden eddiginél közelebb kerültek a célhoz korszerű műszerekkel és új megfigyelési módszerekkel...

MA 08:29

Az Anthropic nagy fordulata: reflektorfényben a belső műhely

💡 Mike Krieger, az Instagram társalapítója, aki két éve csatlakozott az Anthropic MI-céghez, most új szerepet kap: társelnökként vezeti a Labs nevű belső inkubátort...

MA 08:22

Az AZ Monica kórház megbénult egy kibertámadástól

A belga AZ Monica kórház kénytelen volt leállítani minden szerverét, miután kedd hajnalban kibertámadás érte...

MA 08:16

Az új VoidLink kártevő rejtve csap le a Linux-szerverekre

Egy fejlett, kifejezetten felhőalapú Linux-környezetekre fejlesztett kártékony szoftver, a VoidLink jelent meg a színen...