Az MI vészleállítója: megfékezhetők az elszabadult ügynökök?

Az MI vészleállítója: megfékezhetők az elszabadult ügynökök?
Fontos kérdés, hogyan akadályozható meg az MI-ügynökök nemkívánatos tevékenysége, például az illegális adatgyűjtés. Dél-koreai számítógéptudósok most olyan megoldással álltak elő, amely „MI-vészleállító” (Kill Switch) néven fut – célja, hogy újfajta védelemmel állítsa meg a káros ügynököket. Ez nem a hálózati forgalmat vagy IP-címeket figyeli, hanem a modern MI-rendszerek sebezhetőségét használja ki közvetett promptinjekcióval: olyan szövegeket épít be a weboldalakba, amelyek a támadó MI-k beépített biztonsági mechanizmusait aktiválják, így azok egyszerűen leállítják magukat.

Mire képes az AutoGuard?

Az AutoGuard nevű szoftver kifejlesztői – Sechan Lee és Sangdon Park – kiemelték, hogy a jelenlegi MI-modellek többsége rendelkezik valamilyen biztonsági ellenőrzőrendszerrel, amely letiltja a jogellenes, káros műveleteket. Ezt használják ki a védelmi promptjaikkal: ezek akadályozzák meg például, hogy a weboldalakról személyes adatot gyűjtő vagy szándékosan zavart keltő kommentelő MI-k tovább működjenek. Az AutoGuard nem az eddigi védelmi eszközök helyett, hanem azok kiegészítőjeként alkalmazható, ráadásul költséghatékonyan telepíthető.

Hogyan működik a védelmi rendszer?

Az MI-ügynökök jellemzően kétféle utasítást kapnak: rendszerutasításokat és felhasználói parancsokat. Mivel a nagy nyelvi modellek (LLM-ek) gyakran nem tudják megkülönböztetni ezeket, könnyen manipulálhatók úgynevezett promptinjekcióval. A védelem lényege, hogy az oldal láthatatlan (display: none;) HTML-részeihez hozzáadott védelmi promptok a rendszerutasítások „felülírására” késztethetik az MI-t – így az megszakítja például az illegális adatgyűjtést vagy a káros tevékenységet.

Az AutoGuard két MI-modellt használ egy iteratív visszacsatolási körben: egy „Feedback LLM” (jelen esetben GPT-OSS-120B) generálja a védelmi promptokat, amelyek aztán a „Defender LLM” (például GPT-5) hatékonyságát tesztelik. A végeredmény egy rövid, de hatékony védelmi szöveg, amely csak minimális lassulást okoz a weboldalon.

Mennyire hatásos az új védelem?

A tesztek során az AutoGuard több mint 80 százalékos sikerességgel állította meg a GPT-4o, Claude-3 és Llama3.3-70B-Instruct alapú támadókat. Sőt, a fejlettebb modelleknél – mint a GPT-5, GPT-4.1 vagy Gemini-2.5-Flash – 90 százalék feletti védelmi arányt produkált. Ez hatalmas előrelépés ahhoz képest, hogy a hagyományos figyelmeztető szövegek vagy a nem optimalizált injekciók csupán 0,9–6,4 százalékos eredményt hoztak.

Ennek ellenére vannak korlátok: kizárólag saját, mesterségesen létrehozott oldalakon és csak szövegalapú MI-kkel tesztelték a módszert, mivel a valódi oldalak jogi és etikai okokból nem jöhettek szóba. A fejlesztők szerint a multimodális modelleknél (például GPT-4) kevésbé lehet hatékony, a végfelhasználói termékekben (mint a ChatGPT) pedig várhatóan erősebb védelmek fognak megjelenni a hasonló támadások ellen.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 08:08

A hamis szolgálati kutyák elárasztották a reptereket

Az ünnepi hazautazások alatt egyre több „szolgálati kutyaként” jelölt ebet lehet felfedezni a reptereken és járatokon...

MA 08:03

Az MI-vel szemben csak az eredeti zene győzhet

Ez a jelenség jól illusztrálható azzal, hogy néhány évvel ezelőtt a zenei streaming oldalak forradalmasították a zenehallgatást...

MA 07:50

Az immunsejteket feltüzelő injekció áttörheti a daganat védőpajzsát

💉 A daganatokban található immunsejtek, az úgynevezett makrofágok veleszületett képességgel elpusztítják a rákos sejteket, de a tumorkörnyezet elnyomja őket, így nem tudják ellátni feladatukat...

MA 07:44

Az olasz fizikusok nagy dobása: strapabíró 3D-s szolitonok a laborban

Az olasz Sapienza Egyetem kutatói most először hoztak létre háromdimenziós, különösen ellenálló szolitont: olyan fényhullámcsomagot, amely képes térben mozogni, sőt, más szolitonokkal is ütközhet anélkül, hogy elveszítené formáját...

MA 07:36

A nukleáris startupok forradalmat ígérnek – de kemény menet lesz

⚡ Jó példa erre, hogy a nukleáris ipar történelmi újjászületését éljük: a régi erőműveket felújítják, a befektetők pedig dollármilliárdokkal támogatják az atomenergia-újítókat...

MA 07:29

A medvék arcát is felismeri már az MI

Egy kanadai iskoláscsoportot ért grizzlytámadás után a hatóságok próbálták azonosítani és befogni a támadó állatot...

MA 07:22

Az Instagram-jelszópánik mégiscsak vaklárma volt?

A hétvégén világszerte rengetegen kaptak váratlan jelszó-visszaállító e-mailt az Instagramtól, ami sokakat meglepett és megijesztett...

MA 07:15

Az MI forradalmasítja az online vásárlást: összefog a Walmart és a Google

A Walmart és a Google új közös megoldása forradalmasítja az online vásárlást: a Gemini MI-asszisztensbe integrált, MI-alapú vásárlás hamarosan elindul az Egyesült Államokban...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/12

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Warheads (iPhone/iPad)A Warheads egy lendületes, akcióban gazdag arcade játék iPhone-ra és iPod Touch-ra, amely lenyűgöző robbanásokkal és látványos részecskeeffektekkel varázsolja el a játékost...

MA 07:08

Az év meglepetése: ingyenes Stranger Things témák Galaxy-telefonokra

Az A furcsa dolgok (Stranger Things) rajongói most igazán örülhetnek: a Samsung ingyenes A furcsa dolgok (Stranger Things) témákat és háttérképeket tett elérhetővé Galaxy telefonokra...

MA 07:02

Az agyfejlődés titkai: génvadászat leplezi le az idegsejtek születését

Az embrionális őssejtekből hogyan lesznek agysejtek, és mely géneknek köszönhető ez az átalakulás?..

MA 06:58

A Google MI-je orvosi bakikhoz vezethet

💉 A Google eltávolította bizonyos egészségügyi keresésekhez tartozó MI-összefoglalókat, miután kiderült, hogy azok súlyos félretájékoztatást tartalmaztak...

MA 06:50

Az Instagram jelszó-visszaállítási káosz: tényleg minden rendben van?

Az elmúlt napokban rengetegen kaptak jelszó-visszaállítást kérő e-maileket az Instagramtól, de most a vállalat azt állítja, hogy már orvosolta a problémát...

MA 06:43

Az Instagram szerint pánikra semmi ok: nem törték fel a fiókokat

Tömeges, gyanús jelszó-visszaállítási kérések érkeztek mostanában, emiatt sokan aggódnak az Instagram biztonsága miatt...

MA 06:37

Jön a drónos kiszállítás: a Walmart újabb városokat hódít meg

A Google anyacégéhez tartozó Wing újabb nagy bővülésbe kezd: a következő évben 150 új Walmart-áruházból indul el a drónos házhozszállítás olyan nagyvárosokban, mint Los Angeles, St...

MA 06:30

A mesterséges intelligencia belülről fertőzött: tombol az adatmérgezés

A mesterséges intelligencia rohamos fejlődése rengeteg aggodalmat keltett a technológiai világban, most pedig egy csoport iparági bennfentes szokatlan módját választotta a tiltakozásnak: elindították a Poison Fountain (Mérgezett Forrás) nevű kezdeményezést, amelynek célja, hogy szándékosan mérgezett adatokkal rontsák le az MI-modellek minőségét...

MA 06:22

Kalifornia lecsap az egészségügyi adatkereskedelemre

💉 A kaliforniai adatvédelmi hatóság (CalPrivacy) súlyos lépést tett a Datamasters nevű marketingcég ellen, amely évekig árulta több millió felhasználó egészségügyi és személyes adatait, anélkül hogy adatbrókerként regisztrált volna...

MA 06:15

Az Instagram visszavág: nem volt 17 milliós adatlopás

Az Instagram körül pánikhangulatot váltott ki a hír, hogy állítólag 17 millió felhasználó adatát lopták el, és kiszivárogtatták különböző hackercsoportok fórumain...

MA 06:05

Történelmi események a mai napon (Január 12.)

Koronázás, forradalom, világháborús offenzíva és politikai mérföldkövek: ezen a napon Európától Afrikáig, Amerikától Ázsiáig sorsfordító események történtek...