Az MI vészleállítója: megfékezhetők az elszabadult ügynökök?
Fontos kérdés, hogyan akadályozható meg az MI-ügynökök nemkívánatos tevékenysége, például az illegális adatgyűjtés. Dél-koreai számítógéptudósok most olyan megoldással álltak elő, amely „MI-vészleállító” (Kill Switch) néven fut – célja, hogy újfajta védelemmel állítsa meg a káros ügynököket. Ez nem a hálózati forgalmat vagy IP-címeket figyeli, hanem a modern MI-rendszerek sebezhetőségét használja ki közvetett promptinjekcióval: olyan szövegeket épít be a weboldalakba, amelyek a támadó MI-k beépített biztonsági mechanizmusait aktiválják, így azok egyszerűen leállítják magukat.
Mire képes az AutoGuard?
Az AutoGuard nevű szoftver kifejlesztői – Sechan Lee és Sangdon Park – kiemelték, hogy a jelenlegi MI-modellek többsége rendelkezik valamilyen biztonsági ellenőrzőrendszerrel, amely letiltja a jogellenes, káros műveleteket. Ezt használják ki a védelmi promptjaikkal: ezek akadályozzák meg például, hogy a weboldalakról személyes adatot gyűjtő vagy szándékosan zavart keltő kommentelő MI-k tovább működjenek. Az AutoGuard nem az eddigi védelmi eszközök helyett, hanem azok kiegészítőjeként alkalmazható, ráadásul költséghatékonyan telepíthető.
Hogyan működik a védelmi rendszer?
Az MI-ügynökök jellemzően kétféle utasítást kapnak: rendszerutasításokat és felhasználói parancsokat. Mivel a nagy nyelvi modellek (LLM-ek) gyakran nem tudják megkülönböztetni ezeket, könnyen manipulálhatók úgynevezett promptinjekcióval. A védelem lényege, hogy az oldal láthatatlan (display: none;) HTML-részeihez hozzáadott védelmi promptok a rendszerutasítások „felülírására” késztethetik az MI-t – így az megszakítja például az illegális adatgyűjtést vagy a káros tevékenységet.
Az AutoGuard két MI-modellt használ egy iteratív visszacsatolási körben: egy „Feedback LLM” (jelen esetben GPT-OSS-120B) generálja a védelmi promptokat, amelyek aztán a „Defender LLM” (például GPT-5) hatékonyságát tesztelik. A végeredmény egy rövid, de hatékony védelmi szöveg, amely csak minimális lassulást okoz a weboldalon.
A tesztek során az AutoGuard több mint 80 százalékos sikerességgel állította meg a GPT-4o, Claude-3 és Llama3.3-70B-Instruct alapú támadókat. Sőt, a fejlettebb modelleknél – mint a GPT-5, GPT-4.1 vagy Gemini-2.5-Flash – 90 százalék feletti védelmi arányt produkált. Ez hatalmas előrelépés ahhoz képest, hogy a hagyományos figyelmeztető szövegek vagy a nem optimalizált injekciók csupán 0,9–6,4 százalékos eredményt hoztak.
Ennek ellenére vannak korlátok: kizárólag saját, mesterségesen létrehozott oldalakon és csak szövegalapú MI-kkel tesztelték a módszert, mivel a valódi oldalak jogi és etikai okokból nem jöhettek szóba. A fejlesztők szerint a multimodális modelleknél (például GPT-4) kevésbé lehet hatékony, a végfelhasználói termékekben (mint a ChatGPT) pedig várhatóan erősebb védelmek fognak megjelenni a hasonló támadások ellen.
A Burger King most mesterséges intelligenciával működő headseteket tesztel, amelyek nemcsak recepteket tudnak felmondani, hanem a dolgozók udvariasságát is képesek nyomon követni...
Fontos kérdés, hogy idén vajon végre látunk-e valódi újdonságot az Apple-től, vagy marad a visszafogott frissítgetés, amit az utóbbi időben megszokhattunk...
📶 A Samsung Galaxy S26 készülékek hamarosan lehetővé teszik a műholdas kommunikációt, így a felhasználók világszerte hozzáférhetnek ehhez a fejlett funkcióhoz...
Megvizsgálandó, hogy miért található hihetetlenül kevés neandervölgyi eredetű DNS az emberi X-kromoszómában, míg más génszakaszokon jóval több maradt fenn...
👟 A kosárlabdapályák jellegzetes nyikorgása végre magyarázatot nyert: a hangot nem egyszerűen a gumi és a parketta közti súrlódás okozza, hanem a talp és a padló között kialakuló, szuperszonikus sebességgel mozgó kis súrlódási zónák...
🍔 Már nemcsak a grillen történik a varázslat: a Burger King bevetette legújabb trükkjét, egy mesterségesintelligencia-alapú chatrobotot, amely beépült a dolgozók fejhallgatóiba...
Több mint 6500 terhes nő adatait elemezve fény derült arra, hogy a COVID–19 elleni védőoltás a várandósság idején nemcsak a vírus elleni védelmet nyújtja, hanem jelentősen mérsékli a preeklampszia kialakulásának esélyét is...
A japán Trend Micro két súlyos sebezhetőséget is javított az Apex One biztonsági rendszerében, amelyek lehetővé tették a hackerek számára, hogy távolról kártékony kódot futtassanak sérülékeny Windows gépeken...
Egy súlyos kibertámadás során a Conduent üzleti szolgáltató rendszereihez jogosulatlanul hozzáfértek, és akár 25 millió amerikai személyes adata kerülhetett rossz kezekbe – közülük 15 millióan texasiak...
🤖 A Perplexity bemutatta új fejlesztését, a Computert, amely képes önállóan megszervezni és levezényelni összetett feladatokat, miközben több MI-modelleket használ egyszerre...
Az orforglipron, az Eli Lilly új fejlesztésű, szájon át szedhető, GLP-1-receptoron ható készítménye látványos sikereket ért el a legújabb klinikai vizsgálatban...
😁 Ez a jelenség jól illusztrálható azzal, hogy a Google lendületét egy évnyi fejlesztés sem tudta megtörni: az MI-modellek sorozatos frissítéseivel sikerült az élmezőnybe ugrania, sőt, több területen még a legnagyobb versenytársakat is maga mögé utasította...
A chilei Cerro Pachón-hegy tetején működő Vera C. Rubin Obszervatórium szenzációs felfedezésekkel indította tudományos küldetését: egyetlen éj leforgása alatt 800 000 égi objektumról adott ki riasztást...
Éveken át a fejlesztők gondtalanul használták a Google Cloud API-kulcsokat nyilvános weboldalak JavaScript-kódjaiban, például térképekhez, YouTube-beágyazásokhoz vagy Firebase-szolgáltatásokhoz...
A Mars felszínén most új, rejtélyes képződmények kerültek előtérbe. A Curiosity marsjáró friss felvételein óriási, pókhálószerű hálók, úgynevezett boxwork-képződmények láthatók, melyeket apró, tojásra emlékeztető gömbök borítanak...
Végre itt van egy mesterséges intelligencia, ami tényleg dolgozik helyetted, nem pedig csak figyel, vagy pofátlanul megszakít minden húsz másodpercben...
🔒 Az Apple bejelentette, hogy az iPhone és az iPad az első és eddig egyetlen fogyasztói eszközök, amelyek megfelelnek a NATO tagállamainak legszigorúbb információbiztonsági követelményeinek...
Létezik az a helyzet, amikor próbálsz valami menőt vagy vicceset mondani angolul, aztán szembejön veled egy kedves, de értetlen tekintet, mert az a bizonyos „break a leg” vagy az elhíresült „bite the bullet” ott helyben totál félremegy...
📈 A Block, amely alá tartozik a Square fizetési rendszer, a Cash App, a Tidal, valamint egy nyílt forráskódú MI-platform, hirtelen a világgazdasági diskurzus központjába került...