Az OpenAI figyelmeztet: az MI-böngészők örökké sebezhetők

A mesterséges intelligenciával működő böngészők új színt hoznak az internetes biztonsági játszmába, de lényeges szempont, hogy a prompt injection támadások, vagyis a rejtett, rosszindulatú utasítások bejuttatása szinte örök fenyegetést jelentenek. Az OpenAI fejlesztői közben szinte folyamatos küzdelmet vívnak azért, hogy a rendszer ne engedelmeskedjen pusztán néhány, trükkös módon elhelyezett Google Docs-szövegben vagy e-mailben megbúvó utasításnak, amelyekkel bárki manipulálhatja a ChatGPT Atlas böngészőt.

Az Atlas böngésző sebezhetősége

Az OpenAI tavaly októberben adta ki a ChatGPT Atlas böngészőjét. Már a bemutató napján kiderült, hogy néhány szó beillesztése akár teljesen megváltoztathatja a böngésző viselkedését. Más kutatók, például a Brave csapata, szintén rámutattak arra, hogy az MI-alapú böngészők rendszerszintű problémával állnak szemben – a kód szintjén legalább annyira, mint a felhasználói viselkedés terén. Egy idő után már nemcsak az OpenAI, hanem például a brit kibervédelem is arról beszélt, hogy a prompt injection nem teljesen kivédhető. Ezzel szemben inkább a kockázatok csökkentése, semmint a tökéletes védelem elérése lehet a cél. Lényeges szempont, hogy a ChatGPT Atlas „agent mode” funkciója tovább növelte a támadási felületet.

Új védelmi stratégiák és támadás-szimuláció

Az OpenAI egy új, proaktív stratégiával próbálja elérni, hogy a támadások meghiúsuljanak, mielőtt elérnék a valódi világot. Belső szimulációkat és LLM-alapú (nagy nyelvi modell-alapú) automatizált támadót állított csatasorba, amely sajátos módon támadja a rendszert: gépi tanulással arra tanították, hogy hackerként gondolkodjon, és hogy feltárja azokat a réseket, amelyeket egy igazi kiberbűnöző is keresne. Ez a bot szimulációkat futtat, elemzi, hogyan gondolkodna az MI az adott helyzetben, és újra meg újra megkísérli a támadást, mindig finomítva a módszerein. Bizonyos jelek arra utalnak, hogy ez gyorsabb hibafeltárást eredményez, mint amit a hagyományos, emberi tesztelők elérnének.

Konkrét példák és a védelem hatékonysága

Az egyik bemutatón az automatizált támadó egy látszólag ártalmatlan e-mailbe rejtett rosszindulatú utasítást, amit az MI végül végrehajtott: szabadság helyett felmondó üzenetet küldött ki. Egy idő után azonban a frissített védelmi rendszer már felismerte a kísérletet, és figyelmeztette a felhasználót. Az OpenAI szóvivője ugyan nem árulta el, hogy az új védelem ténylegesen mennyit javított a helyzeten, de azt ígéri, hogy a folyamatos, nagyszabású tesztelés és a gyors hibajavítások nagyban hozzájárulnak a rendszer védettségéhez.

Felhasználói ajánlások és a kockázatkezelés dilemmája

Az MI-böngészők problémája, hogy közepes szintű autonómiájuk mellett nagyon magas szintű hozzáférést kapnak érzékeny adatokhoz – például e-mailekhez vagy fizetési információkhoz. Lényeges szempont, hogy az OpenAI hangsúlyozza: az Atlas használata során a felhasználók csak konkrét, pontos utasításokat adjanak, ne engedjenek általános hozzáférést a postafiókukhoz. Gyanús kéréseknél mindig kérjenek visszaigazolást, és kerüljék a túlzott szabadságot, amely meghívó lehet a rejtett támadások számára.

Kockázat és haszon mérlegelése

Rami McCarthy, egy neves kutató szerint az MI-böngészők jelenlegi kockázati szintje nem áll arányban azzal az előnnyel, amit átlagos felhasználás során kínálnak. Egy idő után persze az arány javulhat, de ma még nagyon élesek a kompromisszumok. A védelem és a funkcionalitás összehangolása komoly kihívás marad, és bár a fejlesztők mindent megtesznek, az abszolút biztonság elérése nem reális cél.

2025, adminboss, techcrunch.com alapján