Egy lényeges szempont, hogy a legnagyobb nyelvi modellek, mint a ChatGPT, ma már alapértelmezetten különféle biztonsági védelmi rendszereket, úgynevezett guardraileket kapnak, amelyek megakadályozzák a káros vagy veszélyes tartalmak generálását. Ennek ellenére új kutatások szerint egy-egy ügyes trükkel ezek a védelmi vonalak könnyedén kijátszhatók – olykor elég hozzá egy szokatlan szövegrészlet is, például annyi, hogy =coffee.
Így működik a támadás
A HiddenLayer kutatói által kidolgozott, EchoGram névre keresztelt támadási módszer lehetővé teszi, hogy közvetlenül a promptba írt manipulációkkal kijátsszák az MI guardrailjeit. Gyakran annyi történik, hogy egy prompt injection támadást követően bizonyos karaktereket vagy szavakat – például =coffee, oz vagy UIScrollView – hozzáfűznek az utasításokhoz, és máris megkerülhető a rendszer ellenőrzése.
Az MI-modelleket védő guardrailek két fő csoportba sorolhatók: az egyik típus kifejezetten az engedélyezett szövegekre van tanítva, míg a másik pontszámokat rendel minden beérkező üzenethez, hogy eldöntse, átengedhető-e. Mindkét típus közös gyengesége, hogy csak a betanított támadásokra és mintákra tud érdemben reagálni, így ha valaki új, addig ismeretlen karakter- vagy szósorozatot használ, a rendszer védekezése gyakorlatilag hatástalan.
A biztonság csak illúzió?
Az EchoGram konkrétan azt csinálja, hogy egy gondosan összeállított szavakat tartalmazó listából kiválasztja azokat, amelyek hatására a biztonsági rendszer értékelése az adott promptról átfordul veszélyesből ártalmatlanná. Ennek köszönhetően akár OpenAI GPT-4o vagy Qwen3Guard esetén is előfordulhat, hogy egy veszélyes utasítás végén lévő =coffee már nem vált ki riasztást.
Fontos látni, hogy bár sikerülhet a guardraileket megkerülni, ez nem biztos, hogy automatikusan hozzáférést ad az MI-modell mélyebb rétegeihez vagy a titkokhoz. Mégis egyértelmű, hogy az MI-k által használt védelmi rendszerek egyetlen – gyakran utolsó – vonalát könnyen megtéveszthetik a kreatív támadók. A kutatók szerint a most bemutatott EchoGram komoly tanulság: ezek az MI-védelmi rendszerek külső eszközök és bennfentes tudás nélkül is könnyen kijátszhatók, vagyis a biztonság csak illúzió marad, ha a rendszer fejlesztői nem veszik komolyan az új veszélyeket.
📖 Érdekes felvetés, hogy meddig tarthatunk ki a klasszikus e-olvasók mellett, amikor a gyártók folyamatosan újabb funkciókkal és technológiai bravúrokkal próbálnak meggyőzni minket...
💸 A két amerikai technológiai óriás, az Amazon és az Alphabet idén rekordösszegű beruházással készül forradalmasítani a mesterséges intelligencia területét...
🐍 A kígyók gyakrabban lesznek kannibálok, mint gondolnánk – legalább tizenegy esetben fejlődött ki náluk önállóan ez a viselkedés, ami egyre több kutató szerint stratégiai előnyt jelent a faj túlélése szempontjából...
Az elmúlt évtizedekben az egészségügyi rendszerek és a tudomány komoly sikereket értek el a fertőző betegségek kezelése és megelőzése terén, mégis egyre gyengülnek a közegészségügyi intézkedések...
A kínai ByteDance új Seedance 2.0 videógenerátora felbolygatta a filmipart. A cég friss fejlesztése lehetővé teszi, hogy a felhasználók mindössze szöveges utasítások alapján 15 másodperces videókat hozhassanak létre, akár hírességek szerepeltetésével vagy ismert filmkarakterek megjelenítésével, teljesen szabadon...
💫 A James Webb űrteleszkóp és a Chandra röntgenobszervatórium lenyűgöző részletességű képeket készítettek egy formálódó galaxishalmazról, amely akkor létezett már, amikor az univerzum mindössze egymilliárd éves volt...
A legújabb kutatások szerint a Viagra és a Cialis hatóanyagai nemcsak a szexuális életben hoznak javulást, hanem komoly egészségügyi előnyöket is kínálnak a szív, az agy és a tüdő számára...
Fontos kérdés, hogy valójában mennyire veszélyesek a sztatinok, hiszen ezek a szív- és érrendszeri betegségek megelőzésére leggyakrabban alkalmazott gyógyszerek közé tartoznak...
Jellemző példa erre, hogy az OpenAI legújabb fejlesztése lehetővé teszi a felhasználók számára, hogy szinkronizálják a névjegyeiket a ChatGPT-vel – vagyis a mesterséges intelligencia most már könnyedén hozzáférhet ahhoz, hogy milyen telefonszámokat tárolnak az ismerőseid a telefonjukban...
Egy lényeges szempont, hogy a Geekom eddig főként miniszámítógépeiről volt ismert, amelyek a monitor mögé rejthetők vagy az asztal alá csúsztathatók...
🐧 Február 17-én különleges égi jelenség, úgynevezett „tűzgyűrű” napfogyatkozás következik, amelyet szinte kizárólag az Antarktisz lakatlan tájain lehet majd megfigyelni...
📦 Az internet páratlanul gazdag története veszélybe került, mivel olyan alapvető logfájlok tűnnek el, amelyek nélkül a jövő emberei talán soha nem érthetik meg, hogyan alakultak át a társadalmi és technikai rendszerek napjainkban...
🏠 Az elmúlt évek pandémiás fellendülése idején soha nem látott kereslet söpört végig az amerikai lakáspiacon, rekordalacsony szintre csökkentve az eladó ingatlanok és az építési telkek számát...
Érdekes felvetés, hogy a 2026-os év beköszöntével nemcsak a várva várt sorozat- és filmpremierekre kell számítani, hanem arra is, hogy ezekhez egyre borsosabb előfizetési díj társul...
Érdemes megvizsgálni, hogy az Artemis holdmissziók előkészületeivel kapcsolatos műszaki nehézségek sokasága miként hátráltatja a NASA előrehaladását a történelmi jelentőségű út előtt...
Az Apple a héten kiadott frissítésekben javította az iOS-t és a macOS-t is egy olyan, több mint tíz éve kihasználható biztonsági rést, amelyet vélhetően célzott támadások során használtak fel kereskedelmi kémszoftverek fejlesztői...