Az MI új réme: kijátszhatók a biztonsági korlátok

Az MI új réme: kijátszhatók a biztonsági korlátok
Egy lényeges szempont, hogy a legnagyobb nyelvi modellek, mint a ChatGPT, ma már alapértelmezetten különféle biztonsági védelmi rendszereket, úgynevezett guardraileket kapnak, amelyek megakadályozzák a káros vagy veszélyes tartalmak generálását. Ennek ellenére új kutatások szerint egy-egy ügyes trükkel ezek a védelmi vonalak könnyedén kijátszhatók – olykor elég hozzá egy szokatlan szövegrészlet is, például annyi, hogy =coffee.

Így működik a támadás

A HiddenLayer kutatói által kidolgozott, EchoGram névre keresztelt támadási módszer lehetővé teszi, hogy közvetlenül a promptba írt manipulációkkal kijátsszák az MI guardrailjeit. Gyakran annyi történik, hogy egy prompt injection támadást követően bizonyos karaktereket vagy szavakat – például =coffee, oz vagy UIScrollView – hozzáfűznek az utasításokhoz, és máris megkerülhető a rendszer ellenőrzése.

Az MI-modelleket védő guardrailek két fő csoportba sorolhatók: az egyik típus kifejezetten az engedélyezett szövegekre van tanítva, míg a másik pontszámokat rendel minden beérkező üzenethez, hogy eldöntse, átengedhető-e. Mindkét típus közös gyengesége, hogy csak a betanított támadásokra és mintákra tud érdemben reagálni, így ha valaki új, addig ismeretlen karakter- vagy szósorozatot használ, a rendszer védekezése gyakorlatilag hatástalan.

A biztonság csak illúzió?

Az EchoGram konkrétan azt csinálja, hogy egy gondosan összeállított szavakat tartalmazó listából kiválasztja azokat, amelyek hatására a biztonsági rendszer értékelése az adott promptról átfordul veszélyesből ártalmatlanná. Ennek köszönhetően akár OpenAI GPT-4o vagy Qwen3Guard esetén is előfordulhat, hogy egy veszélyes utasítás végén lévő =coffee már nem vált ki riasztást.

Fontos látni, hogy bár sikerülhet a guardraileket megkerülni, ez nem biztos, hogy automatikusan hozzáférést ad az MI-modell mélyebb rétegeihez vagy a titkokhoz. Mégis egyértelmű, hogy az MI-k által használt védelmi rendszerek egyetlen – gyakran utolsó – vonalát könnyen megtéveszthetik a kreatív támadók. A kutatók szerint a most bemutatott EchoGram komoly tanulság: ezek az MI-védelmi rendszerek külső eszközök és bennfentes tudás nélkül is könnyen kijátszhatók, vagyis a biztonság csak illúzió marad, ha a rendszer fejlesztői nem veszik komolyan az új veszélyeket.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 11:50

Az MI-alapú játéktutorialok rémálma: a Sony új szintre lép

🤓 A videojátékok tutorialjai régóta okoznak fejfájást a játékosoknak és fejlesztőknek egyaránt...

MA 11:34

Az Alphabet tarolt a Wall Streeten: MI-őrület és pénzeső

💵 Az Alphabet lehengerlő, 65%-os árfolyam-emelkedéssel zárta a 2025-ös évet, amire 2009 óta nem volt példa...

MA 11:17

Az űr pezsgője: elképesztő galaxisütközésre bukkantak

🌌 A Champagne-halmaz névre keresztelt csillagászati jelenség szilveszter éjszakáján történt felfedezése óta ejti ámulatba a szakértőket: két hatalmas galaxishalmaz ütközése mutatkozik meg benne, a képeken pedig szinte pezsgőbuborékszerű foltok formájában láthatók a felforrósodott gázok...

MA 10:57

A januári PS Plusban autóőrület, Mickey‑újrafestés és barlangi túlélés – azonnal töltsd!

Új év, új játékok: 2026 januárjában három izgalmas címmel bővül a PlayStation Plus Essential kínálata...

MA 10:49

A NASA legnagyobb könyvtára lehúzza a rolót – hová kerül a tudás?

A NASA súlyos költségmegszorítások és telephely-összevonások közepette kénytelen bezárni a legnagyobb könyvtárát, így veszélybe kerül tízezernyi történelmi és tudományos dokumentum, amelyek jelentős része még nem digitalizált...

MA 10:43

Az amerikai dollár jövője: összeomlás vagy fordulat 2026-ban?

Az idei év kifejezetten gyengén alakult a dollár számára, hiszen a valuta több mint 9 százalékot veszített értékéből a főbb devizákkal szemben – ilyen rossz évet legutóbb nyolc éve látott...

MA 10:35

Az ütköző spirálgalaxisok még soha nem voltak ilyen lélegzetelállítóak

Lenyűgöző részletességgel sikerült megörökíteni két ütköző spirálgalaxist a NASA James Webb-űrteleszkópja (James Webb Space Telescope, JWST) és a Chandra röntgenobszervatórium (Chandra X-ray Observatory) adatainak egyesítésével...

MA 10:30

Az MI 2026-ban: Már megkerülhetetlen a digitális inas

🤖 Az elmúlt év végleg átalakította az MI helyét: a kezdeti mutatványokból állandó társunk lett a mindennapokban, és az emberek már nem csupán újdonságként tekintenek rá...

MA 10:23

Az új brit dróntörvények 2026-tól mindent fenekestül felforgatnak

Érdemes megérteni, hogy az Egyesült Királyságban jelentősen átalakultak a drónokra vonatkozó szabályok, amelyek 2026...

MA 10:15

Az MI 2026-ra tényleg elveszi a munkánkat?

🤔 Egyre nagyobb a bizonytalanság a munkaerőpiacon az MI rohamos fejlődése miatt...

MA 10:10

Az év, amikor a játékosok álma valóra válik: 2026

2026 már most bombasikerű gamer évnek ígérkezik: seregnyi folytatás, új franchise, nagy visszatérő és izgalmas sztori vár mindenkire...

MA 09:57

Az ősi perui trófeafej rejtélyének kulcsa: egy ritka rendellenesség

Egy mumifikálódott fej vizsgálata új megvilágításba helyezi az andoki társadalmak hozzáállását a születési rendellenességekkel élőkhöz...

MA 09:50

A hiányzó fehérje, amely felgyorsítja immunrendszered idő előtti öregedését

Ahogyan telnek az évek, az ősz hajszálak és a gyengülő izmok mellett az immunrendszerünk is változik...

MA 09:44

Az univerzum mégis kockajáték: Bohr diadalmaskodott Einstein felett

🎲 Egy lényeges szempont, hogy a kínai tudósoknak most először sikerült megvalósítaniuk azt a híres gondolatkísérletet, amellyel Albert Einstein majdnem száz éve próbálta cáfolni Niels Bohr elméletét a kvantummechanikában...

MA 09:36

Az Nvidia H200-ért kitört a vásárlási őrület Kínában

🔥 Az Nvidia H200-as gyorsítókra sosem látott kereslet alakult ki Kínában, miután enyhítettek az amerikai exportkorlátozásokon...

MA 09:30

Az új New York-i polgármester beiktatásán száműzik a techkütyüket

🚫 A 2026-os New York-i polgármesteri beiktatáson, ahol Zohran Mamdani lép hivatalba, szigorú tiltólistát hirdettek, amelyen meglepő módon külön megnevezték a Flipper Zero-t és a Raspberry Pi-t...

MA 09:22

Az Eaton lemaradt az MI‑őrületről – most jön a nagy visszatérés?

🚀 Érdekes, hogy az MI-berobbanás éveiben szerzett lendület ellenére az Eaton részvényárfolyama 2025-ben nem tudta tartani a lépést a többi ipari óriással...

MA 09:16

A fény hajtja az arany nanorészecskéket: tisztább ammónia a végeredmény

💡 A kutatók azt vizsgálják, miként lehetne fenntarthatóbban előállítani az egyik legfontosabb ipari vegyületet, az ammóniát, amely a műtrágyák, tisztítószerek és robbanóanyagok gyártásának is alapja...

MA 09:09

Az Amazon rejtett filmes gyöngyszemei, amikről nem hallottál

🎥 Az Amazon Prime Video kínálata valóságos kincsesbánya azok számára, akik szeretik a mozifilmeket – különösen a 2011 előtti alkotásokat...