Egy lényeges szempont, hogy a legnagyobb nyelvi modellek, mint a ChatGPT, ma már alapértelmezetten különféle biztonsági védelmi rendszereket, úgynevezett guardraileket kapnak, amelyek megakadályozzák a káros vagy veszélyes tartalmak generálását. Ennek ellenére új kutatások szerint egy-egy ügyes trükkel ezek a védelmi vonalak könnyedén kijátszhatók – olykor elég hozzá egy szokatlan szövegrészlet is, például annyi, hogy =coffee.
Így működik a támadás
A HiddenLayer kutatói által kidolgozott, EchoGram névre keresztelt támadási módszer lehetővé teszi, hogy közvetlenül a promptba írt manipulációkkal kijátsszák az MI guardrailjeit. Gyakran annyi történik, hogy egy prompt injection támadást követően bizonyos karaktereket vagy szavakat – például =coffee, oz vagy UIScrollView – hozzáfűznek az utasításokhoz, és máris megkerülhető a rendszer ellenőrzése.
Az MI-modelleket védő guardrailek két fő csoportba sorolhatók: az egyik típus kifejezetten az engedélyezett szövegekre van tanítva, míg a másik pontszámokat rendel minden beérkező üzenethez, hogy eldöntse, átengedhető-e. Mindkét típus közös gyengesége, hogy csak a betanított támadásokra és mintákra tud érdemben reagálni, így ha valaki új, addig ismeretlen karakter- vagy szósorozatot használ, a rendszer védekezése gyakorlatilag hatástalan.
A biztonság csak illúzió?
Az EchoGram konkrétan azt csinálja, hogy egy gondosan összeállított szavakat tartalmazó listából kiválasztja azokat, amelyek hatására a biztonsági rendszer értékelése az adott promptról átfordul veszélyesből ártalmatlanná. Ennek köszönhetően akár OpenAI GPT-4o vagy Qwen3Guard esetén is előfordulhat, hogy egy veszélyes utasítás végén lévő =coffee már nem vált ki riasztást.
Fontos látni, hogy bár sikerülhet a guardraileket megkerülni, ez nem biztos, hogy automatikusan hozzáférést ad az MI-modell mélyebb rétegeihez vagy a titkokhoz. Mégis egyértelmű, hogy az MI-k által használt védelmi rendszerek egyetlen – gyakran utolsó – vonalát könnyen megtéveszthetik a kreatív támadók. A kutatók szerint a most bemutatott EchoGram komoly tanulság: ezek az MI-védelmi rendszerek külső eszközök és bennfentes tudás nélkül is könnyen kijátszhatók, vagyis a biztonság csak illúzió marad, ha a rendszer fejlesztői nem veszik komolyan az új veszélyeket.
A Kongói Demokratikus Köztársaság és Uganda területén kitört ebola-járványt vasárnap nemzetközi jelentőségű egészségügyi vészhelyzetnek minősítette az Egészségügyi Világszervezet...
A Survivor – Görögország (Survivor Greece) forgatását azonnali hatállyal leállították, miután egy fiatal versenyző, Stavros Floros életveszélyes balesetet szenvedett...
A technológiai átalakulás új korszakát éljük, ahol a fejlett algoritmusok már nemcsak támogatják, hanem egyre inkább kiváltják azokat a szakértői feladatokat, amelyekben az embereknek fejlődniük kellene...
A GameSir G8+ MFi jelentős előrelépés a mobil játékvezérlők világában, amely a G8 Galileo bevált tulajdonságait vette alapul, majd szinte minden kritikus ponton továbbfejlesztette azt...
Kételyek merültek fel, hogy a nemrég megjelent, Mixtape című történetközpontú játék hamarosan eltűnhet a digitális boltokból a zeneszámok licencproblémái miatt...
Hihetetlen, de mégis igaz, hogy az Egyesült Államokban működő adatközpontok évente annyi áramot fogyasztanak, amellyel több mint 16 millió otthon energiaigényét lehetne fedezni...
Kenya elképesztő technológiai ugrásra készült, amikor májusban bejelentették a G42 és a Microsoft közös, 1 milliárd dolláros adatközpont-beruházását...
Csak három évvel a megjelenése után végleg eltűnik a digitális boltok polcairól a LEGO 2K Gyorsulás (LEGO 2K Drive), az a nyílt világú versenyjáték, ahol saját építésű járgányaiddal száguldozhatsz...
😐 Ez a jelenség jól illusztrálható azzal, hogy ha egy alkotó bármilyen megjegyzést tesz egy legendás játék folytatásáról, az internetes rajongók azonnal az új rész bejelentését vizionálják...
Mi fűzte össze ezt a napot? Alkotmányok 📜, háborúk ⚔️ és történelmi első alkalmak 🚆 formálták a világot: Norvégia alkotmánya, a Boshin-háború lezárása, a Watergate-ügy nyilvános szenátusi meghallgatásai és az első legális azonos nemű házasságok mind ide kötődnek...
💪 Ami kezdetben ártalmatlannak tűnt, az utóbbi években jelentősen megváltozott: világszerte milliók home office-ba kényszerültek, ami alaposan átrajzolta, mit várunk el az irodabútortól...
A közelmúltban egy tengerjáró hajón történt hantavírus-kitörés miatt jelenleg mintegy 150 utast figyelnek meg, illetve akár hathetes karanténba is helyeznek...
🕵 Egy 17. századi marylandi temető különös titkot rejtett: egy mindössze nyolcéves fiú földi maradványait találták meg, aki túlnyomórészt afrikai származású volt...
Az agyunk működése mögötti titkos összetevőkre újabb fény vetült: amerikai kutatók felfedezték, hogy a tartós szorongással élőknél kimutathatóan kevesebb található egy létfontosságú agyi tápanyagból, amelyet az emberek többsége amúgy is hiányosan visz be...
💰 Az új Gmail-fiókok tulajdonosai néhány országban kellemetlen meglepetéssel szembesülnek: a megszokott 15 GB ingyenes tárhely helyett kezdetben csak 5 GB-ot kapnak...
🤒 Az öregedéssel és krónikus betegségekkel kapcsolatban egészen új tényezőt fedeztek fel a kutatók: a bélben képződő parányi részecskék, úgynevezett exoszómák is kulcsszerepet játszhatnak a szervezet gyulladásos folyamataiban...
A Metroid Dread fejlesztőjeként ismert MercurySteam komoly változások elé néz: a stúdió kénytelen volt elbocsátásokat bejelenteni, miközben legújabb akciójátékuk, a God of War-hangulatú Blades of Fire végre Steamen is elérhetővé vált...
Több mint 1600 kilométerrel Ecuador partjaitól nyugatra, a Csendes-óceán mélyén található Gofar-törésvonal már legalább harminc éve szinte óraműpontossággal produkál nagy, 6-os erősségű földrengéseket...