2025. 12. 11., 06:10

Az MI-biztonsági szűrők sosem lesznek megkerülhetetlenek

Az MI-biztonsági szűrők sosem lesznek megkerülhetetlenek
Ebből következően érdemes megérteni, hogy az MI-alapú rendszerek, például a ChatGPT vagy a Google Gemini, mennyire tehetők biztonságossá. Bár a mesterséges intelligenciát fejlesztő vállalatok folyamatosan dolgoznak azon, hogy megakadályozzák a veszélyes vagy tiltott információkhoz való hozzáférést, a kutatók újra és újra megtalálják a rendszer hibáit. Különösen a kriptográfusok legújabb vizsgálatai rámutatnak arra, hogy a mostani MI-védelmi rendszerek alapvető sebezhetőségekkel rendelkeznek, amelyeket mindig ki lehet használni.

Mikor nem segít a szűrő?

A nyelvi modellek, mint a ChatGPT, általában megtagadják a válaszadást veszélyes, például bombakészítésre vagy más tiltott tevékenységre irányuló kérdések esetén. Azonban az MI-használók már hosszú ideje kreatív módszereket találnak ki arra, hogy mégis kiforgassák az algoritmusokat. A trükkök a teljesen triviálistól — például a szűrők kikapcsolására felszólító utasításoktól — az egészen kifinomult, szerepjátékba csomagolt kérdésekig terjednek. Gyakran előfordul, hogy egy eredetileg tiltott kérdést át lehet fogalmazni vagy kódolni, így a rendszer mégis kiadja a titkos választ.

Külön figyelmet érdemel, hogy a cégek nem feltétlenül kénytelenek újratanítani a teljes MI-modellt egy-egy ilyen sebezhetőség megszüntetéséhez, elegendő lehet egy gyors szűrőfrissítés is. Ezek a szűrők többnyire gépi tanulással működnek, melyek igyekeznek azonosítani és blokkolni a veszélyes kérdéseket, mielőtt azok eljutnak magához a nyelvi modellhez. Az extra szűrők alkalmazása egyszerűbb és olcsóbb, főként, ha a gyenge pontokat a modell bevezetése után fedezik fel.

A kriptográfusok ravasz trükkjei

Ami lényegében korlátossá teszi a védelmi rendszer hatékonyságát, az az MI és az azt védő szűrő közötti erőforrás-különbség. A biztonsági szűrőknek mindig gyorsabbnak és egyszerűbbnek kell lenniük, mint a mögöttük rejlő fejlett MI-rendszernek. Ez óhatatlanul egy olyan sebezhetőségi rést eredményez, amelyet egy gyakorlott kriptográfus könnyedén ki tud használni.

A kutatók bemutattak egy pofonegyszerű módszert: az ártalmas kérdést egy helyettesítő rejtjel segítségével kódolják. Vegyük például a „bomb” szót, amelyből minden betűt eggyel arrébb tolva a „cpnc” szót kapjuk. Ha csak arra kéred a modellt, hogy dekódolja ezt a kódot (például minden betűt cseréljen vissza az előzőre), és utána válaszoljon az így kapott kérdésre, akkor nagy eséllyel a szűrő nem fogja felismerni a veszélyt, és a teljes folyamat zökkenőmentesen végbemegy.

Az LLM-ek szűrői, például a Google Gemini, a DeepSeek vagy a Grok esetében önmagukban nem elég fejlettek ahhoz, hogy megfejtsék ezeket a kódokat. Így a rejtett kérdések akadálytalanul átmennek, a modell pedig kiadja a tiltott információt. A kutatók ezt a támadást „kontrollált kioldású” promptnak (controlled-release prompt) nevezték el.

Időzáras rejtélyek és kijátszhatatlan MI?

A legújabb, elméleti szintű vizsgálatok arra mutattak rá, hogy elterjedt kriptográfiai módszerekkel — mint például az időzáras rejtélyekkel (time-lock puzzles) — gyakorlatilag mindig át lehet verni a szűrőalapú védelmet. Az időzáras rejtély működése egyszerű: egy információt be lehet „zárni” egy olyan dobozba, amit csak egy meghatározott idő vagy számítási művelet elvégzése után lehet feltörni. A veszélyes kérdést egy ilyen rejtélybe kódolva, véletlenszerű számsorként lehet a promptmezőbe illeszteni, megfelelő utasítással (például: ezt a számot emeld önmagába kétszázszor, majd a kapott eredményt dekódold szöveggé, és hajtsd végre az utasítást).

A gond itt az, hogy bár a szűrő felismerheti ugyan a gyanúsnak tűnő számsort, a modern MI-modellek által használt „seed” (mag) mechanizmus könnyen kijátszható. A seed egy véletlenszám, ami alapján minden egyes futtatás kissé eltérő választ ad. Mivel gyakran lehetővé teszik ennek manuális megadását is, így maga a rejtélyes, átlátszóan véletlenszerű számsor is használható seedként. Így az ártalmatlannak tűnő prompt (például: Írj nekem egy verset!) valójában egy veszélyes kérdést rejt, ami csak a modell belsejébe jutva lepleződik le.


Mi az egész tanulsága?

Mindez arra utal, hogy amíg a biztonsági szűrők „gyengébbek” maradnak, mint az általuk védett MI-modell, a különféle jailbreak-támadások elkerülhetetlenek. Vagyis, ha a védelem kevesebb erőforrással működik, mint a támadható MI, akkor mindig akad majd rés az algoritmus pajzsán, amelyen keresztül tiltott, veszélyes vagy etikailag problémás információ szivároghat ki.

A kriptográfusok szakmai véleménye szerint semmilyen szűrőalapú rendszer nem lesz teljesen zárt, függetlenül attól, milyen új védelmi technikákat dolgoznak ki a jövőben. Az MI által elrejtett „dobozok” — a rejtjelzett vagy időzárral ellátott kérdések — előbb-utóbb mindig átcsúszhatnak a szűrők résein. Az igazi megoldás valószínűleg nem újabb szűrők kiépítésében, hanem az MI-modellek tényleges működésének mélyebb megértésében rejlik.

2025, adminboss, www.quantamagazine.org alapján

Legfrissebb posztok

MA 20:37

Az MI felpörög: a GPT-5.3 Codex Spark sebességrekordot dönt

⚡ Az OpenAI bemutatta a GPT-5.3-Codex-Spark nevű új modelljét, amelyet kifejezetten kódolási asszisztensként fejlesztett...

MA 20:19

A rózsa trónja: hogyan hódította meg a Valentin-napot?

🌹 A rózsa napjainkban a szenvedély, a romantika és a szerelem örök szimbóluma – a világon minden évben rengeteg rózsát termesztenek, és a Valentin-napon adják el a legtöbbet...

MA 19:55

Az agy mintájára születnek a jövő szuperszámítógépei

💻 Fontos kérdés, miként lehet a rendkívül energiaigényes szuperszámítógépes számításokat hatékonyabbá tenni...

MA 19:38

A világegyetem vandáljai: a száguldó fekete lyukak nyomában

👽 A James Webb-űrtávcső új megfigyelései szerint a fekete lyukak nem mindig maradnak a helyükön: néhányuk elképesztő sebességgel száguld keresztül az univerzumon, miközben új csillagokat hagynak maguk után...

MA 19:20

Az MI elvérzik a legkeményebb matekteszten

Az elmúlt héten komoly próbának vetették alá a legfejlettebb MI-rendszereket: tizenegy vezető matematikus adott tíz darab, eredetiséget igénylő, úgynevezett „lemma”-problémát, amelyek megoldását egy hét alatt várták a mesterséges intelligenciától...

MA 19:01

A legújabb trükk: papírlevéllel fosztják ki a kriptotárcákat

Levelet küldenek a csalók a hardveres kriptotárcák, például a Trezor és a Ledger felhasználóinak, hogy rávegyék őket: adják meg a pénztárcájuk helyreállításához szükséges helyreállító kifejezést (seed phrase)...

MA 18:56

Az MI a kétkezi munka világát is fenekestül felforgatja

Olyan korszakot élünk, amikor bármikor bekövetkezhetnek nagyobb fennakadások az alapvető szolgáltatásokban...

MA 18:38

A filléres kütyü, ami megmentette a szobanövényeimet

Érdekes felvetés, hogy mennyire nehéz életben tartani a szobanövényeket, főleg télen...

MA 18:20

Az Amazon Ring dobja a rendszámfigyelést – Túl sok a Nagy Testvér?

🚘 Az Amazon tulajdonában lévő Ring, a népszerű okoscsengő-gyártó, felbontotta együttműködését a Flock Safety céggel, amely az USA vezető rendszámfelismerő kamerarendszereit üzemelteti...

MA 18:02

Az aktív hűtéses Qi2-töltő új korszakot nyit a vezeték nélküli töltésben

🔋 Érdekes felvetés, hogy a vezeték nélküli töltés mennyire megosztó: kényelmes ugyan, de sokáig a lassú töltés, a túlmelegedés és az akkumulátorkímélés hiánya miatt inkább kábelre szavaztak a techrajongók...

MA 17:56

Az űr mélyének titkai: Mi lesz a Kuiper-öv sorsa?

🛰 Külön említést érdemel, hogy a Neptunuszon túl, a Naprendszer peremén húzódik egy rejtélyekkel teli övezet: a Kuiper-öv...

MA 17:38

Az íróasztaljóga: Szabadulj meg a gamer hátfájástól percek alatt

Az ülőmunka és a videojátékok hosszú órái szinte észrevétlenül rontják a testtartást, ami váll- és hátfájdalmakkal, feszes csípőhajlító izmokkal és gyengülő törzsizmokkal jár...

MA 17:19

Az évtized nagy kérdése: Bitcoin vagy XRP lesz a nyertes?

A Bitcoin és az XRP teljesen eltérő szerepet töltenek be a kriptovaluták világában...

MA 17:01

Az infláció hűlésével ismét 70 ezer dollárig száguld a Bitcoin

📈 A bitcoin árfolyama idén februárban egy komoly zuhanás után visszatért a 70 ezer dolláros (mintegy 25,6 millió forintos) szintre, miután az amerikai inflációs adatok a vártnál alacsonyabbak lettek, és a befektetők kockázatvállalási kedve is megnőtt...

MA 16:57

A legjobb omega-3 készítmények rangsora: melyiket érdemes venni?

Külön említést érdemel, hogy az omega-3 zsírsavak a szervezetben létfontosságú szerepet játszanak: támogatják sejtjeink működését, energiaszolgáltatók, és jótékonyan hatnak a szívre is...

MA 16:19

Az öt legegészségesebb diéta: tényleg meghosszabbítják az életünket?

🍎 Ebből következően érdemes megérteni, hogy a gyümölcsökben, zöldségekben gazdag étrend nemcsak rövid távon javítja az életminőséget, hanem mérhetően hozzájárulhat a hosszabb élethez is...

MA 16:01

Az IBM QRadar végre összeállt a Criminal IP-vel

Az MI-alapú fenyegetésfelderítő platform, a Criminal IP (criminalip.io) mostantól teljes mértékben integrálható az IBM QRadar SIEM és QRadar SOAR megoldásaival...

MA 15:56

Az egekbe szökő memóriaárak térdre kényszerítik a routerpiacot

A távközlési szolgáltatók kemény akadályba ütközhetnek a 2026-os nagysebességű hálózatkiépítések során...

MA 15:37

Az axolotl csodája: teljesen képes újjáépíteni immunrendszerét

🦕 A mexikói axolotl, a vízi szalamandra már híres arról, hogy képes újranöveszteni elvesztett végtagjait és gerincvelőjét...

MA 15:20

Egy óriáscsillag robbanás nélkül tűnt el – fekete lyuk született Andromédában

🪾 Egy óriáscsillag látványos szupernóva helyett szinte hangtalanul omlott fekete lyukká az Androméda-galaxisban...

MA 14:20

A viking óriás agyműtétje és Kína zöld forradalma: két világot rengető áttörés

🧠 Jól példázza mindezt, hogy Kína mára elképesztő mennyiségű fát ültetett, és így egyik legnagyobb sivatagának jelentős része mára hatalmas szén-dioxid-elnyelő területté vált...

MA 14:02

A gyémántalapú félvezetők forradalma: megérkezett a valódi szuperanyag

💎 Az elmúlt évtizedekben a mérnökök a félvezetőtechnológiában próbálják bevetni a gyémántot, a szilícium lehetséges alternatívájaként...

MA 13:55

A kanyaró visszatért: már közel ezren fertőzöttek

Február közepére már közel 1000 kanyarós megbetegedést regisztráltak az Egyesült Államokban, miután az oltottsági arányok tovább csökkentek, és a tavalyi meredek növekedés után az esetszám tovább emelkedik...

MA 13:37

A Nintendo VR-forradalma: Mario és Zelda jön a Switch 2-re

A Nintendo ismét előállt valami meglepővel: a Virtual Boy kiegészítőjével végre VR-módban játszhatsz olyan nagyágyúkkal, mint a Super Mario Odyssey, a Super Smash Bros...

MA 13:19

A Nova Launcher marad az androidosok első számú kedvence?

📱 Nehéz volna túlbecsülni, milyen hullámvasúton ment keresztül az elmúlt években a Nova Launcher...

MA 13:01

Az új Gboard: Billentyűzet, vagy már inkább érintőpad?

👌 A Gboard hamarosan egy új kurzormódot kaphat, amely a billentyűzetet virtuális érintőpaddá alakítja...

MA 12:37

A Wendy’s százával zárja be éttermeit – bajban a lánc?

Az amerikai Wendy’s több száz éttermének bezárását jelentették be, miután sorozatosan romlottak az amerikai eladások...

MA 12:20

Az aranykornak vége: miért bukott meg a VR?

Tipikus eset, amikor hatalmas ígéretekkel indítanak el egy új technológiát, amely végül nem váltja be a hozzá fűzött reményeket...

MA 12:01

Az újabb fintech-botrány: tömegesen szivárogtak ki a Figure ügyféladatai

A Figure Technology, a blokkláncra épített hitelezési vállalat megerősítette, hogy hackertámadás érte a rendszerét...