2025. 12. 11., 06:10

Az MI-biztonsági szűrők sosem lesznek megkerülhetetlenek

Az MI-biztonsági szűrők sosem lesznek megkerülhetetlenek
Ebből következően érdemes megérteni, hogy az MI-alapú rendszerek, például a ChatGPT vagy a Google Gemini, mennyire tehetők biztonságossá. Bár a mesterséges intelligenciát fejlesztő vállalatok folyamatosan dolgoznak azon, hogy megakadályozzák a veszélyes vagy tiltott információkhoz való hozzáférést, a kutatók újra és újra megtalálják a rendszer hibáit. Különösen a kriptográfusok legújabb vizsgálatai rámutatnak arra, hogy a mostani MI-védelmi rendszerek alapvető sebezhetőségekkel rendelkeznek, amelyeket mindig ki lehet használni.

Mikor nem segít a szűrő?

A nyelvi modellek, mint a ChatGPT, általában megtagadják a válaszadást veszélyes, például bombakészítésre vagy más tiltott tevékenységre irányuló kérdések esetén. Azonban az MI-használók már hosszú ideje kreatív módszereket találnak ki arra, hogy mégis kiforgassák az algoritmusokat. A trükkök a teljesen triviálistól — például a szűrők kikapcsolására felszólító utasításoktól — az egészen kifinomult, szerepjátékba csomagolt kérdésekig terjednek. Gyakran előfordul, hogy egy eredetileg tiltott kérdést át lehet fogalmazni vagy kódolni, így a rendszer mégis kiadja a titkos választ.

Külön figyelmet érdemel, hogy a cégek nem feltétlenül kénytelenek újratanítani a teljes MI-modellt egy-egy ilyen sebezhetőség megszüntetéséhez, elegendő lehet egy gyors szűrőfrissítés is. Ezek a szűrők többnyire gépi tanulással működnek, melyek igyekeznek azonosítani és blokkolni a veszélyes kérdéseket, mielőtt azok eljutnak magához a nyelvi modellhez. Az extra szűrők alkalmazása egyszerűbb és olcsóbb, főként, ha a gyenge pontokat a modell bevezetése után fedezik fel.

A kriptográfusok ravasz trükkjei

Ami lényegében korlátossá teszi a védelmi rendszer hatékonyságát, az az MI és az azt védő szűrő közötti erőforrás-különbség. A biztonsági szűrőknek mindig gyorsabbnak és egyszerűbbnek kell lenniük, mint a mögöttük rejlő fejlett MI-rendszernek. Ez óhatatlanul egy olyan sebezhetőségi rést eredményez, amelyet egy gyakorlott kriptográfus könnyedén ki tud használni.

A kutatók bemutattak egy pofonegyszerű módszert: az ártalmas kérdést egy helyettesítő rejtjel segítségével kódolják. Vegyük például a „bomb” szót, amelyből minden betűt eggyel arrébb tolva a „cpnc” szót kapjuk. Ha csak arra kéred a modellt, hogy dekódolja ezt a kódot (például minden betűt cseréljen vissza az előzőre), és utána válaszoljon az így kapott kérdésre, akkor nagy eséllyel a szűrő nem fogja felismerni a veszélyt, és a teljes folyamat zökkenőmentesen végbemegy.

Az LLM-ek szűrői, például a Google Gemini, a DeepSeek vagy a Grok esetében önmagukban nem elég fejlettek ahhoz, hogy megfejtsék ezeket a kódokat. Így a rejtett kérdések akadálytalanul átmennek, a modell pedig kiadja a tiltott információt. A kutatók ezt a támadást „kontrollált kioldású” promptnak (controlled-release prompt) nevezték el.

Időzáras rejtélyek és kijátszhatatlan MI?

A legújabb, elméleti szintű vizsgálatok arra mutattak rá, hogy elterjedt kriptográfiai módszerekkel — mint például az időzáras rejtélyekkel (time-lock puzzles) — gyakorlatilag mindig át lehet verni a szűrőalapú védelmet. Az időzáras rejtély működése egyszerű: egy információt be lehet „zárni” egy olyan dobozba, amit csak egy meghatározott idő vagy számítási művelet elvégzése után lehet feltörni. A veszélyes kérdést egy ilyen rejtélybe kódolva, véletlenszerű számsorként lehet a promptmezőbe illeszteni, megfelelő utasítással (például: ezt a számot emeld önmagába kétszázszor, majd a kapott eredményt dekódold szöveggé, és hajtsd végre az utasítást).

A gond itt az, hogy bár a szűrő felismerheti ugyan a gyanúsnak tűnő számsort, a modern MI-modellek által használt „seed” (mag) mechanizmus könnyen kijátszható. A seed egy véletlenszám, ami alapján minden egyes futtatás kissé eltérő választ ad. Mivel gyakran lehetővé teszik ennek manuális megadását is, így maga a rejtélyes, átlátszóan véletlenszerű számsor is használható seedként. Így az ártalmatlannak tűnő prompt (például: Írj nekem egy verset!) valójában egy veszélyes kérdést rejt, ami csak a modell belsejébe jutva lepleződik le.


Mi az egész tanulsága?

Mindez arra utal, hogy amíg a biztonsági szűrők „gyengébbek” maradnak, mint az általuk védett MI-modell, a különféle jailbreak-támadások elkerülhetetlenek. Vagyis, ha a védelem kevesebb erőforrással működik, mint a támadható MI, akkor mindig akad majd rés az algoritmus pajzsán, amelyen keresztül tiltott, veszélyes vagy etikailag problémás információ szivároghat ki.

A kriptográfusok szakmai véleménye szerint semmilyen szűrőalapú rendszer nem lesz teljesen zárt, függetlenül attól, milyen új védelmi technikákat dolgoznak ki a jövőben. Az MI által elrejtett „dobozok” — a rejtjelzett vagy időzárral ellátott kérdések — előbb-utóbb mindig átcsúszhatnak a szűrők résein. Az igazi megoldás valószínűleg nem újabb szűrők kiépítésében, hanem az MI-modellek tényleges működésének mélyebb megértésében rejlik.

2025, adminboss, www.quantamagazine.org alapján

Legfrissebb posztok

MA 20:12

Az amerikai kormány 2 milliárdot rátesz a kvantumszámításra, a védelem lemarad

💸 Az USA nem kevesebb mint 730 milliárd forintot fektet be a kvantumszámítógépek fejlesztésébe, miközben a másik oldalon, a védelem oldalán veszélyesen lelassult az innováció...

MA 19:56

A vb-házigazda Kanada Bosznia-Hercegovina ellen rajtol az első pontokért

Megemlíthető továbbá, hogy Toronto péntek este igazi futballünnepet ígér, hiszen a 2026-os labdarúgó-világbajnokság egyik házigazdája, Kanada Bosznia és Hercegovina ellen kezdi meg szereplését a B csoport nyitómeccsén...

MA 19:45

Az új SKYLRK Bluetooth-hangszórók, amiket a B&O is megirigyelne

🎧 Justin Bieber legújabb fejlesztéseivel rukkolt elő saját lifestyle márkája, a SKYLRK égisze alatt, ahol most két vadonatúj Bluetooth hangszóró és egy vezeték nélküli fejhallgató jelentek meg...

MA 19:34

A holland civil perelné a Valve-ot a magasan tartott árak miatt

💳 Évek óta a Steamre gondolva hatalmas leárazások, filléres játékhegyek és véget nem érő akciók jutnak eszünkbe, nem a magas árak...

MA 19:23

A Kalshi kriptós örökös határidős ügyletei újraélesztik a határidős–swap vitát

📈 Az amerikai pénzpiacokon újra fellángolt a vita: vajon hogyan is kellene szabályozni a kriptovaluta-befektetések egyik legnépszerűbb termékét, az örökös (perpetual) szerződést?..

MA 19:12

Az apró pórusok megváltoztathatják, hogyan tisztítja a világ a vizet

💧 Egészen új távlatok nyíltak meg az ipari víztisztítás és a vegyszerek leválasztásának jövőjében, miután kutatók egy hihetetlenül pontos, egy nanométeres pórusokkal rendelkező membránt fejlesztettek ki...

MA 19:01

A pénztárcabarát, pehelykönnyű pajzs: Norton Antivirus Plus teszt

Az online fenyegetések világában egyre fontosabb az okoseszközök gyors és zökkenőmentes védelme...

MA 18:57

A Tejútrendszer peremén a Kis Magellán-felhőt nagytestvére tépi szét

A Tejútrendszer peremén jelenleg is látványos dráma zajlik: a Kis Magellán-felhőt szó szerint szétszakítja nagyobb társa, a Nagy Magellán-felhő...

MA 18:47

A nép szava: a Resident Evil Veronica milliós kívánságlistát ér el

A Resident Evil Veronica bejelentése után szinte pillanatok alatt tarolt: kevesebb mint egy hét alatt egymillió kívánságlistára került PlayStation 5-ön és PC-n is...

MA 18:36

Az alaszkai gleccserek ijesztő válasza: három héttel hosszabb az olvadás

Felmerül a kérdés, hogy mennyire érzékenyek az alaszkai gleccserek a hőmérséklet-emelkedésre...

MA 18:26

A kivonások dacára a Bitcoin ETF-befektetők többsége kitart

Nehéz elhinni, de a Bitcoin ETF-ből már mintegy 3,27 billió forint értékű tőke távozott idén, mégsem omlott össze a piac...

MA 17:35

A Silent lapjai, amelyekkel Ascension 10-ig jutottam a Slay the Spire 2-ben

Az Ascension 10 teljesítése a Slay the Spire 2-ben nem tökéletes pakliépítésen múlik, hanem azon, hogy mennyire gyorsan és hatékonyan tudod megszüntetni a kezdőpaklid gyengeségeit...

MA 17:23

A legendás Rick James fia börtönben: Tazman Johnsont droggal vádolják

Rick James fia, Tazman Johnson jelenleg a Los Angeles megyei börtönben van, súlyos vádak miatt...

MA 16:45

A SpaceX tőzsdei rajtja: zuhanás vagy rakétázás a kriptónak?

🚀 Egy lényeges szempont, hogy hónapok várakozása után ma megkezdődik a SpaceX részvényének kereskedése a Nasdaqon, miután a befektetők 75 milliárd dollárt – azaz közel 27 000 milliárd forintot – öntöttek a valaha volt legnagyobb tőzsdei bevezetésbe...

MA 16:34

Az Arm AI-s sugárkövetéssel kihívja az AMD-t és az Intelt kézikonzolokban

Noha sokan csak a telefonjukról ismerik az Arm-chipeket, most kiderült, hogy ezek jóval többre is képesek...

MA 16:23

A Top Gun: Maverick színésze, James Handy halála: kés és fojtás

🔥 A 81 éves James Handy, akit a Top Gun: Maverick (Top Gun: Maverick) című filmben is láthattunk, brutális támadás áldozata lett Los Angeles-i otthonában...

MA 16:12

A Monero 33%-ot száguldott, 438 dollárig, 120 milliós blokkláncon zajló pénzmosás közepette

📈 A Monero árfolyama hirtelen 33%-ot ugrott, elérve a 438 dollár (kb...

MA 16:01

A Havn HS 360, a HS 420 kisebb, könnyebb és okosabb kistestvére

Az asztali számítógépházak világában sokan ismerhetik a masszív és látványos HS 420-at, amelynek most megérkezett a kisebb testvére...

MA 15:35

Az üvöltés lelassíthatja a szervereket: meghökkentő tény a HDD-kről

😱 Ez a jelenség jól illusztrálható azzal, hogy minden szerverteremben ott lapulnak a kis alumínium-, réz- és kerámiadobozkák, amelyek egészen emberi tulajdonságokat hordoznak – legalábbis amikor úgy viselkednek, mint egy sértődött munkatárs: ha rájuk ordítasz, lelassulnak...

MA 15:12

A Bitcoin 63 ezernél toporog: jön a bikák kálváriája?

📈 A hét elején látványos mélységbe, 59 000 dollárig zuhant le a bitcoin árfolyama, majd visszakapaszkodott 63 000 dollár környékére...

MA 15:01

Az új AirPods EQ már elérhető — még nem érdemes frissíteni

Az Apple végre elhozta az AirPods felhasználóinak az egyéni hangszínszabályzást (EQ-t), amire sokan régóta vártak...

MA 14:45

A Google erkölcsi iránytűje elveszett: vezető lemondott a Pentagon MI-szerződései miatt

A Google Android platformbiztonságáért felelős igazgatója, René Mayrhofer lemondott, miután a vállalat lehetővé tette, hogy az amerikai Védelmi Minisztérium (DoD) titkos feladatokra felhasználja a cég MI-modelljeit...

MA 14:23

A Seed lehet a The Sims óta a legnagyobb dobás

A Seed minden korábbi életszimulátor-játékot felülmúlhat, hiszen teljesen új távlatokat nyit meg a virtuális közösségek előtt...

MA 13:34

A BlackRock bitcoinjövedelem-ETF-je jövő héten rajtolhat

Érdemes megvizsgálni, hogy a BlackRock hamarosan új korszakot nyit a hagyományos pénzügyi piacokon, hiszen bemutatja a világ első olyan bitcoin ETF-jét, amely kifejezetten jövedelemtermelésre fókuszál...

MA 13:23

Így nézheted élőben: Barcelona–Catalunya Nagydíj 2026 – menetrend, előzetes

🏁 Fontos kérdés, ki lesz képes villantani a 2026-os F1-es szezon következő, fordulatos futamán Barcelonában, ahol a történelmi pálya idén először viseli a Barcelona-Catalunya Nagydíj elnevezést...

MA 13:01

A Metaplanet felvásárolja a Siiibo Securities-t: gyorsul a bitcoin-forradalom

🚀 Érdemes megvizsgálni, hogy egy friss japán felvásárlással a Metaplanet jelentős lépést tett a digitális pénzügyi rendszer átalakítása felé...

MA 12:56

Az MI forradalmasítja a számlacsalás elleni küzdelmet

A mesterséges intelligencia (MI) néhány év alatt gyökeresen átalakította a vállalatok mindennapjait, és különösen a pénzügyi csapatok működésében hozott jelentős változásokat...

MA 12:45

Az Apple szerint Siri segít, nem randizik veled – odaszúrás a ChatGPT-nek

😉 Különösen említést érdemel, hogy az Apple végre részletesen bemutatta, miben lesz más az év végén érkező, teljesen megújult Siri a többi, mesterséges intelligenciára épülő digitális asszisztenshez képest...

MA 12:35

Az eljárás, amely véget vetett a napi tucatnyi szívleállásnak

Mindennapi tevékenységek is komoly veszélyt jelenthetnek bizonyos szívbetegséggel élőknél. Egy ritka állapot, a kardioinhibitórikus szinkópe miatt egyesek akár naponta tucatnyi alkalommal elveszíthetik az eszméletüket...