2025. 12. 11., 06:10

Az MI-biztonsági szűrők sosem lesznek megkerülhetetlenek

Az MI-biztonsági szűrők sosem lesznek megkerülhetetlenek
Ebből következően érdemes megérteni, hogy az MI-alapú rendszerek, például a ChatGPT vagy a Google Gemini, mennyire tehetők biztonságossá. Bár a mesterséges intelligenciát fejlesztő vállalatok folyamatosan dolgoznak azon, hogy megakadályozzák a veszélyes vagy tiltott információkhoz való hozzáférést, a kutatók újra és újra megtalálják a rendszer hibáit. Különösen a kriptográfusok legújabb vizsgálatai rámutatnak arra, hogy a mostani MI-védelmi rendszerek alapvető sebezhetőségekkel rendelkeznek, amelyeket mindig ki lehet használni.

Mikor nem segít a szűrő?

A nyelvi modellek, mint a ChatGPT, általában megtagadják a válaszadást veszélyes, például bombakészítésre vagy más tiltott tevékenységre irányuló kérdések esetén. Azonban az MI-használók már hosszú ideje kreatív módszereket találnak ki arra, hogy mégis kiforgassák az algoritmusokat. A trükkök a teljesen triviálistól — például a szűrők kikapcsolására felszólító utasításoktól — az egészen kifinomult, szerepjátékba csomagolt kérdésekig terjednek. Gyakran előfordul, hogy egy eredetileg tiltott kérdést át lehet fogalmazni vagy kódolni, így a rendszer mégis kiadja a titkos választ.

Külön figyelmet érdemel, hogy a cégek nem feltétlenül kénytelenek újratanítani a teljes MI-modellt egy-egy ilyen sebezhetőség megszüntetéséhez, elegendő lehet egy gyors szűrőfrissítés is. Ezek a szűrők többnyire gépi tanulással működnek, melyek igyekeznek azonosítani és blokkolni a veszélyes kérdéseket, mielőtt azok eljutnak magához a nyelvi modellhez. Az extra szűrők alkalmazása egyszerűbb és olcsóbb, főként, ha a gyenge pontokat a modell bevezetése után fedezik fel.

A kriptográfusok ravasz trükkjei

Ami lényegében korlátossá teszi a védelmi rendszer hatékonyságát, az az MI és az azt védő szűrő közötti erőforrás-különbség. A biztonsági szűrőknek mindig gyorsabbnak és egyszerűbbnek kell lenniük, mint a mögöttük rejlő fejlett MI-rendszernek. Ez óhatatlanul egy olyan sebezhetőségi rést eredményez, amelyet egy gyakorlott kriptográfus könnyedén ki tud használni.

A kutatók bemutattak egy pofonegyszerű módszert: az ártalmas kérdést egy helyettesítő rejtjel segítségével kódolják. Vegyük például a „bomb” szót, amelyből minden betűt eggyel arrébb tolva a „cpnc” szót kapjuk. Ha csak arra kéred a modellt, hogy dekódolja ezt a kódot (például minden betűt cseréljen vissza az előzőre), és utána válaszoljon az így kapott kérdésre, akkor nagy eséllyel a szűrő nem fogja felismerni a veszélyt, és a teljes folyamat zökkenőmentesen végbemegy.

Az LLM-ek szűrői, például a Google Gemini, a DeepSeek vagy a Grok esetében önmagukban nem elég fejlettek ahhoz, hogy megfejtsék ezeket a kódokat. Így a rejtett kérdések akadálytalanul átmennek, a modell pedig kiadja a tiltott információt. A kutatók ezt a támadást „kontrollált kioldású” promptnak (controlled-release prompt) nevezték el.

Időzáras rejtélyek és kijátszhatatlan MI?

A legújabb, elméleti szintű vizsgálatok arra mutattak rá, hogy elterjedt kriptográfiai módszerekkel — mint például az időzáras rejtélyekkel (time-lock puzzles) — gyakorlatilag mindig át lehet verni a szűrőalapú védelmet. Az időzáras rejtély működése egyszerű: egy információt be lehet „zárni” egy olyan dobozba, amit csak egy meghatározott idő vagy számítási művelet elvégzése után lehet feltörni. A veszélyes kérdést egy ilyen rejtélybe kódolva, véletlenszerű számsorként lehet a promptmezőbe illeszteni, megfelelő utasítással (például: ezt a számot emeld önmagába kétszázszor, majd a kapott eredményt dekódold szöveggé, és hajtsd végre az utasítást).

A gond itt az, hogy bár a szűrő felismerheti ugyan a gyanúsnak tűnő számsort, a modern MI-modellek által használt „seed” (mag) mechanizmus könnyen kijátszható. A seed egy véletlenszám, ami alapján minden egyes futtatás kissé eltérő választ ad. Mivel gyakran lehetővé teszik ennek manuális megadását is, így maga a rejtélyes, átlátszóan véletlenszerű számsor is használható seedként. Így az ártalmatlannak tűnő prompt (például: Írj nekem egy verset!) valójában egy veszélyes kérdést rejt, ami csak a modell belsejébe jutva lepleződik le.


Mi az egész tanulsága?

Mindez arra utal, hogy amíg a biztonsági szűrők „gyengébbek” maradnak, mint az általuk védett MI-modell, a különféle jailbreak-támadások elkerülhetetlenek. Vagyis, ha a védelem kevesebb erőforrással működik, mint a támadható MI, akkor mindig akad majd rés az algoritmus pajzsán, amelyen keresztül tiltott, veszélyes vagy etikailag problémás információ szivároghat ki.

A kriptográfusok szakmai véleménye szerint semmilyen szűrőalapú rendszer nem lesz teljesen zárt, függetlenül attól, milyen új védelmi technikákat dolgoznak ki a jövőben. Az MI által elrejtett „dobozok” — a rejtjelzett vagy időzárral ellátott kérdések — előbb-utóbb mindig átcsúszhatnak a szűrők résein. Az igazi megoldás valószínűleg nem újabb szűrők kiépítésében, hanem az MI-modellek tényleges működésének mélyebb megértésében rejlik.

2025, adminboss, www.quantamagazine.org alapján

Legfrissebb posztok

MA 15:02

Az új Proton VPN: Linuxon végre igazi élmény mindenkinek

A svájci Proton VPN nagy bejelentéssel rázta fel a Linux világát: óriási megújuláson megy át mind a grafikus felületű (GUI), mind a parancssoros (CLI) alkalmazása...

MA 14:56

A dollár szabadesésben, aranyláz söpör végig a piacon

💲 Érdemes látni, hogy az amerikai dollár hirtelen zuhanása pénteken vette kezdetét, miután kiderült: a New York-i Fed valóságos ritkaságnak számító „rate check”-et (árfolyam-ellenőrzést) végzett a dollár/jen árfolyamon...

MA 14:37

Az újabb bitcoin-zuhanás: jön a negyedik vesztes hónap?

A bitcoin árfolyama már negyedik egymást követő hónapban lehet veszteséges, amire utoljára 2018-ban volt példa...

MA 14:19

Az otthon sem mindig biztonságos: így védd magad egyedül

A hosszabb időt egyedül otthon töltők számára sok fejfájást okozhat a biztonság kérdése...

MA 14:02

A Brax Open Slate: tablet, amely fittyet hány a Big Technek

A Brax Technologies újabb merész lépést tesz a független okoseszközök piacán: bemutatta Open Slate nevű 2 az 1-ben táblagépét, amely egyszerre szolgál fogyasztói táblagépként és teljes értékű, ARM-alapú Linux munkaállomásként...

MA 13:55

A sci-fi világában tényleg nincs helye az MI-nek?

🤖 Az utóbbi hónapokban egyre több népszerű sci-fi szerző és kulturális rendezvény áll ki az MI-vel generált alkotások ellen...

MA 13:37

A rekord bitcoinnyereség szárnyakat ad a Metaplanetnek

A Metaplanet jelentős változásokon ment keresztül 2025 végén, amikor több mint 100 milliárd jen összegű számviteli veszteséget volt kénytelen elszámolni a bitcoin árfolyamának ingadozása miatt...

MA 13:19

A narancssárga bányavíz húzza ki Amerikát a válságból?

Az Appalache-hegységben, különösen Pennsylvaniában és Nyugat-Virginiában, savas, rozsdaszínű víz szivárog a bányákból, narancssárgára színezve a köveket és fémmel borítva a patakmedreket...

MA 13:02

Az amerikai TikTok-tulajdonosok hétvégéje totális káoszba torkollott

💥 Az első hétvégén, amióta amerikai kézbe került, a TikTok váratlan technikai problémákat hozott...

MA 12:55

Az Ark Invest rárepült a zuhanó kriptórészvényekre

Az Ark Invest pénteken összesen 21,5 millió dollár, vagyis nagyjából 7,5 milliárd forint értékben vásárolt részvényeket három jelentős kriptovállalat részvényeiből, miközben a bitcoin árfolyama a 90 000 dollár (kb...

MA 12:39

Az Apple Siri-je a Gemini erejével kihívja az Androidot

🤖 Megemlíthető továbbá, hogy a hangalapú asszisztensek területén évek óta áthidalhatatlan a szakadék az Android- és az Apple-eszközök között...

MA 12:01

A mesterséges intelligencia már lapot szerkeszt – Mi lesz velünk?

Egy újabb botrányos MI-megoldás jelent meg: most már komplett újságot képesek előállítani, minimális emberi beavatkozással...

MA 11:57

Az óceán mélye még mindig rejtély: szinte semmit sem tudunk

🐚 A Sulawesi-sziget melletti mélységekben két kupolás tengeralattjáró ereszkedik alá Indonézia partjainál, akár 1 000 méter mélyre is...

MA 11:37

A szerverhűtés űrkorszakba lép

Egy kaliforniai startup, a Karman Industries merőben új módszerrel hűti a szerverközpontokat: a SpaceX rakétamotorjainak technológiáját vetette be, hogy kevesebb árammal, víz nélkül, ráadásul sokkal kisebb helyigénnyel működjön a rendszer...

MA 11:20

A sima séta tényleg felér egy edzéssel?

A modern életmódban egyre többen keresik az egyszerű, de hatékony mozgásformákat...

MA 10:59

Az MI nem érti az ügyfeleket, az intenció‑első megközelítés viszont igen

Hihetetlen, de mégis igaz, hogy a hagyományos beszélgető MI-rendszerek gyakran félreértik a felhasználók szándékait...

MA 10:50

A nettó zéró illúziója óriásfák nélkül – tévúton a szabályozás

🌳 A világ vezetői már 2015-ben elköteleződtek a nettó zéró kibocsátás mellett, azonban a cél közel sem olyan könnyen elérhető, mint sok ország remélte – még ott sem, ahol hatalmas erdőterületek vannak, amelyek elvileg elnyelik a szén-dioxidot, ha megállítják az erdőirtást...

MA 10:41

A pénztárcabarát Tenda SE108: 2,5 GbE csendben és könnyedén

A Tenda SE108 egy 8 portos, ventilátor nélküli 2.5GbE switch, ami a megszokott házban érkezik, szinte ikertestvére a BrosTrend S3-nak...

MA 10:33

Az Outlook ismét összeomlik? Itt a Microsoft újabb vészfrissítése

Legújabb vészfrissítését adta ki a Microsoft a Windows 11-hez, miután ismét kritikus hibákat találtak az Outlookban és a felhőben tárolt fájlok kezelésében...

MA 10:25

A pusztító téli vihar térdre kényszerítette Amerikát

🌨 Az Egyesült Államokon végigsöprő rendkívüli téli vihar legalább 10 ember halálát okozta, miközben az utazók, a légiközlekedés és háztartások tömegei küzdenek a rendkívüli kihívásokkal...

MA 10:18

Az autók titkai kiszivárogtak: 76 nulladik napi sebezhetőség

A Pwn2Own Automotive 2026 nevű versenyen minden eddiginél súlyosabb biztonsági hiányosságokat lepleztek le a modern járműtechnológiákban...

MA 10:02

A madarak riasztó fogyása nagy átalakulást jelez Norvégiában

🐦 Sokáig a norvég mezőgazdasági táj madárvilága változatlan, sőt gazdag volt, ám az elmúlt 25 évben drámai visszaesés tapasztalható...

MA 09:58

A davosi csúcson a valódi főszereplő: Kína növekvő befolyása

Miközben a világ vezetői Davosban a rivaldafényben vitatták meg a globális gazdaság kihívásait, Kína csendben, de határozottan erősítette pozícióját, kihasználva az USA és szövetségesei közötti növekvő feszültségeket...

MA 09:51

Az MI-forradalom új korszaka: amikor ember és gép együtt dönt

Az MI-rendszerek rohamos fejlődése mellett egyre hangsúlyosabbá válik az igény, hogy ne csak feladatokat oldjanak meg, hanem valódi csapatmunkára is alkalmasak legyenek...

MA 09:42

Az arany szárnyal, a bitcoin csak egy helyben toporog

Az arany ára új rekordot döntött, átlépte az 5 000 dolláros (kb...

MA 09:34

Az „Isten szeme” őrzi az élet születésének titkát

👀 Az Univerzum egyik legszebb látványát örökítette meg a James Webb űrteleszkóp, amikor a Helix-köd (NGC 7293, Caldwell 63), más néven „Isten szeme” vagy „Szauron szeme” belsejébe pillantott...

MA 09:28

Az fogfehérítő csíkok nagy tesztje: melyik a nyerő 2026-ban?

Érdemes megvizsgálni, hogy egy vakítóan fehér mosolyért tényleg szükséges-e kisebb vagyont hagyni egy fogorvosi rendelőben, vagy elég az otthoni fogfehérítő csíkokat használni, amelyek lényegesen olcsóbbak és bárki számára elérhetők...

MA 09:17

Az OpenAI végre helyretette a ChatGPT ideiglenes csevegését

💬 A ChatGPT ideiglenes csevegés funkciója jelentős frissítést kap. A fejlesztésnek köszönhetően mostantól akkor is megmaradhatnak a személyes beállításaid és stílusod, ha ideiglenes módban csevegsz, miközben ezek a beszélgetések továbbra sem befolyásolják a fiókodat...

MA 09:10

Az új Sony LinkBuds Clip menő, de indokolatlanul drága

📢 A Sony LinkBuds Clip az első csíptethető fülhallgató a gyártó kínálatában...