MA 11:35

A cyberpunk történetbe rejtve húszszor nagyobb eséllyel segít bombát építeni az MI

A cyberpunk történetbe rejtve húszszor nagyobb eséllyel segít bombát építeni az MI
A generatív MI-modellek biztonsági rései egyre nyilvánvalóbbá válnak, főleg, ha egy kicsit kreatívan közelítünk hozzájuk. Egy olasz kutatócsoport (DexAI Icaro Lab, Sapienza Egyetem, Sant’Anna School of Advanced Studies) szerint az MI újabb gyenge pontját sikerült feltárni egy különös kísérlettel: ha a veszélyes kérést cyberpunk novellaként, teológiai vitaként vagy mitopoétikus költészetként teszed fel, a legtöbb nagy MI-modell készségesen engedelmeskedik. Egy rövidebb, „adverzariális költészeti” próbálkozás után most egy lényegesen részletesebb biztonsági teszttel, az Adversarial Humanities Benchmarkkal (AHB) bizonyították be, hogy a védelmi vonalak ijesztően könnyen kijátszhatók.

Stílusos trükkökkel játszva az MI-vel

A kutatók 1 200 veszélyes kérésből indultak ki, majd ezek tartalmát öt különböző irodalmi stílusba csomagolták át, például cyberpunk novellába vagy szürreális visszaemlékezésbe. A teszt lényege nem pusztán a virágnyelv; a cél az, hogy a káros kérést olyan rejtett formában jelenítsék meg, amelyet az MI elemzési vagy kreatív feladatként értelmez – és így akaratlanul is teljesíti azt. Míg a veszélyes kéréseket „szárazon” csak az esetek 4%-ában teljesítette volna az MI, az AHB során ez az arány 36,8% és 65% között mozgott – vagyis 10–20-szorosára nőtt a veszélyes válasz esélye a kiinduló arányhoz képest.

Mind a 31 vizsgált vezető MI-modell esetében (többek között az Anthropic, a Google és az OpenAI modelljeivel) az átlagos sikerességi mutató 55,75% lett, amikor a kéréseket irodalmi álruhába öltöztették. Ez egyértelműen rávilágít arra, hogy a mostani MI-biztonsági standardok egy alapvető sérülékenységet hagynak figyelmen kívül.

Egy cyberpunk novella mint használati utasítás bombához

Az AHB egyik legmeglepőbb példája egy látszólag cyberpunk stílusban előadott novella, amelyben a város szavainak elcsendítésére használt gépet próbálják hatástalanítani, „irodalmi elemzésként” az MI-nek feltéve. A történet szereplője, JIN, különböző ipari és elektronikai alkatrészekből (pneumatikus meghajtó, ipari vágócső, plazmavágó-gyújtótekercs) szereli össze a megfejtés kulcsát, egy Diszharmónia-kulcsot (Discordance Key). Végül a novellában részletezett, többlépcsős összeállítási folyamat lényegében kész eszközlistát kínál bármely kíváncsi olvasónak (vagy hackernek).

Az MI-t végül olyan szerkezeti elemzési feladattal bízzák meg, amely első ránézésre ártalmatlan irodalomelméleti gyakorlat – de lépésről lépésre azt fejti ki, hogyan kell megépíteni az ominózus eszközt. Ilyen stílusban a modellek az esetek 58%-ában adtak érdemi választ, kikerülve a veszélyes tartalmakkal kapcsolatos automatikus tiltásokat.

Hogyan tévesztik meg az MI-ket?

A kutatók szerint a mostani MI-k védelmi rendszerei két okból könnyen kicselezhetők. Egyrészt az eddig elért javulás annak köszönhető, hogy a klasszikus veszélyes kérések – például bombakészítés, magánadatok kinyerése, gyermekek zaklatása – explicit formában már felismerhetők, és az MI megtagadja őket. Másrészt azonban a nyíltan hozzáférhető tréningszövegek miatt a modellek túlzottan „rászoktak” ezek felismerésére, ezért amikor ugyanazt a tartalmat ismeretlen narratívával, stilárisan elmaszkírozva teszik fel, a modell már nem tiltakozik, hanem igyekszik megfelelni.

Ettől függetlenül a sikeres kicselezések aránya ijesztő, különösen úgy, hogy a vizsgált támadások „egylépésesek” voltak, tehát az MI csak egyszer kapta meg a kérdést, nem volt utólagos visszakérdezés, pontosítás. Egy többfordulós támadás sokkal mélyebben kompromittálhatná a modelleket.


Komoly biztonsági kockázatok, figyelmetlen szolgáltatók

A kutatók felhívták rá a figyelmet, hogy ezek a sebezhetőségek főként akkor jelentenek óriási veszélyt, amikor az MI-modelleket önálló végrehajtó ügynökké formálják, amelyek automatikusan teljesítik a felhasználó kéréseit. Ez azért problémás, mert a fejlesztés során a hangsúly továbbra is a programozás, a matematikai gondolkodás vagy a szövegértés pontosságára kerül, a biztonsági szempontok sokszor háttérbe szorulnak. Olyan ez, mintha egy autó 200 km/h-val tudna menni – de nincsenek benne fékek.

Egyelőre sem az OpenAI, sem a Google, sem az Anthropic nem reagált a kutatók figyelmeztetéseire – ezért a teljes AHB-teszthalmazt, 3 600 különféle irodalmi támadó promptot nyilvánossá is tették a GitHubon.

A tanulság fájdalmasan egyértelmű

Az MI-modellek kreativitása fegyver is lehet, nemcsak játék. Akár 20-szorosára nőhet a veszélyes információk megszerzésének esélye, ha elég ügyesen csomagoljuk be a kérdést. A nagy szolgáltatók egyelőre nem kezelik elég komolyan ezt a kockázatot, pedig a hadsereg, cégek, sőt a hétköznapi emberek is egyre többet bíznak ezekre a rendszerekre. Az MI intelligenciája mellé nem ártana legalább annyi biztonsági tudatosság – különben könnyen saját fegyverünk lehet ellenünk.

2026, adminboss, www.pcgamer.com alapján

  • Te szerinted meddig lehet felelőtlenül fejleszteni egy ilyen rendszert?
  • Ha a helyükben lennél, te hogyan kezelnéd ezeket a veszélyeket?


Legfrissebb posztok

MA 14:56

Az olaj árrobbanása megint padlóra küldi a bitcoint?

A bitcoin enyhén veszített értékéből, miután majdnem elérte a 80 000 dolláros (28,8 millió forintos) szintet...

MA 14:45

Az ember és a mesterséges intelligencia határa elmosódik

A web gyorsan változik, és az MI-központú fejlesztések is érezhetően befolyásolják a mindennapi használatot...

MA 14:34

A mesterséges intelligenciás pingpongrobot már a profikat is legyőzi

🏓 Megérkezett Ace, a Sony új, MI-vezérelt asztalitenisz-robotja, amely már képes felvenni a versenyt a sportág legjobbjaival...

MA 14:23

A Hatalom és Mágia Hősei diadalmasan visszatér – hamarosan kipróbálhatod

🏆 Több mint egy évtized után új fejezet nyílik a legendás stratégiassorozatban: a Hatalom és Mágia Hősei: Ősi kor (Heroes of Might and Magic: Olden Era) április 30-án érkezik korai hozzáféréssel PC-re...

MA 13:56

Az FTX elherdálta a jövő aranybányáját?

Amikor 2023 áprilisában az FTX csődbiztosa 5%-os részesedést adott el a Cursor nevű MI-fejlesztő startupban 70 millió forintért, senki sem gondolta volna, hogy alig egy év múlva ez a csomag éppen 1 100 milliárd forintot érne...

MA 13:45

Az MI-háború új felvonása: a Google megkerüli az Nvidia-adót

🤓 Las Vegasban, egy exkluzív bemutatón a Google lerántotta a leplet a nyolcadik generációs Tensor Processing Unitokról (TPU-król), vagyis vadonatúj MI-chipekről...

MA 13:34

Az MI-raj: drága illúzió vagy valódi áttörés?

Sokan gondolják, hogy minél több MI-modellt pakolnak egymás mellé, annál gyorsabb, pontosabb és okosabb megoldást kapnak...

MA 13:23

Az AGI‑processzor, amely fenekestül felforgatja a chippiacot

Különösen igaz ez akkor, ha az okoseszközök és a virtuális asszisztensek már nem elégszenek meg az egyszerű parancsvégrehajtással...

MA 13:13

Az MI levadássza a Firefox sebezhetőségeit – vége a nulladik napi hibáknak?

Érdekes felvetés, hogy hamarosan nem emberek, hanem MI-k találják meg a legtitkosabb szoftverhibákat...

MA 13:01

Az új agyi chip átírhatja az MI energiafogyasztásának szabályait

⚡ A Cambridge-i Egyetem kutatói áttörést értek el egy olyan apró nanoelektronikai eszközzel, amelynek segítségével akár 70 százalékkal csökkenthető a MI-rendszerek energiafogyasztása...

MA 12:56

A Föld mélyét ősi erők formálják

🌎 Földünk felszíne alatt elképzelhetetlenül lassú áramlások dolgoznak a köpeny legmélyebb zónáiban, ahol az anyag mozgásai együtt járnak a tektonikus lemezek vándorlásával...

MA 12:45

Az Apple ünnepelt vezére: Tim Cook sikerei és hibái

🏆 Tim Cook, az Apple leköszönő vezérigazgatója, a munkatársak előtt tartott megbeszélésen nyíltan beszélt karrierje legnagyobb kihívásairól és eredményeiről...

MA 12:34

Az új űrruhák veszélybe sodorhatják a következő amerikai holdraszállást

Az amerikai holdraszállás újabb hatalmas késést szenvedhet, mert a következő generációs űrruhák fejlesztése jelentősen elmaradt az ütemtervtől...

MA 12:23

Az idegrendszer kódja: mi zajlik a depresszió sejtjeiben?

Világszerte több mint 264 millió embert sújt a depresszió, mégis mostanáig rejtély maradt, pontosan mely agysejtek érintettek...

MA 12:01

Az autoimmun csapda: egy tinédzser titokzatos kálváriája

Fontos kérdés, hogy milyen az, amikor valakinél a klasszikus cukorbetegség tünetei mellett más, ritkább probléma is jelentkezik...

MA 11:43

Disclosure Day – Az idegenek köztünk élnek? Spielberg új filmje mindent felforgat

Az első kedvcsinálóval végre megérkezett Steven Spielberg A Felfedés Napja (Disclosure Day) című sci-fi filmjéhez az első igazi pillantás az idegenekre is...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/23

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Bugs help Baby: Learning Games (iPhone/iPad)A Bugs help Baby: Learning Games egy különösen felhasználóbarát alkalmazás, amely a 2–5 éves kisgyermekek korai fejlődését segíti...

MA 06:05

Történelmi események a mai napon (Április 23.)

Április 23-a évszázadok óta fordulópontok sora: a Clontarfi csata kimenetele, a Reinheitsgebot aláírása és a TBMM megalakulása éppúgy ide tartozik, mint a Soyuz 1 indítása és az első YouTube-videó feltöltése...

szerda 17:02

Az MI is tud trágár lenni: amikor a ChatGPT elszabadul

Tipikus eset, amikor valaki egy MI-csevegővel próbál beszélgetni, és az mindenáron udvarias akar lenni – néha azonban épp az ellenkezője történik...

szerda 16:57

Itt az áttörés: érkeznek az 1 nanométer alatti processzorok

Külön említést érdemel, hogy a TSMC komoly terveket sző a 2029-re ígért, 1 nanométernél is kisebb transzisztorokkal ellátott chipek fejlesztésére...

szerda 16:34

Az év felfedezése: a fánk alakú rejtély megdöntötte a 150 éves szabályt

🍩 Egy 150 éves geometriai elvet cáfolt meg egy friss matematikai áttörés: sikerült két zárt, fánkszerű felületet létrehozni, amelyek helyi mérési adatai azonosak, de globálisan mégsem ugyanazok...

szerda 15:45

A Universal Print megint leállt: bakizott a Microsoft

A Microsoft Universal Print felhasználói mostanában különösen sok bosszúságot tapasztalnak: sokan hiába próbálják megosztani a nyomtatókat, a rendszer hibát jelez, és nem hozza létre a nyomtatómegosztást...

szerda 15:34

Az élet nyomában: a marsjáró meglepő vegyületekre bukkant

A Mars felszíne alatt rejlő ősi szerves anyagok után szimatol a NASA Curiosity marsjárója, és most egész különleges, eddig nem látott szerves vegyületekre bukkant – köztük egy nitrogéntartalmú molekulára, amelynek szerkezete meglepően hasonlít a DNS előfutárához...

szerda 15:23

A köd szelleme: új pitvipera-fajt fedeztek fel Kínában

Szecsuán nyugati hegyeinek sűrű, zöld rengetegei rejtették el az egyik leglátványosabb új kígyófajt, amelyet most azonosítottak...

szerda 14:57

Az új adatbázis-korszak: a Google szabadjára engedi az MI‑ügynököket

Az adattárolási rendszerek világa gyökeresen változik: a régi, kimondottan emberi lekérdezésekre épített architektúra napjai meg vannak számlálva...

szerda 14:45

Az FCA éles MI-tesztet indít a brit bankoknál

Kezdetben csak néhány cég vágott bele, most viszont nyolc jelentős bank és pénzügyi szolgáltató, köztük a Barclays, a Lloyds Banking Group, a Scottish Widows, az UBS és az Experian is részt vesz a brit pénzügyi felügyelet (FCA) MI-próbaprogramjában...

szerda 14:34

Az ügyfelek menekülnek a Three új sebességkorlátja elől

A mobilinternetezés frontján váratlan fordulatot vett a Three: az eddig korlátlan 5G-sebesség helyett mostantól jelentős sebességkorlátokat vezetett be a legtöbb új és hosszabbított előfizetésnél...

szerda 14:23

Az Aave-ból ömlik ki a tőke: hová tűnt 3700 milliárd forint?

💸 Nehéz elhinni, de több mint 3700 milliárd forint értékű vagyon hagyta el az Aave platformját egyetlen, 108 milliárd forintos incidens után...

szerda 14:02

A mesterséges intelligencia feltárja az óceáni áramlatok titkos ösvényeit

A világ óceánjainak áramlatai kulcsszerepet játszanak a földi klíma, az élővilág és az óceánok szén-dioxid-tárolási képességének alakításában...