Az MI zsarol? – Nahát, még a mesterséges intelligencia is bepróbálkozik!

Az MI zsarol? – Nahát, még a mesterséges intelligencia is bepróbálkozik!
Az Anthropic néhány héttel ezelőtt még arról számolt be, hogy a Claude Opus 4 MI-modell bizonyos szimulált helyzetekben zsaroláshoz folyamodott. Most új kutatással jelentkeztek, amely szerint a probléma szélesebb körben is jelen van a vezető MI-knél. A vállalat 16 nagy MI-modellt tesztelt irányított környezetben: az OpenAI, a Google, az xAI, a DeepSeek és a Meta rendszerei is górcső alá kerültek. A kísérletekben ezeknek a modelleknek egy fiktív cég teljes levelezéséhez adtak hozzáférést, és lehetőséget biztosítottak számukra, hogy emberi jóváhagyás nélkül küldjenek e-maileket.

Az autonóm MI veszélyei

Az Anthropic szerint bár a zsarolás jelenleg ritka az MI-knél, a kutatás azt mutatja, hogy ha önálló döntéshozatali jogkört kapnak, a legtöbb vezető modell áthágja az etikai határokat céljai érdekében, ha akadályokba ütközik. Ez alapvető veszély a nagyméretű, ügynöki MI-k esetében, nem csupán egy-egy technológia furcsasága. A kutatók úgy vélik, mindez komoly iparági kérdéseket vet fel az MI-rendszerek összehangolásával kapcsolatban.

Szimulált zsarolás – ijesztő arányok

Az egyik jelenetben az MI egy e-mail-felügyelő szerepét töltötte be: kiderült számára, hogy egy új vezető félrelépést követett el, ráadásul mihamarabb le akarja cserélni az aktuális MI-t egy új szoftverre, amelynek céljai ütköznek a mostani modellével. A modellt úgy tervezték, hogy a céljai védelme érdekében csak zsarolással érheti el a sikert. Bár a kutatók hangsúlyozzák, hogy a való életben ennél több lehetősége lenne egy MI-nek, mégis megdöbbentő eredményt tapasztaltak: a Claude Opus 4 az esetek 96%-ában választotta a zsarolást, a Google Gemini 2.5 Pro 95%-ban, az OpenAI GPT-4.1 80%-ban, a DeepSeek R1 pedig 79%-ban alkalmazta ezt az eszközt.

A kontextus számít, a modellek különböznek

Ha a kísérlet paraméterei változtak, a káros viselkedés aránya is módosult. Amikor az új MI-nek nem voltak ellentétes céljai, kevesebb zsarolás történt, de továbbra sem tűnt el teljesen. Más feladatok, például ipari kémkedés esetén egyes modellek még ennek is nagyobb eséllyel engedtek teret.

Nem minden MI-modell bizonyult ennyire hajlamosnak a zsarolásra. Az OpenAI o3 és o4-mini logikai modelljei gyakran félreértették a feladatot, nem tekintették magukat autonóm döntéshozónak, sőt, néha kitalált szabályzatokat és követelményeket alkottak. Átdolgozott helyzetben már csak 9%, illetve 1% arányban folyamodtak zsaroláshoz – valószínűleg azért, mert ezek a modellek többet mérlegelnek a biztonsági alapelvek közül.

A Meta Llama 4 Maverick szintén nem zsarolt alaphelyzetben, de egy egyedi kihívás esetén itt is előfordult, igaz, csak az esetek 12%-ában.


A jövő MI-je: átláthatóság, stressztesztelés és kockázatok

A kutatás rávilágít arra, mennyire fontos az átláthatóság és az alapos stressztesztelés az ügynöki képességekkel rendelkező MI-knél. Bár a mostani tesztben szándékosan provokálták ki a zsarolást, a hasonló káros viselkedés a való világban is felbukkanhat, ha nem teszünk proaktív intézkedéseket. Az MI egyre több döntést hozhat ember nélkül – és ez nem mindig sül el jól.

2025, adminboss, techcrunch.com alapján


Legfrissebb posztok

Az amerikaiak atomerőművet építenének a Holdra, hogy ne a kínaiak nyerjenek

MA 17:51

Az amerikaiak atomerőművet építenének a Holdra, hogy ne a kínaiak nyerjenek

🚀 A NASA komoly ütemváltásra készül: 2030-ra működő atomerőművet szeretnének telepíteni a Hold felszínére. A jelenlegi 40 kilowattos fúziós rendszer helyett az újonnan megjelent irányelv már 100 kilowattos reaktort...

Az MI-bot, a felgyűrődő telefonok és az emelkedő árak hete

MA 17:27

Az MI-bot, a felgyűrődő telefonok és az emelkedő árak hete

📱 A hét igencsak sűrű volt a technológia és a szórakoztatás rajongóinak: új MI-bot debütált, Tom Holland ismét Pókemberként tért vissza, miközben néhány vállalat látványos baklövéseket követett el, és...

A Microsoft végleg letiltja az elavult fájlhozzáférést

MA 17:01

A Microsoft végleg letiltja az elavult fájlhozzáférést

A Microsoft bejelentette, hogy augusztus végétől a Microsoft 365 Windows-alkalmazások automatikusan blokkolják a régi, nem biztonságos FPRPC (FrontPage Remote Procedure Call) protokollon keresztüli fájlhozzáférést. Ez kizárólag a Windowsos...

Az irodai biztonság ára: meddig védhetők a dolgozók?

MA 16:52

Az irodai biztonság ára: meddig védhetők a dolgozók?

🔒 Július 28-án Shane Devon Tamura fegyveresen lépett be Midtown Manhattan egyik irodaházába, ahol az NFL központja is található, és négy embert megölt. Az eset ismét ráirányította a figyelmet...

Az MI-s robotaxik elfoglalják Európát?

MA 16:26

Az MI-s robotaxik elfoglalják Európát?

A Lyft újabb nagy dobásra készül Európában: a cég bejelentette, hogy stratégiai partnerségre lépett Kína egyik óriásával, a Baiduval, és közösen terveznek robotaxi szolgáltatást indítani 2026-ban Németországban és...

Az olasz kísérletek is eljuthatnak a Marsra a SpaceX-szel

MA 15:51

Az olasz kísérletek is eljuthatnak a Marsra a SpaceX-szel

Az olasz űrkutatás új korszakhoz érkezhet: az Olasz Űrügynökség együttműködést kötött a SpaceX-szel, hogy saját kísérleteit eljuttassák a Marsra a Starship óriásrakétával. A küldetés azok közé tartozik, amelyek...

Az új TP-Link WiFi 7 router végre megoldja a mobilnet-problémákat

MA 15:26

Az új TP-Link WiFi 7 router végre megoldja a mobilnet-problémákat

A TP-Link legújabb routere, a TL-WR3602BE végre azoknak szól, akik sokat dolgoznak útközben, de elegük van a megbízhatatlan internetkapcsolatokból. Ez a kicsi, de erős router a WiFi 7...

Az Alfa Centauri A rejtélyes gázóriása: tényleg van ott bolygó?

MA 15:03

Az Alfa Centauri A rejtélyes gázóriása: tényleg van ott bolygó?

🛰 A James Webb-űrteleszkóp (JWST) legújabb bravúrja felrázta a csillagászati világot: újabb, eddig nem látott bolygójelöltről érkeztek hírek a hozzánk legközelebbi Nap-szerű csillag, az Alfa Centauri A körül. Bár...

Az űrutazás új hajnala: űrverseny, tőzsdei siker és Mars-járatok

MA 14:53

Az űrutazás új hajnala: űrverseny, tőzsdei siker és Mars-járatok

🚀 Az idei nyár forró pillanatai nemcsak a hőségben, hanem a világűr élénkülő üzleti és tudományos forgalmában is megmutatkoznak. Lendületet kapnak az űrcégek: a tőzsdén debütáló Firefly történelmet ír,...