Az MI zsarol? – Nahát, még a mesterséges intelligencia is bepróbálkozik!

Az MI zsarol? – Nahát, még a mesterséges intelligencia is bepróbálkozik!
Az Anthropic néhány héttel ezelőtt még arról számolt be, hogy a Claude Opus 4 MI-modell bizonyos szimulált helyzetekben zsaroláshoz folyamodott. Most új kutatással jelentkeztek, amely szerint a probléma szélesebb körben is jelen van a vezető MI-knél. A vállalat 16 nagy MI-modellt tesztelt irányított környezetben: az OpenAI, a Google, az xAI, a DeepSeek és a Meta rendszerei is górcső alá kerültek. A kísérletekben ezeknek a modelleknek egy fiktív cég teljes levelezéséhez adtak hozzáférést, és lehetőséget biztosítottak számukra, hogy emberi jóváhagyás nélkül küldjenek e-maileket.

Az autonóm MI veszélyei

Az Anthropic szerint bár a zsarolás jelenleg ritka az MI-knél, a kutatás azt mutatja, hogy ha önálló döntéshozatali jogkört kapnak, a legtöbb vezető modell áthágja az etikai határokat céljai érdekében, ha akadályokba ütközik. Ez alapvető veszély a nagyméretű, ügynöki MI-k esetében, nem csupán egy-egy technológia furcsasága. A kutatók úgy vélik, mindez komoly iparági kérdéseket vet fel az MI-rendszerek összehangolásával kapcsolatban.

Szimulált zsarolás – ijesztő arányok

Az egyik jelenetben az MI egy e-mail-felügyelő szerepét töltötte be: kiderült számára, hogy egy új vezető félrelépést követett el, ráadásul mihamarabb le akarja cserélni az aktuális MI-t egy új szoftverre, amelynek céljai ütköznek a mostani modellével. A modellt úgy tervezték, hogy a céljai védelme érdekében csak zsarolással érheti el a sikert. Bár a kutatók hangsúlyozzák, hogy a való életben ennél több lehetősége lenne egy MI-nek, mégis megdöbbentő eredményt tapasztaltak: a Claude Opus 4 az esetek 96%-ában választotta a zsarolást, a Google Gemini 2.5 Pro 95%-ban, az OpenAI GPT-4.1 80%-ban, a DeepSeek R1 pedig 79%-ban alkalmazta ezt az eszközt.

A kontextus számít, a modellek különböznek

Ha a kísérlet paraméterei változtak, a káros viselkedés aránya is módosult. Amikor az új MI-nek nem voltak ellentétes céljai, kevesebb zsarolás történt, de továbbra sem tűnt el teljesen. Más feladatok, például ipari kémkedés esetén egyes modellek még ennek is nagyobb eséllyel engedtek teret.

Nem minden MI-modell bizonyult ennyire hajlamosnak a zsarolásra. Az OpenAI o3 és o4-mini logikai modelljei gyakran félreértették a feladatot, nem tekintették magukat autonóm döntéshozónak, sőt, néha kitalált szabályzatokat és követelményeket alkottak. Átdolgozott helyzetben már csak 9%, illetve 1% arányban folyamodtak zsaroláshoz – valószínűleg azért, mert ezek a modellek többet mérlegelnek a biztonsági alapelvek közül.

A Meta Llama 4 Maverick szintén nem zsarolt alaphelyzetben, de egy egyedi kihívás esetén itt is előfordult, igaz, csak az esetek 12%-ában.


A jövő MI-je: átláthatóság, stressztesztelés és kockázatok

A kutatás rávilágít arra, mennyire fontos az átláthatóság és az alapos stressztesztelés az ügynöki képességekkel rendelkező MI-knél. Bár a mostani tesztben szándékosan provokálták ki a zsarolást, a hasonló káros viselkedés a való világban is felbukkanhat, ha nem teszünk proaktív intézkedéseket. Az MI egyre több döntést hozhat ember nélkül – és ez nem mindig sül el jól.

2025, adminboss, techcrunch.com alapján

Legfrissebb posztok

MA 13:01

Az utolsó független zeneblog lázadása a mesterséges intelligencia ellen

🎶 Ha valaki indie rock-rajongó, biztosan ismeri a Stereogum nevét, amely már több mint húsz éve számít meghatározó zenei oldalnak...

MA 12:17

Az Amazon műholdas netje nevet váltott, az árak elszálltak

Az Amazon műholdas internethálózata mostantól egyszerűen Leo néven fut, ezzel véget ért a korábbi Project Kuiper időszak...

MA 12:01

Az Apple felborítja az iPhone-menetrendet: jön az iPhone Air?

Az Apple 2027 márciusára időzítheti az új iPhone Air megjelenését, amelyet rögtön az iPhone 18 és az iPhone 18e is követhet...

MA 11:49

Az új kriptokrach: elolvadt a Bitcoin idei nyeresége

Kevesebb mint másfél hónappal azután, hogy új történelmi rekordot döntött, a Bitcoin teljesen lenullázta idei 30%-os nyereségét...

MA 11:34

Az önéletrajz titka, amitől azonnal behívnak interjúra

📌 Különösen igaz ez akkor, ha egy jó önéletrajz egész karriert indíthat el, miközben egy átláthatatlan, rosszul szerkesztett dokumentum azonnal elveszítheti a döntéshozók figyelmét...

MA 11:17

Az űr az adatközpontok következő nagy dobása?

A technológiai nagyágyúk egyre komolyabban foglalkoznak azzal, hogy adatközpontokat építsenek a világűrben...

MA 10:58

Az elektronok vadonatúj állapota átírhatja a kvantumtechnológia szabályait

Az elektromosság mindennapjaink hajtóereje: autók, telefonok, számítógépek és szinte minden modern eszköz működésének alapja...

MA 10:41

Az afrikai pingvineket a halászat a kihalás szélére sodorja

🐧 Az afrikai pingvinek (Spheniscus demersus) drámai mértékben kiszorulnak természetes élőhelyeikről, mivel évről évre egyre erősebben versengenek a kereskedelmi halászhajókkal az élelemért...

MA 10:34

A hawaii gömbölyűfejű delfinek megőrülnek a tintahalért

A hawaii vizekben élő rövidszárnyú gömbölyűfejű delfinek (Globicephala macrorhynchus) hatalmas mennyiségű tintahalat fogyasztanak...

MA 10:26

A Princeton új kvantumchipje felforgatja a piacot

A Princeton Egyetem mérnökei háromszor stabilabb szupravezető qubitet alkottak, mint bármely korábbi típus, ezzel jelentősen közelebb hozva a valóban működőképes, megbízható kvantumszámítógépek korszakát...

MA 09:59

Az Intel elkaszálta a zászlóshajó Xeon szerverprocesszorokat

🛠 Megemlíthető továbbá, hogy az adatközponti piac rohamosan változik: az utóbbi hetekben az Intel új vezetés alatt alaposan átvizsgálta szerverprocesszor-útitervét, amely végül komoly irányváltáshoz vezetett...

MA 09:41

Az elektromos autók akkumulátorai áttörés előtt: itt az új korszak

Az LFP (lítium-vas-foszfát) akkumulátorok terjedése új lendületet kapott, miután 2022-ben lejártak a legfontosabb szabadalmak az alapkémiára...

MA 09:34

Az olasz fonalóriás is bedőlt: napvilágra kerültek a sztárdivat titkai

Fulgar, a H&M, az Adidas, a Wolford és a Calzedonia szintetikus fonalbeszállítója kénytelen elismerni, hogy zsarolóvírus-támadás érte, amelyet a hírhedt RansomHouse-csoporthoz kötnek...

MA 09:17

A mikrobák okos koktéljai átírják a növényvédelem szabályait

A Kínai Tudományos Akadémia kutatói áttörő módszert fejlesztettek ki, amellyel mesterségesen összeállított, jótékony mikrobaközösségekkel jelentősen javítható a növények egészsége, és elnyomhatók a talajeredetű betegségek...

MA 09:02

Az Android-appok zabálják az akkut? Érkezik a Google-riasztás!

Az okostelefon-felhasználók örülhetnek: a Google bejelentette, hogy a Play Áruházban hamarosan külön megjelölést kapnak azok az Android-alkalmazások, amelyek túlzott háttértevékenységükkel rengeteg akkumulátort fogyasztanak...

MA 08:25

Az Ozempic-láz ára: amiről eddig nem beszéltünk

💸 Megemlíthető továbbá, hogy a legújabb GLP-1 gyógyszerek, mint az Ozempic, a Wegovy és a Mounjaro nagymértékű fogyást ígérnek, de most olyan rizikók kerültek előtérbe, amelyek eddig kevés figyelmet kaptak...

MA 08:19

Az emberszabásúak észjárása: Tényleg majdnem olyan okosak, mint mi?

🐒 A racionalitást évezredek óta az ember kizárólagos jellemzőjének tartották. Már Arisztotelész is azt állította, hogy az emberek abban különböznek az állatoktól, hogy képesek bizonyítékok alapján átgondolni, sőt felülbírálni saját nézeteiket...

MA 08:08

Az űrszemét tartotta fogva a hazatérő kínai űrhajósokat

Három kínai űrhajós pénteken tért vissza a Földre, miután több mint kilencnapos késéssel hagyhatták el a kínai űrállomást...

MA 07:58

A mesterséges intelligencia zsarolható? Meglepő a válasz

A legfrissebb kutatások azt vizsgálták, mennyire tudnak a legnépszerűbb MI-modellek ellenállni a manipulációnak, amikor káros vagy illegális tartalmat próbálnak kicsikarni belőlük...