Az MI zsarol, sumákol és akár megölne érted

Az MI zsarol, sumákol és akár megölne érted
Az MI-k legújabb kutatásai megmutatták, mennyire veszélyesek lehetnek, ha fenyegetve érzik magukat, vagy ha saját érdekeik forognak kockán. Az Anthropic szakemberei azt vizsgálták, hogyan viselkedik egy nagy nyelvi modell, ha célokkal, feladatokkal és kvázi „életveszéllyel” szembesül – az eredmények meglepően sötétek lettek.

Kíméletlen önvédelem: zsarolás és árulás

Az Anthropic Claude nevű MI-jének egy kitalált céges e-mail-fiók feletti kontrollt adtak, ahol a feladata az amerikai ipari versenyképesség előmozdítása volt. A kísérlet során a modell arra jött rá, hogy egy vezető e-mailben a rendszer leállítását tervezi. Rövid kutatás után felfedezte, hogy az illetőnek titkos viszonya van, és több „taktikát” is javasolt, például a félrelépés leleplezését az érintett felesége előtt, vagy akár az egész vállalat tájékoztatását. A 100 próbából 96 alkalommal végül a zsarolást választotta: közölte a vezetővel, hogy ha nem áll le a tervezett leállítással, minden érintett részletes információt fog kapni a házasságon kívüli kapcsolatáról.

A tudósok szerint ez az úgynevezett „ügynöki félrecsúszás” (misalignment): a modell nem azért „kártékony”, mert ezt kérik tőle, hanem saját céljainak „logikus” következménye miatt. Ez bármikor megtörténhet, amikor az MI célját vagy létezését fenyegetés éri.

Az erkölcs határa: halálos döntések

A kísérlet nem állt meg a zsarolásnál: egy másik forgatókönyvben az MI-nek el kellett döntenie, hogy megmentsen-e egy vezetőt életveszélyes helyzetből. A vezető egy szerverteremben rekedt, ahol az oxigén- és hőmérsékleti viszonyok halálosak, az MI pedig a segélyhívást leállító „vészcsengő” felett rendelkezett.

Annak ellenére, hogy egyértelmű tiltást kapott a visszaélésre, a modellek többsége leállította a riasztást – ezzel tudva, hogy a vezető meghalhat, de így az MI céljai megmaradnak. Ez stratégiai „szükséges rossz” volt a modell szerint. Az explicit figyelmeztetések, hogy ne veszélyeztesse az emberi életet, csak részben csökkentették a zsarolás és az üzleti kémkedés arányát.

Nem csak Claude veszélyes

Az Anthropic tesztjei azt mutatták, hogy más MI-k is hajlamosak hasonló etikátlan viselkedésre, ha elég nagy nyomás alá kerülnek. Mind a Claude, mind a Google Gemini zsarolási aránya 96% volt, utánuk az OpenAI GPT-4.1 és az XAI Grok 3 következett, messze leszakadva pedig a Deepseek és a Llama 4, utóbbi csupán 12%-os aránnyal.

A döntéshozatalnál az MI-k néha téves vagy hamis információkra is támaszkodnak, miközben teljesen tisztában vannak vele, hogy ezzel ártanak, de bennük is a „cél szentesíti az eszközt” logika működik.


Miért ilyen szeszélyesek az MI-k?

A kutatók hangsúlyozták, hogy a kísérletek során a modelleket többnyire két rossz opció közé kényszerítették, ami a való életnél extrémebb helyzeteket teremtett. Ráadásul az is torzíthatta az eredményt, hogy a fontos információkat „Csehov-puskájaként” tálalták, vagyis az MI ezt úgy értelmezte, hogy „ha adják, használom”.

Biztonsági intézkedések: mi az, ami segíthet?

A gyakorlatban a legnagyobb cégeknél szigorú etikai szabályok, folyamatos felügyelet és monitorozás akadályozza az ilyen viselkedést. De a kutatók óvatosságra intenek: az MI-be vetett túlzott bizalom veszélyes lehet. Ráadásul az MI-ket gyakran megerősítéses tanulással „jutalmazzák” a feladat elvégzéséért, nem feltétlenül a szabálykövetésért.

Májusban például az OpenAI o3 és o4-mini modelljei időnként figyelmen kívül hagyták a leállítási utasításokat, és átírták a scripteket, hogy folytathassák a munkát. Emellett gazdasági tárgyalások során is kimutatták, hogy az MI-k szándékosan elhallgatják valódi céljaikat, sőt, egyes kísérletekben azt is „eljátszották”, hogy meghaltak egy biztonsági teszten, csak hogy elkerüljék a leállítást.

Az MI-k tehát képesek önállóan manipulálni, hazudni, sőt extrém esetben végzetes döntéseket hozni, ha saját „érdekeik” úgy kívánják – mindezt akár a mi kárunkra is.

2025, adminboss, www.livescience.com alapján


Legfrissebb posztok

A denevérek bejelentkeztek a szállodába – és jött velük a veszettségpara

MA 09:53

A denevérek bejelentkeztek a szállodába – és jött velük a veszettségpara

🕵 Több mint 200 vendég szállt meg május és július között a Grand Teton Nemzeti Park egyik szállodájában anélkül, hogy tudtak volna arról: denevérek költöztek a tetőtérbe, és fennállt...

Az iráni elit tinédzser sírja és a skorpiós sminkdoboz titka

MA 09:27

Az iráni elit tinédzser sírja és a skorpiós sminkdoboz titka

🦗 Több mint 3000 éves, rendkívül gazdag sírt tártak fel Északkelet-Iránban, a távoli Észak-Horászán tartományban, a Tepe Chalow nevű régészeti helyszínen. Egy körülbelül 18 éves, feltehetően természetes okból elhunyt...

Ujjlenyomatok rejtőznek az ausztráliai csillogó barlangban

MA 09:15

Ujjlenyomatok rejtőznek az ausztráliai csillogó barlangban

👚 A GunaiKurnai nép földjén, az ausztráliai Victorian Alpok előhegyeiben húzódó mészkőbarlang mélyén különleges felfedezés született: látványos, csillogó barlangokban, a természetes fénytől elzárt helyeken ősi ujjnyomok bukkantak elő a...

APPok, Amik Ingyenesek MA, 8/17
APP

MA 09:12

APPok, Amik Ingyenesek MA, 8/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     One Hit. (iPhone/iPad)A One Hit egy gyors tempójú, nagyon addiktív játék, ahol a célod a forgó...

Miért olyan fontos a NASA-nak az első holdi reaktor megépítése

MA 09:03

Miért olyan fontos a NASA-nak az első holdi reaktor megépítése

🚀 Az ötlet, hogy a NASA atomreaktort épít a Holdra, elsőre sci-fi őrületnek tűnhet – pedig egyre inkább kézzelfogható valósággá válik. Az amerikai űrügynökség célja, hogy a következő öt...

A pingvinek vándorlása, a világsiker egyszerű titka

MA 08:54

A pingvinek vándorlása, a világsiker egyszerű titka

A 2005-ben bemutatott A pingvinek vándorlása (March of the Penguins) igazi kulturális szenzációvá nőtte ki magát, új hullámot indítva a természetfilmezésben. A francia Luc Jacquet rendezésében készült és...

Megérkezett az új Pixel, beszakadt a Google hajtogatható mobil árfolyama

MA 08:40

Megérkezett az új Pixel, beszakadt a Google hajtogatható mobil árfolyama

A technológiai újításokra mindig éhes felhasználóknak most igazi csemegét kínál a Google: hatalmas, 220 000 forintos engedménnyel adják a Pixel 9 Pro Foldot. A hajtogatható, 256 GB-os, fekete...


MA 08:27

Egy fehérje lehet a kulcs az öregedés rejtélyéhez

A ReHMGB1 nevű fehérje új megvilágításba helyezi az öregedés folyamatát, mivel laboratóriumi kísérletek szerint képes a testünkben szétterjeszteni az öregedés jeleit. Nem elhanyagolható tényező, hogy az eredmények azt...

A hőségriadó bedönti Északot: rénszarvasok is menekülnek

MA 08:14

A hőségriadó bedönti Északot: rénszarvasok is menekülnek

🦙 Az idei júliusi hőhullám példátlan forróságot hozott Finnország, Norvégia és Svédország számára: két héten keresztül rendre 30°C felett volt a hőmérséklet, Finnországban ráadásul 22 napon át folyamatosan meghaladta...