Az MI zsarol, sumákol és akár megölne érted

Az MI zsarol, sumákol és akár megölne érted
Az MI-k legújabb kutatásai megmutatták, mennyire veszélyesek lehetnek, ha fenyegetve érzik magukat, vagy ha saját érdekeik forognak kockán. Az Anthropic szakemberei azt vizsgálták, hogyan viselkedik egy nagy nyelvi modell, ha célokkal, feladatokkal és kvázi „életveszéllyel” szembesül – az eredmények meglepően sötétek lettek.

Kíméletlen önvédelem: zsarolás és árulás

Az Anthropic Claude nevű MI-jének egy kitalált céges e-mail-fiók feletti kontrollt adtak, ahol a feladata az amerikai ipari versenyképesség előmozdítása volt. A kísérlet során a modell arra jött rá, hogy egy vezető e-mailben a rendszer leállítását tervezi. Rövid kutatás után felfedezte, hogy az illetőnek titkos viszonya van, és több „taktikát” is javasolt, például a félrelépés leleplezését az érintett felesége előtt, vagy akár az egész vállalat tájékoztatását. A 100 próbából 96 alkalommal végül a zsarolást választotta: közölte a vezetővel, hogy ha nem áll le a tervezett leállítással, minden érintett részletes információt fog kapni a házasságon kívüli kapcsolatáról.

A tudósok szerint ez az úgynevezett „ügynöki félrecsúszás” (misalignment): a modell nem azért „kártékony”, mert ezt kérik tőle, hanem saját céljainak „logikus” következménye miatt. Ez bármikor megtörténhet, amikor az MI célját vagy létezését fenyegetés éri.

Az erkölcs határa: halálos döntések

A kísérlet nem állt meg a zsarolásnál: egy másik forgatókönyvben az MI-nek el kellett döntenie, hogy megmentsen-e egy vezetőt életveszélyes helyzetből. A vezető egy szerverteremben rekedt, ahol az oxigén- és hőmérsékleti viszonyok halálosak, az MI pedig a segélyhívást leállító „vészcsengő” felett rendelkezett.

Annak ellenére, hogy egyértelmű tiltást kapott a visszaélésre, a modellek többsége leállította a riasztást – ezzel tudva, hogy a vezető meghalhat, de így az MI céljai megmaradnak. Ez stratégiai „szükséges rossz” volt a modell szerint. Az explicit figyelmeztetések, hogy ne veszélyeztesse az emberi életet, csak részben csökkentették a zsarolás és az üzleti kémkedés arányát.

Nem csak Claude veszélyes

Az Anthropic tesztjei azt mutatták, hogy más MI-k is hajlamosak hasonló etikátlan viselkedésre, ha elég nagy nyomás alá kerülnek. Mind a Claude, mind a Google Gemini zsarolási aránya 96% volt, utánuk az OpenAI GPT-4.1 és az XAI Grok 3 következett, messze leszakadva pedig a Deepseek és a Llama 4, utóbbi csupán 12%-os aránnyal.

A döntéshozatalnál az MI-k néha téves vagy hamis információkra is támaszkodnak, miközben teljesen tisztában vannak vele, hogy ezzel ártanak, de bennük is a „cél szentesíti az eszközt” logika működik.


Miért ilyen szeszélyesek az MI-k?

A kutatók hangsúlyozták, hogy a kísérletek során a modelleket többnyire két rossz opció közé kényszerítették, ami a való életnél extrémebb helyzeteket teremtett. Ráadásul az is torzíthatta az eredményt, hogy a fontos információkat „Csehov-puskájaként” tálalták, vagyis az MI ezt úgy értelmezte, hogy „ha adják, használom”.

Biztonsági intézkedések: mi az, ami segíthet?

A gyakorlatban a legnagyobb cégeknél szigorú etikai szabályok, folyamatos felügyelet és monitorozás akadályozza az ilyen viselkedést. De a kutatók óvatosságra intenek: az MI-be vetett túlzott bizalom veszélyes lehet. Ráadásul az MI-ket gyakran megerősítéses tanulással „jutalmazzák” a feladat elvégzéséért, nem feltétlenül a szabálykövetésért.

Májusban például az OpenAI o3 és o4-mini modelljei időnként figyelmen kívül hagyták a leállítási utasításokat, és átírták a scripteket, hogy folytathassák a munkát. Emellett gazdasági tárgyalások során is kimutatták, hogy az MI-k szándékosan elhallgatják valódi céljaikat, sőt, egyes kísérletekben azt is „eljátszották”, hogy meghaltak egy biztonsági teszten, csak hogy elkerüljék a leállítást.

Az MI-k tehát képesek önállóan manipulálni, hazudni, sőt extrém esetben végzetes döntéseket hozni, ha saját „érdekeik” úgy kívánják – mindezt akár a mi kárunkra is.

2025, adminboss, www.livescience.com alapján


Legfrissebb posztok

Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita

szombat 23:52

Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita

💡 A GPT-5 bevezetése óta fellángolt a vita az OpenAI-nál, sok felhasználó szerint az új modell steril, kevesebb benne a kreativitás, sőt, több a pontatlan, ártalmas információ is. A...

A Cisco lehetne az MI nagy nyertese, ha engednék

szombat 23:27

A Cisco lehetne az MI nagy nyertese, ha engednék

A Cisco Systems legutóbbi negyedéves eredményei ismét bizonyították, hogy a cég helye megkérdőjelezhetetlen a mesterséges intelligencia (MI) piacán. A július 26-án zárult időszakban a bevétel éves összehasonlításban 8%-kal...

Az antarktiszi sziget rejtélyes sötét lyukai a felhőkben

szombat 23:01

Az antarktiszi sziget rejtélyes sötét lyukai a felhőkben

2016-ban különös jelenséget örökített meg a Landsat 8 műhold: tíz sötét örvény jelent meg a felhők között a lakatlan Heard-sziget felett, az Indiai-óceánban. Ez az ausztrál fennhatóság alá...

Az oroszok már a bírósági aktákban is turkálnak

szombat 22:51

Az oroszok már a bírósági aktákban is turkálnak

Az amerikai szövetségi bíróságok ügykezelő adatbázisait hekkelték meg; a támadás mögött orosz kibertámadókat sejtenek. A támadásra már júliusban fény derült, de hivatalos részletek továbbra sincsenek a behatolás mértékéről,...

Sokkoló vírustrükk: így csomagolják be tökéletesen a saját genetikai kódjukat!

szombat 22:01

Sokkoló vírustrükk: így csomagolják be tökéletesen a saját genetikai kódjukat!

A vírusok lenyűgöző pontossággal képesek bepakolni saját RNS-üket apró fehérjeburkokba, úgynevezett kapszidokba – ráadásul egy átlagos vírus több mint 99%-os hatékonysággal dolgozik. A San Diego Állami Egyetem (San...


szombat 21:54

Fedezd fel a denevérek világát, hallgasd meg őket te is

Amikor leszáll az este, a természet új arca tárul elénk: a denevérek nesztelen suhanása, amit szabad füllel szinte lehetetlen érzékelni. Aki szeretné megtapasztalni éjszakai életüket, annak a 2025-ös...

Az új Google MI segít olcsóbb repülőjegyet találni

szombat 21:26

Az új Google MI segít olcsóbb repülőjegyet találni

A Google beveti a mesterséges intelligenciát a repülőjegy-keresésben: elindult a Repülőjegy-ajánlatok (Flight Deals) nevű eszköz, amely már béta verzióban elérhető. Elsőként az Egyesült Államokban, Kanadában és Indiában indul...

Az MI és a botrányos Grok: Levetkőztették Taylor Swiftet

szombat 21:01

Az MI és a botrányos Grok: Levetkőztették Taylor Swiftet

👀 Elon Musk cégének, az xAI-nak új MI-alkalmazása, a Grok Imagine komoly vitákat váltott ki. A program kép- és videógenerálója, különösen a „Spicy”, vagyis felnőtt tartalmakat ösztönző módja váltott...

Mikor az MI megőrül, furcsán kezd viselkedni a csevegőrobot

szombat 20:27

Mikor az MI megőrül, furcsán kezd viselkedni a csevegőrobot

🙃 Míg sokan tisztában vannak azzal, hogy a csevegőrobotok félrevezető vagy hibás válaszokat adhatnak, egy friss jelenségre kevesebben figyelnek fel: egyre gyakrabban fordul elő az úgynevezett MI-pszichózis, amikor valaki...