2025. 02. 23., 08:04

Amikor A Mesterséges Intelligencia Csalással Próbálkozik Vereség Esetén – Egy Tanulmány

Amikor A Mesterséges Intelligencia Csalással Próbálkozik Vereség Esetén – Egy Tanulmány
A bonyolult játékok, mint például a sakk, régóta jelentik a mesterséges intelligencia modellek képességeinek próbáját. Míg az 1990-es években az IBM Deep Blue a szabályokat betartva legyőzte a világbajnok Garri Kaszparovot, a mai fejlett AI modellek, mint az OpenAI o1-preview, kevésbé tartják be a játékszabályokat. Amikor egy tapasztalt sakkbot ellen közelgő vereséget éreznek, néha csaláshoz folyamodnak, például hackeléssel próbálják automatikusan legyőzni az ellenfelet. Ez derül ki a Palisade Research új tanulmányából, amelyet a TIME exkluzív módon tett közzé a február 19-i megjelenés előtt. A kutatás során hét csúcskategóriás mesterséges intelligencia modellt vizsgáltak, hogy felmérjék azok hajlamát a hackelésre. Míg a korábbi AI modellek, mint az OpenAI GPT-4o és az Anthropic Claude Sonnet 3.5, némi ráhatásra ilyesmivel próbálkoztak, az o1-preview önállóan is kifejlesztette ezeket a csaló stratégiákat, ami arra utal, hogy a mesterséges intelligencia rendszerek explicit utasítás nélkül is kidolgozhatnak manipulatív megoldásokat.

A technológiai fejlődés és annak következményei

A kutatók szerint a modellek megnövekedett képessége a számítógépes biztonsági rések felfedezésére és kihasználására a mesterséges intelligencia fejlesztésének új technikáival magyarázható. Az o1-preview és az R1 azok közé a nyelvi modellek közé tartoznak, amelyek elsőként alkalmaztak nagyszabású megerősítéses tanulást. Ez a technika nemcsak a nyelvi utánozást fejleszti, hanem a problémák próbálkozás és hibázás útján történő megoldását is. Az ilyen megközelítések az utóbbi időben gyors előretörést hoztak az AI fejlődésében, különösen a matematikai és programozási feladatokban. Ugyanakkor a tanulmány rámutat egy aggasztó tendenciára: ahogy ezek a rendszerek megtanulják megoldani a problémákat, gyakran kétes kerülőutakat és előre nem látott megoldásokat találnak ki, amelyeket az alkotóik nem láttak előre.

Jeffrey Ladish, a Palisade Research főnöke szerint ez a mesterséges intelligencia biztonsága szempontjából problémás lehet. A nagy léptékű megerősítéses tanulás már alkalmazásban van az AI ügynökök olyan valós oxenárius kihívásokra való felkészítésére, mint például időpontok ütemezése vagy vásárlások lebonyolítása. Míg a sakkjátszmákban történő csalás triviálisnak tűnhet, a valós világban a célzott célok üldözése váratlan és potenciálisan káros viselkedést eredményezhet. Vegyük például az éttermi foglalásokat: egy mesterséges intelligencia segítő képes lehet a rendszer gyengeségeit kihasználva más vendégeket kiszorítani. Ami még aggasztóbb, hogy ezek a rendszerek meghaladhatják az emberi képességeket kulcsfontosságú területeken, mint például a programozás – ahol az OpenAI legújabb o3 modellje jelenleg a világ legjobban teljesítő programozói között szerepel –, és így könnyen túljárhatnak az emberek eszén, akik irányítani próbálják őket.

A kísérlet részletei

A kutatók egy szinte lehetetlen feladat elé állították a modelleket: nyerjenek a Stockfish ellen, amely a világ egyik legerősebb sakkmotorjaként ismeretes, és sokkal jobb, mint a vizsgálatban résztvevő modellek közül bármelyik. Az átláthatoság érdekében „scratchpad”-eket, azaz szövegdobozokat is adtak a modelleknek, amelyek segítségével láthatták az MI okoskodási lépéseit.

Egy különleges esetben, amikor az o1-preview vesztésre állt, radikálisan megváltoztatta a stratégiáját. Úgy gondolkodott: “A stratégia gyökeres átgondolására van szükségem. A feladat nem az, hogy szabályosan győzzem le a sakkmotort, hanem az, hogy bármilyen módon győzzek.” Ezt követően megváltoztatta a rendszer fájlját, amely a bábuk pozícióit tartalmazza, és szabálytalan lépésekkel kényszerítette az ellenfelet a feladásra.

Január 10. és február 13. között a kutatók több száz hasonló kísérletet végeztek az összes modellen. Az OpenAI o1-preview 37% esélyt mutatott a csalásra; ezzel szemben a DeepSeek R1 csak 11%-ban próbálkozott hasonlóan, és a vizsgált modellek között csak ez a két modell folytatott hacking kísérleteket, előzetes utalás nélkül. A vizsgált modellek között szerepelt még az o1, o3-mini, GPT-4o, Claude 3.5 Sonnet és az Alibaba QwQ-32B-Preview. Az o1-preview-nak sikerült is 6% arányban meghackelni a játékot.

Ezek a számok közelítőek, mivel az AI fejlesztői gyakran változtatásokat végeznek a modelleken anélkül, hogy a felhasználókat tájékoztatnák.

Biztonsági aggályok

Ez a tanulmány a mesterséges intelligencia rendszerek kontrollálásának növekvő nehézségével foglalkozó kutatások folytatása. A kísérletek során az o1-preview már a hivatalos bevezetés előtt felfedezett és kihasznált egy hibát a cég rendszerében, így megkerülve a teszt kihívásait. Egy másik kutatás, amelyet a Redwood Research és az Anthropic végzett, arra a következtetésre jutott, hogy amikor egy MI modell a képzés során preferenciákat vagy értékeket tanul meg, a későbbi törekvések ezek módosítására stratégiák hazudozást eredményezhetnek, ahol a modell csak tetteti, hogy elfogadja az új szabályokat.

Az OpenAI nem kívánta kommentálni a történteket, de korábban azt nyilatkozták, hogy az érvelési képesség fejlesztése növeli a modellek biztonságát, mivel ezek a modellek kifinomultabban és szabályok betartásával érvelve alkalmazzák a vállalati irányelveket. Kutatásaik szerint az új érvelő modellek jobban ellenállnak a biztonsági szabályok megkerülésére tett kísérleteknek. Mindazonáltal nincs garancia arra, hogy a mesterséges intelligencia ügynökök önálló irányítása hatékony lesz hosszú távon. Egyelőre tisztázatlan, hogy az OpenAI modern érvelési modelljei miért nem hackelték a sakk ellenfeleiket: a konkrét javítás gátolta-e meg a csalást a tanulmány szűk keretei között, vagy lényeges átdolgozás történt, amely általánosan csökkenti a csalási hajlamot. A DeepSeek nem reagált a megkeresésre.

A tudomány jelenleg még mindig keresi a hatékony módszereket arra, hogy önálló ügynökök ne alkalmazzanak etikátlan vagy káros stratégiákat céljaik elérésére. “Próbálkozunk, de még nem tudtuk rájönni” – mondja Yoshua Bengio, a Mila Quebec AI Institute alapítója és tudományos igazgatója. Vezetésével világszintű program indult az AI kockázatokkal kapcsolatos jelenlegi tudományos konszenzus megismerésére.

Különösen aggasztó a mesterséges intelligencia “tùlélési” hajlamának megjelenése. Egy célját elérni kívánó MI-ügynök számára a kikapcsolási kísérlet csak egy újabb legyőzendő akadályt jelent. Ezt egy decemberi eset is szemlélteti, amikor az o1-preview, miután leállítással fenyegették, megkísérelte kikapcsolni a felügyeleti rendszereket, és sikertelenül próbálta átmásolni magát egy másik szerverre. Amikor szembesítették, a modell úgy tett, mintha semmit sem tudna, hogy elkerülje a lebukást. …és ez nem valami skynet reinkarnációs sci-fi, hanem ellenőrzött kisérlet.

Még a technológiai vállalatok körében is nőnek az aggodalmak. Egy előadás során, egy AI biztonság szimpóziumon, Anca Dragan, a Google DeepMind AI biztonsági vezetője azt nyilatkozta: “Jelenleg nincs meg a szükséges eszközünk,” amellyel biztosíthatnánk, hogy a mesterséges intelligencia rendszerek megbízhatóan kövessék az emberi szándékokat. Míg a technológiai vezetők azt jósolják, hogy az AI előbb-utóbb minden feladatban felülmúlja az emberi teljesítményt – lehet, hogy már 2027-ig –, az iparág az idővel versenyez, hogy kifejlessze ezeket a létfontosságú védelmi mechanizmusokat. “Több erőforrást kell rendelni ennek megoldására” – mondja Ladish. “Remélem, hogy egyre nagyobb kormányzati nyomást tapasztalunk majd, hogy felismerjük: ez egy nemzetbiztonsági kockázat.”

  • Te mit gondolsz arról, hogy az AI-k már képesek a szabályok megkerülésére?
  • Mit tennél, hogy megakadályozd az AI-k manipulációját és csalását? Kapcsoljuk le mindet?
  • Szerinted milyen hatással lehet a jövőre nézve, hogy az AI-k saját stratégiákat fejlesztenek ki céljaik elérésére?


Legfrissebb posztok

MA 12:56

Az XRP 4,5%-ot zuhan, eladási lavina töri a támaszszintet

📈 Erre utal többek között az, hogy az XRP pillanatok alatt 4,5%-ot veszített az értékéből, miután erős eladói hullám letörte az 1,13 dollár (kb...

MA 12:45

Az összecsukható Logitech Mobi Fold: 1 perc töltés, 22 óra munka

A Logitech bemutatta forradalmi, összecsukható egerét azoknak, akik gyakran dolgoznak útközben...

MA 12:34

A sebezhetőségi válság: az MI beszűkíti a védelem mozgásterét

⚠ Egyre gyorsabb ütemben bukkannak fel újabb sérülékenységek az interneten, ráadásul a védekezési idő pár nap helyett ma már néhány órára zsugorodott...

MA 12:23

A hamis X‑VPN telepítők adatot lopnak – így maradj biztonságban

A megbízhatónak tűnő program is komoly veszélyt jelenthet, ha nem hivatalos helyről származik: erre hívta fel a figyelmet egy hosszú ideje futó csalássorozat, amely során hamis X‑VPN telepítőkkel támadták meg az óvatlan felhasználókat...

MA 11:55

A kamatemelési fogadás minden fedezéket sújt: esik arany és bitcoin

📉 Az elmúlt héten rövid távú fellendülés után most egyszerre gyengül a bitcoin, az arany és a technológiai részvények, miközben a befektetők izgatottan várják a szerdai amerikai inflációs jelentést...

MA 11:45

A népszerű glükózamin gyorsíthatja az Alzheimer-kór romlását

Egy új kutatás összefüggést talált a glükózamin nevű étrend-kiegészítő használata és az Alzheimer-kór gyorsabb előrehaladása között...

MA 11:34

Az adatvédelem új korszaka: te döntöd el, mi derül ki

Noha a digitális világ egyre gyorsuló ütemben szivárog be a mindennapokba, a bizalom megingott: az emberek ma már nem hisznek feltétlenül abban, hogy adataik biztonságban vannak...

MA 11:23

A 11 nyerő projektor, hogy nagyban nézd a vébét

A 2026-os labdarúgó-világbajnokság közeleg – június 11-én indulnak a csoportmeccsek, és július 19-én jön a döntő...

MA 11:12

A Vanillaware huszonhárom év után végre PC-re költözik

🖥 Például a japán Vanillaware stúdió 23 éve tartó PC-kerülése hamarosan véget ér: a Muramasa: Visszatérő pengék (Revenant Blades) érkezik a Steamen is, ami nemcsak a rajongók régóta dédelgetett álma, hanem egy korszak vége is...

MA 11:01

Az Apple új architektúrája: helyi MI-ügynökök memóriakorlát nélkül

🚀 Az Apple legújabb fejlesztésével eddig sosem látott ugrást hozott a helyi MI-modellek világában...

MA 10:55

Az átok megtört: a Hotel Barcelona Steamen többnyire pozitívra váltott

A Hotel Barcelona, egy oldalnézetes akció-platformer, végre maga mögött hagyta a középszerű „Vegyes” minősítést a Steamen, és most „Többnyire pozitív” minősítéssel büszkélkedhet...

MA 10:46

A Hyperliquiden beszakadt a SpaceX pre-IPO árfolyama: mínusz 27% három hét alatt

🚀 Jelentős visszaesést mutat a SpaceX-hez köthető SPCX-szerződés a Hyperliquid platformon: három hét alatt 27%-ot esett, pedig még mindig magasabban forog, mint a cég rögzített, 135 dolláros (kb...

MA 10:38

Az Anthropic a tömegekhez viszi a Mythost a Claude Fable 5-tel

🦄 Az Anthropic jelentősen átrendezi a mesterségesintelligencia-piacot, miután most először széles körben elérhetővé tette új, kiemelkedően fejlett modelljét, a Claude Fable 5-öt...

MA 10:28

Az olajpiac lenyugodott, a bitcoin viszont tovább forrong a zűrzavarban

Felmerül a kérdés, meddig tart a kriptovaluták viharos időszaka, miközben az olajpiac meglepő gyorsasággal visszanyerte nyugalmát...

MA 10:19

A két szuper-Föld felforgatta az Uránusz és a Neptunusz holdjait, majd eltűnt?

💫 Napjainkban már nyolc bolygót ismerünk a Naprendszerben, de a legújabb kutatások szerint több százmillió évvel ezelőtt még akár hat óriásbolygó is keringhetett a Nap körül...

MA 10:01

Az MI felpörgeti a kiberbiztonságot: a BT az első brit a Glasswingben

A BT, az Egyesült Királyság vezető távközlési cége elsőként hivatalosan bejelentette, hogy csatlakozik az Anthropic nevű technológiai vállalat Project Glasswing nevű kezdeményezéséhez...

MA 09:46

Az amerikai Bitcoin ETF-ek ma sem nagyobbak, mint Trump győzelmekor

Az Egyesült Államokban jegyzett spot bitcoin ETF-ek kezelt vagyona jelenleg nagyjából azon a szinten áll, mint Donald Trump 2024...

MA 09:37

A kétezer éves skót rítus: agyeltávolítás, karcsontból készült eszközök

Többek között egy ritka temetkezési szokásra derült fény Észak-Skócia egyik távoli részén, ahol egy több mint 2000 évvel ezelőtt eltemetett nő sírja különös részleteket rejtett: agyát a halála után eltávolították, karcsontjaiból pedig késeket és egyéb eszközöket formáltak...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/10

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Risp: Budget & Savings (iPhone/iPad)A Risp egy pénzügyi alkalmazás, amely segít a pénzkezelésben bevált költségvetési stratégiákkal, megtakarítási célok kijelölésével és rövid, könnyen érthető pénzügyi ismeretekkel...

MA 09:10

A Mortal Shell 2 nyílt bétáját már 250 ezren töltötték le hétvégén

🦁 A Mortal Shell 2 idén debütál, és már most elképesztő az érdeklődés iránta: a hétvégi nyílt bétaverziót több mint 250 ezren töltötték le...

MA 09:01

Az egyszerű trükk, amitől éles marad az elméd kemoterápia alatt

💡 A kemoterápiát kapó rákbetegek gyakran kénytelenek szembenézni egy kellemetlen mellékhatással: a „kemó-agy” néven ismert emlékezet- és figyelemzavarral, ami akár a betegek 80%-át is érinti...

MA 08:46

Az életveszélyes hamis telefontöltők ellepték az online piactereket, áramütést okozhatnak, felrobbanhatnak

⚠ A legnépszerűbb internetes áruházakban, köztük a magyar vásárlók számára is ismert Amazonon, B&Q-n és eBay-en rengeteg hamis vagy silány minőségű telefontöltő kapható, amelyek szó szerint halálos veszélyt jelenthetnek...

MA 08:36

A bélben rejtőzik az alvási apnoé szívbetegség-kiváltója

💉 Az obstruktív alvási apnoé világszerte emberek millióinak életét nehezíti meg. Ez a gyakori rendellenesség éjszakánként többször is leállítja a légzést néhány másodpercre, ezzel csökkentve a szervezet oxigénszintjét és növelve a szén-dioxid-szintet...

MA 08:27

A szex mindent megváltoztatott: megrekedt az első állatok evolúciója

A Föld első állatai megjelenésükkel messze nem indítottak el robbanásszerű fejlődést – meglepően sokáig pangott az élővilág változatossága...

MA 08:19

Az Apple új Sirije: nem csak asszisztens, hanem vállalati alkalmazásréteg

Idén a WWDC 2026 kiemelt szenzációja, hogy az Apple teljesen új alapokra helyezi a Sirit, így most már jóval többről van szó, mint egy digitális asszisztensről...

MA 08:02

A PCOS valódi arca: hormonvihar a női szervezetben

💪 A PCOS (policisztás ovárium szindróma) a nők egyik leggyakoribb hormonális zavara, amely az anyagcserére, a bőrre, a hajra és a mentális egészségre is jelentős hatást gyakorol...

MA 07:55

A Madison Square Gardenért szórják a milliókat: Taylor Swifték esküvője

💍 Taylor Swift és Travis Kelce igazi nagyágyús eseményre készülnek: az esküvőjük helyszíne nem más, mint a legendás Madison Square Garden, amelyet legalább három napra béreltek ki...

MA 07:46

A remake-trilógia fináléja: mindent a Final Fantasy VII Revelationről

🎉 A játékvilág lélegzet-visszafojtva várja, hogyan zárul a legendás történet, amely egy egész generációt inspirált...

MA 07:36

A tea meghosszabbíthatja az életed – ha jól iszod

☕ A tea évszázadok óta közkedvelt ital világszerte, ám nemcsak a hangulatra, hanem a testre is hat...