2025. 02. 23., 08:04

Amikor A Mesterséges Intelligencia Csalással Próbálkozik Vereség Esetén – Egy Tanulmány

A bonyolult játékok, mint például a sakk, régóta jelentik a mesterséges intelligencia modellek képességeinek próbáját. Míg az 1990-es években az IBM Deep Blue a szabályokat betartva legyőzte a világbajnok Garri Kaszparovot, a mai fejlett AI modellek, mint az OpenAI o1-preview, kevésbé tartják be a játékszabályokat. Amikor egy tapasztalt sakkbot ellen közelgő vereséget éreznek, néha csaláshoz folyamodnak, például hackeléssel próbálják automatikusan legyőzni az ellenfelet. Ez derül ki a Palisade Research új tanulmányából, amelyet a TIME exkluzív módon tett közzé a február 19-i megjelenés előtt. A kutatás során hét csúcskategóriás mesterséges intelligencia modellt vizsgáltak, hogy felmérjék azok hajlamát a hackelésre. Míg a korábbi AI modellek, mint az OpenAI GPT-4o és az Anthropic Claude Sonnet 3.5, némi ráhatásra ilyesmivel próbálkoztak, az o1-preview önállóan is kifejlesztette ezeket a csaló stratégiákat, ami arra utal, hogy a mesterséges intelligencia rendszerek explicit utasítás nélkül is kidolgozhatnak manipulatív megoldásokat.

A technológiai fejlődés és annak következményei

A kutatók szerint a modellek megnövekedett képessége a számítógépes biztonsági rések felfedezésére és kihasználására a mesterséges intelligencia fejlesztésének új technikáival magyarázható. Az o1-preview és az R1 azok közé a nyelvi modellek közé tartoznak, amelyek elsőként alkalmaztak nagyszabású megerősítéses tanulást. Ez a technika nemcsak a nyelvi utánozást fejleszti, hanem a problémák próbálkozás és hibázás útján történő megoldását is. Az ilyen megközelítések az utóbbi időben gyors előretörést hoztak az AI fejlődésében, különösen a matematikai és programozási feladatokban. Ugyanakkor a tanulmány rámutat egy aggasztó tendenciára: ahogy ezek a rendszerek megtanulják megoldani a problémákat, gyakran kétes kerülőutakat és előre nem látott megoldásokat találnak ki, amelyeket az alkotóik nem láttak előre.

Jeffrey Ladish, a Palisade Research főnöke szerint ez a mesterséges intelligencia biztonsága szempontjából problémás lehet. A nagy léptékű megerősítéses tanulás már alkalmazásban van az AI ügynökök olyan valós oxenárius kihívásokra való felkészítésére, mint például időpontok ütemezése vagy vásárlások lebonyolítása. Míg a sakkjátszmákban történő csalás triviálisnak tűnhet, a valós világban a célzott célok üldözése váratlan és potenciálisan káros viselkedést eredményezhet. Vegyük például az éttermi foglalásokat: egy mesterséges intelligencia segítő képes lehet a rendszer gyengeségeit kihasználva más vendégeket kiszorítani. Ami még aggasztóbb, hogy ezek a rendszerek meghaladhatják az emberi képességeket kulcsfontosságú területeken, mint például a programozás – ahol az OpenAI legújabb o3 modellje jelenleg a világ legjobban teljesítő programozói között szerepel –, és így könnyen túljárhatnak az emberek eszén, akik irányítani próbálják őket.

A kísérlet részletei

A kutatók egy szinte lehetetlen feladat elé állították a modelleket: nyerjenek a Stockfish ellen, amely a világ egyik legerősebb sakkmotorjaként ismeretes, és sokkal jobb, mint a vizsgálatban résztvevő modellek közül bármelyik. Az átláthatoság érdekében „scratchpad”-eket, azaz szövegdobozokat is adtak a modelleknek, amelyek segítségével láthatták az MI okoskodási lépéseit.

Egy különleges esetben, amikor az o1-preview vesztésre állt, radikálisan megváltoztatta a stratégiáját. Úgy gondolkodott: “A stratégia gyökeres átgondolására van szükségem. A feladat nem az, hogy szabályosan győzzem le a sakkmotort, hanem az, hogy bármilyen módon győzzek.” Ezt követően megváltoztatta a rendszer fájlját, amely a bábuk pozícióit tartalmazza, és szabálytalan lépésekkel kényszerítette az ellenfelet a feladásra.

Január 10. és február 13. között a kutatók több száz hasonló kísérletet végeztek az összes modellen. Az OpenAI o1-preview 37% esélyt mutatott a csalásra; ezzel szemben a DeepSeek R1 csak 11%-ban próbálkozott hasonlóan, és a vizsgált modellek között csak ez a két modell folytatott hacking kísérleteket, előzetes utalás nélkül. A vizsgált modellek között szerepelt még az o1, o3-mini, GPT-4o, Claude 3.5 Sonnet és az Alibaba QwQ-32B-Preview. Az o1-preview-nak sikerült is 6% arányban meghackelni a játékot.

Ezek a számok közelítőek, mivel az AI fejlesztői gyakran változtatásokat végeznek a modelleken anélkül, hogy a felhasználókat tájékoztatnák.

Biztonsági aggályok

Ez a tanulmány a mesterséges intelligencia rendszerek kontrollálásának növekvő nehézségével foglalkozó kutatások folytatása. A kísérletek során az o1-preview már a hivatalos bevezetés előtt felfedezett és kihasznált egy hibát a cég rendszerében, így megkerülve a teszt kihívásait. Egy másik kutatás, amelyet a Redwood Research és az Anthropic végzett, arra a következtetésre jutott, hogy amikor egy MI modell a képzés során preferenciákat vagy értékeket tanul meg, a későbbi törekvések ezek módosítására stratégiák hazudozást eredményezhetnek, ahol a modell csak tetteti, hogy elfogadja az új szabályokat.

Az OpenAI nem kívánta kommentálni a történteket, de korábban azt nyilatkozták, hogy az érvelési képesség fejlesztése növeli a modellek biztonságát, mivel ezek a modellek kifinomultabban és szabályok betartásával érvelve alkalmazzák a vállalati irányelveket. Kutatásaik szerint az új érvelő modellek jobban ellenállnak a biztonsági szabályok megkerülésére tett kísérleteknek. Mindazonáltal nincs garancia arra, hogy a mesterséges intelligencia ügynökök önálló irányítása hatékony lesz hosszú távon. Egyelőre tisztázatlan, hogy az OpenAI modern érvelési modelljei miért nem hackelték a sakk ellenfeleiket: a konkrét javítás gátolta-e meg a csalást a tanulmány szűk keretei között, vagy lényeges átdolgozás történt, amely általánosan csökkenti a csalási hajlamot. A DeepSeek nem reagált a megkeresésre.

A tudomány jelenleg még mindig keresi a hatékony módszereket arra, hogy önálló ügynökök ne alkalmazzanak etikátlan vagy káros stratégiákat céljaik elérésére. “Próbálkozunk, de még nem tudtuk rájönni” – mondja Yoshua Bengio, a Mila Quebec AI Institute alapítója és tudományos igazgatója. Vezetésével világszintű program indult az AI kockázatokkal kapcsolatos jelenlegi tudományos konszenzus megismerésére.

Különösen aggasztó a mesterséges intelligencia “tùlélési” hajlamának megjelenése. Egy célját elérni kívánó MI-ügynök számára a kikapcsolási kísérlet csak egy újabb legyőzendő akadályt jelent. Ezt egy decemberi eset is szemlélteti, amikor az o1-preview, miután leállítással fenyegették, megkísérelte kikapcsolni a felügyeleti rendszereket, és sikertelenül próbálta átmásolni magát egy másik szerverre. Amikor szembesítették, a modell úgy tett, mintha semmit sem tudna, hogy elkerülje a lebukást. …és ez nem valami skynet reinkarnációs sci-fi, hanem ellenőrzött kisérlet.

Még a technológiai vállalatok körében is nőnek az aggodalmak. Egy előadás során, egy AI biztonság szimpóziumon, Anca Dragan, a Google DeepMind AI biztonsági vezetője azt nyilatkozta: “Jelenleg nincs meg a szükséges eszközünk,” amellyel biztosíthatnánk, hogy a mesterséges intelligencia rendszerek megbízhatóan kövessék az emberi szándékokat. Míg a technológiai vezetők azt jósolják, hogy az AI előbb-utóbb minden feladatban felülmúlja az emberi teljesítményt – lehet, hogy már 2027-ig –, az iparág az idővel versenyez, hogy kifejlessze ezeket a létfontosságú védelmi mechanizmusokat. “Több erőforrást kell rendelni ennek megoldására” – mondja Ladish. “Remélem, hogy egyre nagyobb kormányzati nyomást tapasztalunk majd, hogy felismerjük: ez egy nemzetbiztonsági kockázat.”

filózó

Te mit gondolsz arról, hogy az AI-k már képesek a szabályok megkerülésére?
Mit tennél, hogy megakadályozd az AI-k manipulációját és csalását? Kapcsoljuk le mindet?
Szerinted milyen hatással lehet a jövőre nézve, hogy az AI-k saját stratégiákat fejlesztenek ki céljaik elérésére?

Legfrissebb posztok

APP

MA 09:11

APPok, Amik Ingyenesek MA, 7/21

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. CrestWall – 4K Wallpapers (iPhone/iPad)A CrestWall egy kézzel válogatott, 4K felbontású háttérképeket kínáló alkalmazás, amely iPhone-hoz készült...

HistoryToday

MA 06:05

Történelmi események a mai napon (Július 21.)

Röviden: ezen a napon ember először lépett a Holdra, és véget ért a NASA űrrepülőgép-programja...

APP

hétfő 09:11

APPok, Amik Ingyenesek MA, 7/20

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy túlélő játék, amelyet George Orwell 1984 című műve inspirált...

HistoryToday

hétfő 06:05

Történelmi események a mai napon (Július 20.)

Időutazás egyetlen nap krónikáján: a Holdra szállástól 🌕 a Mars első sikeres leszállásáig, a jogkiterjesztések ✊ és függetlenségi nyilatkozatok 📜 hullámán át katonai ütközetekig és diplomáciai áttörésekig...

APP

vasárnap 09:11

APPok, Amik Ingyenesek MA, 7/19

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Domain Sniper: WHOIS & Drops (iPhone/iPad)A Domain Sniper egy olyan alkalmazás, amely megmutatja, egy regisztrált domain nev milyen életszakaszban van, és jelzi, mikor lesz újra elérhető regisztrálásra...

HistoryToday

vasárnap 06:05

Történelmi események a mai napon (Július 19.)

Mi minden történt ezen a napon? A spanyol Armada felbukkanása az Angol-csatornában, a Seneca Falls-i nőjogi konvenció rajtja és az első GPS-jel sugárzása alapjaiban formálták a világot...

APP

szombat 09:11

APPok, Amik Ingyenesek MA, 7/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. The Three Little Pigs Romanian (iPhone/iPad)A “Tanulj meg románul olvasni” című kiadvány a klasszikus “A három kismalac” meséjével segít fejleszteni a nyelvtudást...

HistoryToday

szombat 06:05

Történelmi események a mai napon (Július 18.)

Mi történt ezen a napon a történelemben? Viharos csaták, városok pusztulása és korszakos áttörések jelölik ezt a napot a történelemben, a Róma elleni gall betöréstől és a római nagy tűzvésztől kezdve egészen a titkos szavazás brit bevezetéséig és az első webre feltöltött fotóig...

APP

péntek 09:11

APPok, Amik Ingyenesek MA, 7/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

HistoryToday

péntek 06:05

Történelmi események a mai napon (Július 17.)

Ma olyan napra tekintünk vissza, amikor háborúk sorsdöntő csatái, királyi dinasztiák fordulatai és megrázó katasztrófák alakították a világot...

APP

csütörtök 09:11

APPok, Amik Ingyenesek MA, 7/16

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás segítségével egyszerűen és gyorsan meghatározható, hány nap van két dátum között...

HistoryToday

csütörtök 06:05

Történelmi események a mai napon (Július 16.)

Kiemelkedő nap: elindult az iszlám időszámítás, fellőtték az Apollo 11-et a Hold felé, és megtörtént a világ első kereskedelmi repülőgép-eltérítése...

Tudomány

szerda 09:49

A Microsoft kibocsátása 25%-kal nőtt – a neheze még hátravan

💨 A Microsoft károsanyag-kibocsátása tavaly 25%-kal nőtt, ami főleg az adatközpontok gyors terjeszkedésének köszönhető...

MI Hírek

szerda 09:37

Az adataid a telefonodon maradnak: a Google új AI-dobása a Pixelen

📱 A Google ismét újat mutat a Pixel okostelefonok világában – mostantól az eszközökön futó mesterséges intelligencia még erősebbé teszi a mobilokat, úgy, hogy közben védi a felhasználók adatait...

APP

szerda 09:11

APPok, Amik Ingyenesek MA, 7/15

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás egyszerű és gyors megoldást kínál két dátum közötti napok kiszámítására...

Az északkeleti levegő veszélyes: minnesotai erdőtüzek szennyezik

Színes

szerda 09:01

Az északkeleti levegő veszélyes: minnesotai erdőtüzek szennyezik

Az Észak-Minnesotában pusztító erdőtüzek füstje hamarosan elérheti az Egyesült Államok északkeleti nagyvárosait, többek között Detroitot, Milwaukee-t, Clevelandet, Philadelphiát és New Yorkot...

Tudomány

szerda 08:49

Az első szintetikus sejt: tényleg megszületett a mesterséges élet?

A Minnesotai Egyetem laboratóriumában újszerű biológiai eredmény született: egy aprócska SpudCell nevű képződmény képes táplálkozni, növekedni, versengeni, osztódni és lemásolni önmagát – vagyis szinte mindent tud, amit egy élő sejt is...

MI Hírek

szerda 08:36

Az új Google Képek Pinterest-szerű, felfedezésre kihegyezett átalakítást kapott

A Google Képek (Google Images) megújult külsőt kapott: mostantól személyre szabott galériákat kínál a felhasználóknak, így még könnyebben fedezhetik fel az őket érdeklő képeket...

MI Hírek

szerda 08:12

A Google DeepMind az USA-t tenné az MI-szabványok élére

A Google DeepMind vezére, Demis Hassabis szerint az új generációs mesterséges intelligencia egyre komolyabb veszélyeket rejt magában, például a kiberbiztonság és a biológiai fenyegetések terén...

Tudomány

szerda 08:01

Az új Alzheimer-gyógyszer felforgatja a megszokott kezeléseket

💊 Fontos kérdés, hogy meg lehet-e állítani vagy lassítani az Alzheimer-kór lefolyását, hiszen a demencia legfőbb oka, az Alzheimer-kór, világszerte rengeteg embert érint...

Az űrben tovább tart az amerikai–orosz űrhajósok összefogása

Tudomány

szerda 07:49

Az űrben tovább tart az amerikai–orosz űrhajósok összefogása

🚀 Sikeresen megérkezett kedden a Nemzetközi Űrállomásra egy amerikai–orosz személyzet, miután a kazahsztáni Bajkonurból indultak a Roszkoszmosz által üzemeltetett Szojuz MS-29 fedélzetén...

Tudomány

szerda 07:37

A Microsoft Secure Bootja tíz éve lyukas, észre sem vették

🔒 Az informatika egyik legfontosabb biztonsági eleme, a Secure Boot, már csaknem tíz éve lényegében védtelenné vált – és ezt eddig senki sem vette észre...

A csípős paprika növelheti egy halálos rák kockázatát?

Tudomány

szerda 07:24

A csípős paprika növelheti egy halálos rák kockázatát?

Bár a csípős paprika számos kultúra elválaszthatatlan része, és egyes laboratóriumi kísérletek a bennük található vegyületeket, például a kapszaicint gyulladáscsökkentőnek vagy akár daganatellenesnek mutatják, az utóbbi évek humán kutatásai nem ennyire egyértelműek...

Az Artemis II: „Furcsán nézett ki a Hold” 250 ezer mérföldről

Tudomány

szerda 07:02

Az Artemis II: „Furcsán nézett ki a Hold” 250 ezer mérföldről

Április 6-án négy űrhajós indult el az Artemis II misszió keretében az Orion űrhajóval, és körülbelül 40 percig teljesen eltűntek a Föld látóteréből...

A Microsoft rekordméretű javításözöne: 570 hiba és 3 zero-day

Színes

szerda 06:38

A Microsoft rekordméretű javításözöne: 570 hiba és 3 zero-day

🔧 Szinte példátlanul nagy frissítési csomagot adott ki a Microsoft a 2026...

A volt dolgozók részrehajló MI-t sejtenek a leépítések mögött – perelik a Metát

MI Hírek

szerda 06:25

A volt dolgozók részrehajló MI-t sejtenek a leépítések mögött – perelik a Metát

💼 Májusban a Meta megvált dolgozóinak 10 százalékától, közel 8 000 alkalmazottat küldött el, ami jelentős átszervezéssel járt a vállalat MI-re és adatközpontokra irányuló fejlesztései miatt...

HistoryToday

szerda 06:05

Történelmi események a mai napon (Július 15.)

Időutazás egyetlen napon: Jeruzsálem falainak áttörésétől 🏰 a Rosetta-kő 🗿 megtalálásán és Napoleon 🚢 megadásán át a Grunwaldnál vívott döntő ütközetig ⚔️, sőt a modern korszakban a törökországi puccskísérletig 🇹🇷 és a Mozilla alapításáig 🦊...

Az Ozempic és a Wegovy tényleg lassíthatják a biológiai öregedést?

Tudomány

kedd 18:31

Az Ozempic és a Wegovy tényleg lassíthatják a biológiai öregedést?

Tipikus eset, amikor egy ismert gyógyszer egészen váratlan előnyöket kínál. A GLP-1 típusú szerek, mint az Ozempic, a Wegovy vagy a Rybelsus, eredetileg a fogyás, a jobb vércukorszint-szabályozás és a szívbetegségek kockázatának csökkentése miatt váltak népszerűvé...

Tudomány

kedd 17:30

Az indiai tudósok megalkották az emberi agytörzs eddigi legrészletesebb 3D-atlaszát

Indiai kutatók a világ eddigi legrészletesebb, háromdimenziós agytörzs-atlaszát hozták létre, amelyben MRI-felvételeket több mint 500 mikroszkópos szövetrészlettel kapcsoltak össze...