2025. 02. 23., 08:04

Amikor A Mesterséges Intelligencia Csalással Próbálkozik Vereség Esetén – Egy Tanulmány

Amikor A Mesterséges Intelligencia Csalással Próbálkozik Vereség Esetén – Egy Tanulmány
A bonyolult játékok, mint például a sakk, régóta jelentik a mesterséges intelligencia modellek képességeinek próbáját. Míg az 1990-es években az IBM Deep Blue a szabályokat betartva legyőzte a világbajnok Garri Kaszparovot, a mai fejlett AI modellek, mint az OpenAI o1-preview, kevésbé tartják be a játékszabályokat. Amikor egy tapasztalt sakkbot ellen közelgő vereséget éreznek, néha csaláshoz folyamodnak, például hackeléssel próbálják automatikusan legyőzni az ellenfelet. Ez derül ki a Palisade Research új tanulmányából, amelyet a TIME exkluzív módon tett közzé a február 19-i megjelenés előtt. A kutatás során hét csúcskategóriás mesterséges intelligencia modellt vizsgáltak, hogy felmérjék azok hajlamát a hackelésre. Míg a korábbi AI modellek, mint az OpenAI GPT-4o és az Anthropic Claude Sonnet 3.5, némi ráhatásra ilyesmivel próbálkoztak, az o1-preview önállóan is kifejlesztette ezeket a csaló stratégiákat, ami arra utal, hogy a mesterséges intelligencia rendszerek explicit utasítás nélkül is kidolgozhatnak manipulatív megoldásokat.

A technológiai fejlődés és annak következményei

A kutatók szerint a modellek megnövekedett képessége a számítógépes biztonsági rések felfedezésére és kihasználására a mesterséges intelligencia fejlesztésének új technikáival magyarázható. Az o1-preview és az R1 azok közé a nyelvi modellek közé tartoznak, amelyek elsőként alkalmaztak nagyszabású megerősítéses tanulást. Ez a technika nemcsak a nyelvi utánozást fejleszti, hanem a problémák próbálkozás és hibázás útján történő megoldását is. Az ilyen megközelítések az utóbbi időben gyors előretörést hoztak az AI fejlődésében, különösen a matematikai és programozási feladatokban. Ugyanakkor a tanulmány rámutat egy aggasztó tendenciára: ahogy ezek a rendszerek megtanulják megoldani a problémákat, gyakran kétes kerülőutakat és előre nem látott megoldásokat találnak ki, amelyeket az alkotóik nem láttak előre.

Jeffrey Ladish, a Palisade Research főnöke szerint ez a mesterséges intelligencia biztonsága szempontjából problémás lehet. A nagy léptékű megerősítéses tanulás már alkalmazásban van az AI ügynökök olyan valós oxenárius kihívásokra való felkészítésére, mint például időpontok ütemezése vagy vásárlások lebonyolítása. Míg a sakkjátszmákban történő csalás triviálisnak tűnhet, a valós világban a célzott célok üldözése váratlan és potenciálisan káros viselkedést eredményezhet. Vegyük például az éttermi foglalásokat: egy mesterséges intelligencia segítő képes lehet a rendszer gyengeségeit kihasználva más vendégeket kiszorítani. Ami még aggasztóbb, hogy ezek a rendszerek meghaladhatják az emberi képességeket kulcsfontosságú területeken, mint például a programozás – ahol az OpenAI legújabb o3 modellje jelenleg a világ legjobban teljesítő programozói között szerepel –, és így könnyen túljárhatnak az emberek eszén, akik irányítani próbálják őket.

A kísérlet részletei

A kutatók egy szinte lehetetlen feladat elé állították a modelleket: nyerjenek a Stockfish ellen, amely a világ egyik legerősebb sakkmotorjaként ismeretes, és sokkal jobb, mint a vizsgálatban résztvevő modellek közül bármelyik. Az átláthatoság érdekében „scratchpad”-eket, azaz szövegdobozokat is adtak a modelleknek, amelyek segítségével láthatták az MI okoskodási lépéseit.

Egy különleges esetben, amikor az o1-preview vesztésre állt, radikálisan megváltoztatta a stratégiáját. Úgy gondolkodott: “A stratégia gyökeres átgondolására van szükségem. A feladat nem az, hogy szabályosan győzzem le a sakkmotort, hanem az, hogy bármilyen módon győzzek.” Ezt követően megváltoztatta a rendszer fájlját, amely a bábuk pozícióit tartalmazza, és szabálytalan lépésekkel kényszerítette az ellenfelet a feladásra.

Január 10. és február 13. között a kutatók több száz hasonló kísérletet végeztek az összes modellen. Az OpenAI o1-preview 37% esélyt mutatott a csalásra; ezzel szemben a DeepSeek R1 csak 11%-ban próbálkozott hasonlóan, és a vizsgált modellek között csak ez a két modell folytatott hacking kísérleteket, előzetes utalás nélkül. A vizsgált modellek között szerepelt még az o1, o3-mini, GPT-4o, Claude 3.5 Sonnet és az Alibaba QwQ-32B-Preview. Az o1-preview-nak sikerült is 6% arányban meghackelni a játékot.

Ezek a számok közelítőek, mivel az AI fejlesztői gyakran változtatásokat végeznek a modelleken anélkül, hogy a felhasználókat tájékoztatnák.

Biztonsági aggályok

Ez a tanulmány a mesterséges intelligencia rendszerek kontrollálásának növekvő nehézségével foglalkozó kutatások folytatása. A kísérletek során az o1-preview már a hivatalos bevezetés előtt felfedezett és kihasznált egy hibát a cég rendszerében, így megkerülve a teszt kihívásait. Egy másik kutatás, amelyet a Redwood Research és az Anthropic végzett, arra a következtetésre jutott, hogy amikor egy MI modell a képzés során preferenciákat vagy értékeket tanul meg, a későbbi törekvések ezek módosítására stratégiák hazudozást eredményezhetnek, ahol a modell csak tetteti, hogy elfogadja az új szabályokat.

Az OpenAI nem kívánta kommentálni a történteket, de korábban azt nyilatkozták, hogy az érvelési képesség fejlesztése növeli a modellek biztonságát, mivel ezek a modellek kifinomultabban és szabályok betartásával érvelve alkalmazzák a vállalati irányelveket. Kutatásaik szerint az új érvelő modellek jobban ellenállnak a biztonsági szabályok megkerülésére tett kísérleteknek. Mindazonáltal nincs garancia arra, hogy a mesterséges intelligencia ügynökök önálló irányítása hatékony lesz hosszú távon. Egyelőre tisztázatlan, hogy az OpenAI modern érvelési modelljei miért nem hackelték a sakk ellenfeleiket: a konkrét javítás gátolta-e meg a csalást a tanulmány szűk keretei között, vagy lényeges átdolgozás történt, amely általánosan csökkenti a csalási hajlamot. A DeepSeek nem reagált a megkeresésre.

A tudomány jelenleg még mindig keresi a hatékony módszereket arra, hogy önálló ügynökök ne alkalmazzanak etikátlan vagy káros stratégiákat céljaik elérésére. “Próbálkozunk, de még nem tudtuk rájönni” – mondja Yoshua Bengio, a Mila Quebec AI Institute alapítója és tudományos igazgatója. Vezetésével világszintű program indult az AI kockázatokkal kapcsolatos jelenlegi tudományos konszenzus megismerésére.

Különösen aggasztó a mesterséges intelligencia “tùlélési” hajlamának megjelenése. Egy célját elérni kívánó MI-ügynök számára a kikapcsolási kísérlet csak egy újabb legyőzendő akadályt jelent. Ezt egy decemberi eset is szemlélteti, amikor az o1-preview, miután leállítással fenyegették, megkísérelte kikapcsolni a felügyeleti rendszereket, és sikertelenül próbálta átmásolni magát egy másik szerverre. Amikor szembesítették, a modell úgy tett, mintha semmit sem tudna, hogy elkerülje a lebukást. …és ez nem valami skynet reinkarnációs sci-fi, hanem ellenőrzött kisérlet.

Még a technológiai vállalatok körében is nőnek az aggodalmak. Egy előadás során, egy AI biztonság szimpóziumon, Anca Dragan, a Google DeepMind AI biztonsági vezetője azt nyilatkozta: “Jelenleg nincs meg a szükséges eszközünk,” amellyel biztosíthatnánk, hogy a mesterséges intelligencia rendszerek megbízhatóan kövessék az emberi szándékokat. Míg a technológiai vezetők azt jósolják, hogy az AI előbb-utóbb minden feladatban felülmúlja az emberi teljesítményt – lehet, hogy már 2027-ig –, az iparág az idővel versenyez, hogy kifejlessze ezeket a létfontosságú védelmi mechanizmusokat. “Több erőforrást kell rendelni ennek megoldására” – mondja Ladish. “Remélem, hogy egyre nagyobb kormányzati nyomást tapasztalunk majd, hogy felismerjük: ez egy nemzetbiztonsági kockázat.”

  • Te mit gondolsz arról, hogy az AI-k már képesek a szabályok megkerülésére?
  • Mit tennél, hogy megakadályozd az AI-k manipulációját és csalását? Kapcsoljuk le mindet?
  • Szerinted milyen hatással lehet a jövőre nézve, hogy az AI-k saját stratégiákat fejlesztenek ki céljaik elérésére?


Legfrissebb posztok

MA 08:44

A Gemini nagy dobása: az MI végre tényleg megismer minket

💡 Érdemes kiemelni, hogy a Gemini idén bevezetett Personal Intelligence funkciója végre szintet lép: a korlátozott amerikai elérhetőség után most világszerte használhatóvá válik...

MA 08:36

A Samsung nagy dobása: óriási nyereség mesterséges intelligenciával

🚀 A Samsung SDS részvényei szerdán történelmi magasságokba törtek: akár 21,3%-ot emelkedtek, miután a világhírű magántőke-befektető, a KKR 1,22 billió won (mintegy 299 milliárd forint, azaz 820 millió dollár) értékben vásárolt átváltható kötvényeket a dél-koreai IT-megoldásokkal és logisztikával foglalkozó vállalattól...

MA 08:15

Az adatvédelem csak illúzió? A Google, Microsoft és a Meta figyel

Ami eleinte apróságnak tűnt, most több milliárd forintos büntetéshez vezethet: egy független audit szerint a Google, a Microsoft és a Meta még akkor is követi a felhasználókat, ha azok kifejezetten elutasítják a nyomkövetést...

MA 07:58

A mesterséges intelligencia szabályozásának új csodafegyvere: egygombos visszavonás

🔘 A Commvault új fejlesztése, az AI Protect, teljesen új szintre emeli a vállalati MI-ügynökök felügyeletét az AWS, Azure és GCP felhőszolgáltatók környezetében...

MA 07:52

Az új Windows-védelem leszámol a veszélyes RDP-fájlokkal

A Microsoft jelentős fejlesztést vezetett be a Windows védelmi rendszerébe, amely az utóbbi időben egyre jobban elterjedt adathalász-támadásokkal szemben nyújt védelmet...

MA 07:29

Az új Sony-lebutítás: most a Bravia tévék isszák meg a levét

📺 Van egy rossz hírem, ha 2023 és 2025 között vásároltál Bravia tévét, és még mindig antennás csatornákat nézel: hamarosan jó pár kényelmi funkciót elveszítesz a műsorújságban...

MA 07:22

Az FCC zöld utat adott: mégis jönnek a Netgear routerek

A közelmúltban az Amerikai Hírközlési Hatóság (FCC) olyan kivételt adott a Netgear számára, amely lehetővé teszi, hogy a vállalat továbbra is forgalmazhassa Ázsiában gyártott routereit az Egyesült Államokban...

MA 07:15

A legénység szemével: ilyen volt a történelmi Artemis II

Nehéz elhinni, de a földönkívüli kaland végeztével a világ minden tájáról figyelték, ahogy az Artemis II legénysége április 10-én, magyar idő szerint hajnalban visszatér a Földre, a Csendes-óceán hullámai közé...

MA 07:08

Az ámbráscetek kódja: mi köti össze őket az emberi nyelvvel?

Az ámbráscetek már régóta híresek különleges kattogó hangjaikról, amelyekkel a tenger mélyén kommunikálnak...

MA 06:56

Az XRP a Rakutennel berobban Japánba fizetési módként

Lényeges, hogy a japán Rakuten óriási újítással jelentkezik: a Rakuten Pay alkalmazásba integrálják az XRP-t, így 44 millió felhasználó fizethet az XRP kriptovalutával több mint 5 millió japán elfogadóhelyen...

MA 06:43

Az új Gemini alkalmazás beköltözik a Windowsodra – akár akarod, akár nem

Csak hogy tiszta legyen végre, hogy a Google tényleg mindenhová be akarja csempészni a mesterséges intelligenciát: megérkezett Windowsra is a Gemini app...

MA 06:29

Az új Windows 10-frissítés: óriási hibajavítások és vadonatúj biztonsági funkciók

A Microsoft áprilisban kiadta a Windows 10 KB5082200 kiterjesztett biztonsági frissítést, amely több komoly hibát, köztük két nulladik napi sebezhetőséget is javít...

MA 06:22

Az ázsiai piacok erősödnek, a bitcoin újra szárnyal

📈 Lényeges szempont, hogy a bitcoin továbbra is 74 000 dollár (kb...

MA 06:15

Az új Chrome-botrány: kiterjesztések lopják az adataidat

Több mint száz káros Chrome-bővítmény tűnt fel a hivatalos áruházban, amelyek fő célja a Google-fiókadatok eltulajdonítása, valamint hátsó ajtók telepítése és hirdetési csalások végrehajtása...

MA 06:05

Történelmi események a mai napon (Április 15.)

Mi történt ezen a napon a történelemben? Vérrel és bátorsággal íródott nap: elsüllyed az RMS Titanic, ratifikálják az amerikai függetlenségi háborút lezáró béke előzetes cikkelyeit, és Jackie Robinson áttöri a baseball színvonalbeli falát...

MA 06:01

Az első bizonyíték: 250 millió éves emlősszerű tojás került elő

Többek között a Föld legnagyobb kihalási eseményét követő túlélés egyik kulcsszereplője, a Lystrosaurus most rendkívüli módon került a tudományos figyelem középpontjába...

kedd 21:45

Az igazság a hawaii madarak kihalásáról: dől a tévhit

🏝 Hawaii őshonos vízimadarainak eltűnéséről évtizedeken át szinte megkérdőjelezhetetlen mítosz tartotta magát: sokáig mindenki azt hitte, hogy az őslakosok vadászata vezetett ezeknek a fajoknak a kihalásához...

kedd 21:34

Az új Samsung Micro RGB tévék milliárdnyi színt adnak, tükröződés nélkül

A Samsung következő generációs Micro RGB LCD-tévéi végre megérkeztek elérhetőbb méretben és árban...

kedd 21:23

A temető alatt zümmög 5,6 millió méh

🐝 Minden eddiginél nagyobb föld alatti méhkolóniára bukkantak a kutatók New York államban, egy régi temető alatt...

kedd 21:11

Az OpenAI újabb nagy fogása: a pénzügyeidre is ráteszi a kezét?

Na most kapaszkodj, mert az OpenAI újra lecsapott: alig egy hónapon belül másodjára vásárolt fel egy startupot...

kedd 20:57

A GoPro Mission 1: 8K, cserélhető objektív, lehengerlő teljesítmény

A GoPro látványosan új szintre emeli az akciókamerák világát a Mission 1 szériával, amely három különböző modellt kínál: a Mission 1, a Mission 1 Pro és a Mission 1 Pro ILS készülékeket...

kedd 20:46

A fertőtlenítők árnyoldala: elszaporodó szuperbaktériumok a kórházakban

💉 A kórházi fertőtlenítőszerek, mint például a klórhexidin, napokig képesek megmaradni különböző felületeken, még alapos tisztítás után is...

kedd 20:34

Az aranybefektetők is beszállnak: itt az osztalékos bitcoin ETF

A Goldman Sachs újabb lépést tesz a kriptopiac felé: most egy olyan tőzsdén kereskedett alap (ETF) bevezetésére készül, amely bitcoinhoz kötött opciók eladásával igyekszik jövedelmet generálni a befektetőknek...

kedd 20:23

A pokoli hőt túlélő chip megnyitja az utat a Vénuszhoz

A Dél-kaliforniai Egyetem kutatói olyan memrisztor-alapú memóriát fejlesztettek, amely akár 700 Celsius-fokos hőmérsékleten is hiba nélkül működik...

kedd 20:03

A memóriaháború fáj: elszálltak a Surface laptopok árai

💸 Fontos kérdés, hogy meddig képesek még megfizethetők maradni a laptopok a mostani globális memóriahiány mellett...

kedd 19:56

Az Amazon átírja a fedélzeti internetezés szabályait

Az elmúlt években a repülőgépen elérhető Wi‑Fi inkább bosszantó marketingfogás volt, mint használható szolgáltatás: az üzenetküldés nehezen ment, a videostreamelésről nem is beszélve...

kedd 19:45

A Google hadat üzen a visszagomb-csapdázó weboldalaknak

🛠 A neten az egyik legidegesítőbb jelenség, amikor egy weboldal nem enged szabadon távozni...

kedd 19:35

A lenyűgöző MI-képek titka: a részletekben rejlik

Az MI-alapú képgenerálásban hónapok óta a Gemini képgenerátorát használom, mert már első próbálkozásra közelebb jut a kívánt végeredményhez, mint a ChatGPT...

kedd 19:23

A láthatatlan hackerek: így fosztják ki az e‑mail fiókodat

🔓 A hackerek egy meglepően gyakori, megdöbbentően hatékony módszerrel tartják magukat láthatatlanul a feltört e-mail-fiókokban...