Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 14:49

Az MI padlóra küldte a RedVDS bűnbandát

🔫 A Microsoft sikeresen megbénította a RedVDS-t, egy hatalmas kibercsalásra épülő platformot, amely eddig csak az Egyesült Államokban 40 millió dollárnyi (kb...

MA 14:33

A svéd egészségőrületért megőrül egész Amerika

Daniel Ek, a Spotify alapítója és üzlettársa, Hjalmar Nilsonne újabb nagy dobásra készül: egészségügyi startupjuk, a Neko Health New Yorkba terjeszkedik, miután Európában már jelentős sikereket értek el...

MA 14:17

Az éhező galaxis, amit saját fekete lyuka falt fel

Egy különös, ősi galaxis, a GS-10578 – becenevén Pablo galaxisa (Pablo’s Galaxy) – sorsa olyannyira szokatlan, hogy még a csillagászokat is meglepte...

MA 14:02

Az új Forza Horizon 6 májusban jön – tényleg Japánban játszódik?

Rejtélyes hirdetés tűnt fel néhány játékosnál a Forza Horizon 5-ben, amely májusi premiert és érdekes újdonságokat sejtet a régóta várt Forza Horizon 6 esetében...

MA 13:50

Az új Raspberry Pi AI HAT: 8 GB RAM sem teszi MI-mágussá

🤔 A legújabb Raspberry Pi AI HAT egy Hailo 10H processzorral és 8 GB RAM-mal érkezett, helyi MI-modellek futtatásához...

MA 13:33

Lehull a lepel az újszülöttek rejtett cukorbetegségéről

🧠 A tudósok egy eddig ismeretlen, újszülötteket érintő cukorbetegség egyik típusát azonosították, amelyet egyetlen gén hibája okoz...

MA 13:18

Az új Gemini: a személyre szabott MI kora most kezdődik

💡 Ilyen eset például, amikor egyszerűen csak egy autógumi cseréjéhez keresel információt, és nem akarsz a parkolóig rohangálni a rendszámért vagy a pontos gumiméretért, mert éppen sorban állsz...

MA 13:03

A nyílt forrású MI már az infografikákban is veri a Google-t

📊 2026 elején az MI két legfontosabb fejleménye a felhasználók számának gyors növekedése, illetve a lenyűgöző új képgenerátor modellek megjelenése, amelyek képesek bonyolult, szövegközpontú képeket – például infografikákat, prezentációkat vagy műszaki ábrákat – gyorsan és pontosan előállítani...

MA 12:49

Az új Galaxy S26 Plus kijelzője csúnyán leszerepel

A Samsung hamarosan megkezdi a Galaxy S26 Plus tömeggyártását, és a hónap végén már sor kerül a hivatalos bemutatóra...

MA 12:34

A kínai vas az MI trónjára tör: a Huawei nagy dobása

🧬 A kínai Zhipu AI (Z.ai) bejelentette, hogy teljesen kínai, Huawei-hardveren, saját fejlesztésű MI-modellt betanított, ezzel pedig elsőként hozott létre fejlett modellt kizárólag hazai technológiával...

MA 12:17

Az FTC öt évre megtiltotta a GM-nek a sofőrök helyadatainak értékesítését

Az amerikai Szövetségi Kereskedelmi Bizottság (FTC) megállapodott a General Motorsszal (GM) és leányvállalatával, az OnStarral, miután kiderült, hogy a vállalatok több millió ember helymeghatározási és vezetési adatait gyűjtötték és adták el hozzájárulás nélkül...

MA 12:02

A Wikipédia, ami lélegzik: 25 éve együtt írjuk a világot

📚 25 éve, 2001. január 15-én indult a Wikipédia, amely mára internetes tudáskatalógussá nőtte ki magát: több mint 65 millió szócikkével havonta közel 15 milliárd megtekintést gyűjt...

MA 11:49

A Google nagy dobása: ragasztó nélkül cserélhető akkumulátor

🔋 Az okostelefonok, tabletek és egyéb kütyük akkumulátorait eddig szinte minden gyártó erős ragasztóval rögzítette, hogy a készülék megőrizze víz- és porállóságát, karcsúságát, valamint a vezeték nélküli töltés is támogatott legyen...

MA 11:33

Az új Netflix-őrület: Pete Davidson és Michael Irvin podcastjai tarolnak

🎥 A Netflix komolyan rákapcsolt a podcastokra, és januárban két vadonatúj videósorozattal bővíti kínálatát...

MA 11:17

A Gemini MI végre megérkezik az androidos Chrome-ba

💡 Úgy tűnik, hogy a Google új funkcióval kísérletezik: a Gemini nevű MI-t beépítené az androidos Chrome böngészőbe, hogy mobilon is ügynökszerű, azaz önálló döntéseket hozó szolgáltatásokat kapjunk...

MA 10:57

Az ingyenes Starlink rést üt Irán digitális blokádján

🚀 A SpaceX jelentősen megkönnyítette az iráni tüntetők számára, hogy kikerüljék a kormány szigorú netblokádját: a Starlink műholdas internet immár ingyenesen használható Iránban, amennyiben valaki rendelkezik a szükséges vevőberendezéssel...

MA 10:51

Az Animal Crossing: New Horizons 3.0 legnagyobb újításai

Érdemes megvizsgálni, hogy az Animal Crossing: New Horizons legújabb, 3.0-s frissítése mennyi újdonságot rejt...

MA 10:44

Az MS-S1 Max, a Ryzen MI mini PC-k új királya

👑 A Minisforum új dobása, az MS-S1 Max mini-PC jelentős mérföldkövet jelent a kisméretű, de brutális erőre képes számítógépek világában...

MA 10:37

Az új Palo Alto tűzfalhiba megbéníthatja a vállalati védelmet

⚠ A Palo Alto Networks legújabb, magas kockázatú sérülékenységét már javította, de a hibát kihasználva támadók egyszerűen le tudják állítani a vállalat tűzfal-szolgáltatásait, ami teljes rendszereket tesz védtelenné egy szolgáltatásmegtagadási (DoS) támadás során...