2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 20:55

A kriptovilág legnagyobb sebezhetősége: mi magunk

2025 rekordévnek számított a kriptós hackelések történetében, de a károk többsége már nem hibás okosszerződésekből, hanem emberi mulasztásból fakadt...

MA 20:37

Az otthoni neted veszélyben: súlyos Wi‑Fi‑sebezhetőség

⚠ A Broadcom chipkészleteit érintő súlyos hibát javítottak, amely lehetővé tette, hogy támadók túlterheléses (DoS) támadással leállítsák bizonyos Wi‑Fi-routerek működését...

MA 20:02

A seprűző tehén, amely átírja a haszonállatok intelligenciáját

🐮 A Tiroli-Alpokban él egy tehén, aki egészen új szintre emeli a haszonállatok intelligenciájáról alkotott képünket...

MA 19:57

Az MI-forradalom felforgatja a játékvilágot – imádni fogják a gamerek?

A Las Vegas-i CES technológiai expóján idén is szokás szerint különleges bejelentésekkel érkezett a Razer: a jól ismert fekete-zöld gamer perifériák gyártója nemcsak új eszközökkel, hanem komoly vitákat kavaró innovációval, az MI-alapú Project Ava virtuális társsal hívta fel magára a figyelmet...

MA 19:37

A Bungie új lövöldéje végre megkapta a megjelenési dátumát

🎉 A Bungie március 5-én dobja piacra a régóta várt, késve érkező extraction shooterét, a Maratont (Marathon), amely Xbox Series X|S-re, PS5-re és PC-re is megjelenik...

MA 19:21

Az új, szemüveg nélküli 3D-tévék forradalmasítják az otthoni mozizást?

Hollywood már többször próbálta visszahozni a 3D tévét, de eddig csak hatalmas pukkanás lett belőle...

MA 19:01

Az ETF-ekbe ömlik a kriptópénz – meddig tart a roham?

A digitális eszközalapok múlt héten soha nem látott 2,17 milliárd dollár (kb...

MA 18:55

Az Apple elkeni a határt a hirdetések és találatok között

🔍 Az Apple éppen új App Store felületet tesztel, ahol a hirdetések és a tényleges találatok egyre nehezebben megkülönböztethetők...

MA 18:37

Az óriáspókot imitáló hálók visszariasztják a ragadozókat

🕷 Az apró *Cyclosa*-pókok különös védekező stratégiáját fedezték fel: a mindössze néhány milliméteres állatok óriáspók-alakú „díszeket” szőnek pókhálójukra, hogy elijesszék a ragadozókat...

MA 18:01

Vége az okosóráknak? Új per kinyírhatja a kedvenc funkciódat

Az MI-alapú esésérzékelés mára szinte alapszolgáltatásnak számít az Apple Watch, a Google, a Samsung és a Garmin legnépszerűbb okosóráiban...

MA 17:54

Az energiaéhes Kína már kétszer annyi áramot fogyaszt, mint Amerika

Kína 2025-ben minden eddiginél több áramot használt fel: az ország éves fogyasztása 10,4 billió kilowattóra, ami kétszer annyi, mint az Egyesült Államoké...

MA 17:37

Az MI-verseny: a Threads mobilon lehagyta az X-et, de korai az öröm

A Meta Threads alkalmazása végre átvette a vezetést az X előtt a napi mobilos felhasználók számában: január elején 141,5 millió napi aktív iOS-es és androidos felhasználót ért el, míg az Elon Musk-féle platform 125 millióval kullog mögötte...

MA 17:19

Az MI, amely végre nem leskelődik: megérkezett a Confer

Az MI-asszisztensek robbanásszerű terjedése komoly aggályokat vet fel a személyes adatok védelmével kapcsolatban...

MA 17:01

Az új zsebkonzol, ami letarolja a piacot?

A MANGMI új kézikonzolja, a Pocket Max, komoly izgalmat váltott ki a játékosok körében...

MA 16:37

Az új FiiO JM21: zsebnyi koncert, döbbenetes tárhellyel

A Fiio JM21 hordozható Hi-Res Audio-lejátszója 2026-ban jelentős frissítést kap. Az új modell, amelyet január 23-án dobnak piacra körülbelül 91 000 forintért (250 USD), továbbra is két Cirrus Logic CS43198 DAC-ot használ, akárcsak elődje, viszont nagyobb akkumulátorral és több tárhellyel csábít...

MA 16:19

Az orvosi kannabisz nem csodaszer: idegfájdalomra hatástalan

A kannabisz-alapú szerekre sokan a krónikus idegi fájdalom új reményeként tekintenek, de a legnagyobb átfogó vizsgálat szerint ezeket a várakozásokat nem igazolja a tudomány...

MA 16:01

Az új One UI megérkezett: a Bixby szintet lép

A Samsung hamarosan kiadja a One UI 8.5 negyedik bétaverzióját a Galaxy S25-re, amelynek egyik legnagyobb újítása egy okosabb, MI-alapú Bixby lesz...

MA 15:57

A robotporszívód bevetésre kész: 7 tipp a tökéletes rajthoz

🧺 Megérkezett a vadonatúj robotporszívó, de nem tudod, hogyan kezdj hozzá a használatához?..

MA 15:39

A Motorola Moto Watch Fit lehet az olcsó okoskarkötők királya?

A Motorola Moto Watch Fit az utóbbi idők egyik legbarátságosabb árú fitneszkarkötője, mégis meglepően sok személyre szabható funkciót kínál a mindennapos sportoláshoz és egészségkövetéshez...