Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 06:30

Az új díjrendszer végre megtisztítja New Yorkot

New York City tavaly bevezetett dugódíj-programja mindössze fél év alatt 22%-kal csökkentette a levegőszennyezettséget Manhattanben, és az egész városban érzékelhetően javult a levegő minősége...

MA 06:23

Az év égi show-ja: mindjárt felrobban egy vakító csillag

💥 A V Sagittae nevű különc égitest-rendszer száz éven belül elképesztő égi tűzijátékot produkálhat: a két főszereplő csillag végzetes táncban forog egymás körül, amely végül egy nappal is látható szupernóva-robbanásban csúcsosodhat ki...

MA 06:16

Az űrhajósok új holdi droidja mindenkit lenyűgözött

👽 A NASA következő holdexpedícióját egészen új szintre emeli, hogy az űrhajósok egy négykerekű, önjáró robottal, a MAPP-pal (Mobile Autonomous Prospecting Platform) dolgozhatnak együtt...

MA 06:05

Történelmi események a mai napon (December 10.)

Kiemelt nap a történelemben: Luther fellépése a pápai hatalommal szemben, a méter hivatalossá válása és az emberi jogok világnapja is ehhez a dátumhoz kötődik...

MA 06:02

Az EU rászállt a Google MI-összefoglalóira – kit töröl a találatokból?

Fontos kérdés, hogy ki húz hasznot abból, ha a Google mesterséges intelligenciája (MI) magától összefoglal tartalmakat a keresési találatok tetején...

kedd 20:34

A gőték láthatatlan genetikai csapdába estek

Ami először apróságnak tűnt, komoly evolúciós rejtéllyé nőtte ki magát a tarajos és márványos gőték körében...

kedd 20:17

Áttörés: már a legritkább betegségeket is gyógyítják

Egy mindössze hat hónapos baba, KJ Muldoon lett az első a világon, aki személyre szabott CRISPR-génszerkesztéses kezelést kapott egyedi genetikai mutációjára...

kedd 20:01

A tini hacker rács mögött: 64 millió ellopott adat

Spanyol rendőrök Barcelonában elfogtak egy 19 éves fiatalt, aki kilenc különböző cég rendszereibe tört be, majd 64 millió ember személyes adatait próbálta eladni az interneten...

kedd 19:49

Jön az új chipgyártó, vége az MI energiazabálásnak?

⚡ Érdekes felvetés, hogy az MI gyors fejlődése nemcsak hatékonysági, hanem egyre inkább energiagazdálkodási kihívás elé állítja a világot...

kedd 19:33

Az ősi csillagok átírják a Tejútrendszer történetét

⭐ Felmerül a kérdés, hogy mennyire ismerjük valójában saját galaxisunk, a Tejút, történetét...

kedd 19:02

Az Instacart trükkös árazása: ki fizet többet ugyanazért?

Egy friss kutatás döbbenetes eredményeket hozott az Instacart árképzéséről: a felhasználók ugyanabból az üzletből származó, ugyanazon termékre akár öt különböző árat is láthattak...

kedd 18:50

Az MI-lázban most éri meg igazán videókártyát venni

Érdekes felvetés, hogy a mesterséges intelligencia iránti kirobbanó kereslet néhány hónapon belül alaposan felhajthatja a videókártyák árait...

kedd 18:34

Az űrbe költöznek az adatszerverek – forradalom vagy vakvágány?

🚀 Például egyre többen foglalkoznak azzal a gondolattal, hogy a nagy teljesítményű adatközpontokat a Föld helyett az űrben helyezzék el...

kedd 18:18

Az univerzum rejtett rendje: áttörés a fraktális káosz feltárásában

🌈 Az univerzum felszínes rendjével szemben ott lüktet a káosz: véletlenek, apró kilengések formálnak mindent, a hatalmas galaxisoktól a leghétköznapibb jégvirágig...

kedd 17:49

Leállt a Microsoft Copilot – pórul jártak az európai felhasználók

⚠ Az elmúlt órákban jelentős hiba akadályozta Európa-szerte a Microsoft Copilot MI-asszisztens használatát, így a felhasználók nem érhetik el sem a copilot...

kedd 17:33

Az év animációs szenzációja: jön a Zootropolis 2 streamingre

🐶 Zootropolis 2 (Zootopia 2), a Disney nagysikerű animációs filmjének folytatása, várhatóan 2026 elején érkezik meg az otthonokba...

kedd 16:50

Kínába csempészték az Nvidia GPU-kat: 60 milliárdos botrány

📦 Az amerikai hatóságok ismét komoly, Kínához köthető csempészési hálózatot számoltak fel, amelyen keresztül exportkorlátozás alá eső MI-chipeket szállítottak volna Kínába és más tiltott országokba...

kedd 16:34

Az Android-nyomkövetők hadat üzennek az AirTagnek

🔎 Az Apple AirTag népszerűségét látva hamarosan új nyomkövető eszközök jelennek meg Androidra...