Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 11:17

Az MI-milliárdok 2026-ban kevesebb céghez jutnak

💸 Az elmúlt években a nagyvállalatok folyamatosan kísérleteztek különféle MI-eszközökkel, hogy kialakítsák, milyen stratégiát kövessenek az új technológiák bevezetésénél...

MA 11:02

Az ErrTraffic hamis böngészőhibákkal csap be – új kibercsalás

⚠ Egy veszélyes, frissen felbukkant kiberbűnözői eszköz, az ErrTraffic automatizálja a ClickFix-támadásokat kompromittált weboldalakon...

MA 10:58

A nagy MI-mítosz: továbbra is Prométheusz árnyékában élünk

Az utóbbi években az MI-őrület szinte buborékká dagadt, és sorra dőlnek a befektetések az MI-vel foglalkozó cégekbe...

MA 10:50

Az otthonod növelheti az agresszív mellrák kockázatát

Többek között meglepő, de egyre több bizonyíték támasztja alá, hogy az emberek lakóhelye szerepet játszhat az agresszív, nehezen kezelhető mellrákfajták kialakulásában...

MA 10:43

Az év, amikor felrobbant a Steam: 2025 vad toplistái

💥 2025 vége felé a Valve közzétette a Steam idei legsikeresebb játékainak listáját, amelyben bőven találni meglepő neveket azok számára, akik figyelik a videojáték-világot...

MA 10:36

A Meta bekebelezte Ázsia MI-csodagyerekét

A Meta újabb nagy dobásra készült az év végén: megvásárolta a villámgyorsan növekvő Manus nevű MI-céget, amelynek nevét korábban kevesen ismerték...

MA 10:29

Az OneXSugar Wallet: összecsukható retró erőgép, ami mindent visz

💰 A OneXPlayer mostani dobása, az OneXSugar Wallet, egy olyan retro kézikonzol, amely első ránézésre a hagyományos kétképernyős modellekhez hasonlít – de csak kívülről...

MA 10:22

Az orvosi kannabisz tényleg csillapítja a krónikus fájdalmat?

🩺 A krónikus fájdalom évekig tartó szenvedést jelenthet, ezért sokan fordulnak kannabisz-alapú termékekhez enyhülés reményében...

MA 10:16

Az Európai Űrügynökségre újra lecsaptak a hackerek

Az Európai Űrügynökség (ESA) megerősítette, hogy ismeretlen támadók feltörték néhány, a vállalati hálózaton kívül található szerverét...

MA 10:08

Az MI-ügynökök éve: 2025 nagy dobásai és váratlan fordulatai

🤖 2025-ben az MI-rendszerek kiszabadultak a kutatólaborokból, és mindennapi eszközzé váltak. Középpontba kerültek az önálló cselekvésre képes MI-ügynökök, amelyek képesek más szoftverek kezelésére, alkalmazások futtatására és saját döntések meghozatalára...

MA 10:01

A vádlottak padján a kibervédők – kik az igazi támadók?

Két kiberbiztonsági szakember, köztük egy korábbi zsarolóvírus-tárgyaló, beismerték, hogy 2023-ban több céget támadtak meg az ALPHV/BlackCat zsarolóvírussal, és 1,2 millió dollár (kb...

MA 09:57

Vége az ünnepeknek: a MongoDB rémálma célkeresztben

A karácsonyi szünet gyorsan véget ért a kiberbiztonság világában: egy súlyos MongoDB Server sérülékenység, amelyről az első proof-of-concept (PoC) kódok éppen az ünnepek alatt jelentek meg, mostanra aktívan kihasználhatóvá vált...

MA 09:44

A gigantikus Canon RF 200–800: tényleg a természetfotósok álma?

Fontos kérdés, hogy milyen objektívvel érdemes vadon élő állatokat fotózni, ha nem akarod a fél lakás árát beruházni, vagy nem akarod cserélgetni a felszerelést minden helyzetben...

MA 09:36

A Disney 3,6 milliárd forinttal váltja meg a gyerekek adatvédelmét

A The Walt Disney Company 3,6 milliárd forint (10 millió dollár) bírság megfizetésébe egyezett bele, miután kiderült, hogy megsértette a gyermekek online adatvédelmét szabályozó törvényt...

MA 09:29

Az ezüstexport megnyirbálásával szorongatja Amerikát Kína

Kína csütörtökön szigorítja az ezüst kiviteli szabályait, ezzel az eddig közönségesnek számító nyersanyag stratégiai fontosságú fémmé válik...

MA 09:22

Az LG az új Xboom hangszórókkal megrohanja a CES-t

🎙 Az LG ismét felkavarta az állóvizet, amikor bemutatta vadonatúj Xboom hangszóróit, amelyek fejlesztésében a Black Eyed Peas ikonja, will...

MA 09:08

Az indiai gazdaság lehagyta Japánt, feljött a dobogóra

India hivatalosan is megelőzte Japánt, ezzel a világ negyedik legnagyobb gazdaságává lépett elő...

MA 09:01

Az FCC elkaszálta a biztonságos okosotthonok tervét

Az amerikai Cyber Trust Mark program, amely az Energy Starhoz hasonló tanúsítványt adott volna az okosotthon-eszközök kiberbiztonságára, alig egy évvel indulása után zátonyra futott...

MA 08:57

Az asztal aljára is rátapad: Sodola SL902-SWTG015AS teszt

🧩 A Sodola SL902-SWTG015AS egy 5 portos, 2,5GbE-s, valamint egy 10GbE SFP+ bővítőportos switch, amely azonnal feltűnik könnyű alumínium házával és mágneses rögzítési lehetőségével...