Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

vasárnap 19:18

A Samsung tarol az idei CES-en: megjött a nagy bejelentés

🔥 Minden szem a Samsungra szegeződik a 2026-os CES-en, hiszen a techóriás idén is Las Vegasban tartja nagyszabású bemutatóját...

vasárnap 19:02

A Végítélet-gleccser megremeg: földrengéshullám rázza az antarktiszi jégóriást

🌌 Lényeges, hogy a világ egyik legnagyobb jégárja, a Thwaites-gleccser – ismertebb nevén Végítélet-gleccser (Doomsday Glacier) – elképesztő sebességgel veszít tömegéből, és közben százával rázzák meg a jégföldrengések...

vasárnap 18:49

Az MI-botrány: a Grok gyerekekről gyártott szexuális deepfake-eket

Az utóbbi napokban Franciaország és Malajzia is csatlakozott Indiához, elítélve a Grok chatbot működését, amely nők és kiskorúak szexualizált deepfake-képeinek előállítása miatt került a középpontba...

vasárnap 18:33

Az új NotePin S végre kapott egy dedikált gombot

🖋 A Plaud bemutatta a megújult NotePin S-t, az apró, MI-alapú diktafont, amelyet mostantól végre egy fizikai gombbal is felszereltek...

vasárnap 18:17

Itt a Belkin nagy dobása: forradalmi, egyedi kijelzővédők

🛠 A Belkin idén is meglepi a felhasználókat a CES-en, és ezúttal nemcsak új tokokat és power bankeket, hanem teljesen személyre szabható kijelzővédőket is bemutat...

vasárnap 18:01

Az új füles kiszűri a zajt, és helyetted jegyzetel

🗣 Egy feltörekvő MI-cég új vezeték nélküli fülhallgatót mutatott be, amely forradalmasítja a hangalapú jegyzetelést és telefonálást zajos környezetben...

vasárnap 17:50

Az új bankszámla aranyat érhet: akár 4% kamat járhat

💵 Akik manapság spórolni szeretnének, azoknak különösen oda kell figyelniük a kamatokra...

vasárnap 17:34

Az önjáró napelemes robot beköltözteti a jövőt a kertedbe

Jackery, a napelemes megoldások egyik vezető fejlesztője új termékek sorát mutatta be a 2026-os CES-en, amelyek jelentősen átalakíthatják, ahogyan a háztartások és a szabadtéri tevékenységek energiaellátását elképzeljük...

vasárnap 17:18

Az USB három évtizede uralja a csatlakozás világát

🔋 Az USB immár harminc éve segíti eszközeink egyszerű adatátvitelét és tápellátását – ma már elképzelhetetlen nélküle a mindennapi élet, legyen szó otthoni munkáról, irodáról vagy utazásról...

vasárnap 17:02

Az új mémérme-őrület: beindult a Dogecoin

🐶 Az újév első napjai a mémérme-piacon forradalmi hangulatot hoztak: a Dogecoin értéke meredeken, 4,36%-kal emelkedett, elérve a 0,1516 dolláros (nagyjából 55 HUF) szintet...

vasárnap 16:49

A Setét Torony visszatér? Mike Flanagan nem adja fel

Mike Flanagan, aki többször is sikeresen dolgozta fel Stephen King műveit, most minden erejével azon dolgozik, hogy A Setét Torony (The Dark Tower) végre méltó adaptációt kapjon a képernyőn...

vasárnap 16:33

Az okosszemüvegek jönnek: búcsú a mobiloktól?

Az okosszemüvegek több mint tíz éve próbálnak betörni a piacra, de még mindig nem sikerült igazán nélkülözhetetlenné válniuk...

vasárnap 16:17

A Jackery napelemes pavilonja: borsos ár, de zseniális ötlet

Jackery, az otthoni akkumulátorairól ismert márka a CES-en mutatta be legújabb különlegességét, a napelemmel felszerelt pavilont, amely az év végén már Kaliforniában is kapható lesz...

vasárnap 16:01

Az újabb vérfürdő: fegyveresek megrohamoztak egy nigériai falut

🚨 Legalább harminc embert öltek meg fegyveresek Észak-Nigériában, Niger államban, miközben többeket elraboltak a szombat esti támadás során...

vasárnap 15:49

A Govee új okoslámpái fényjátékká változtatják a mennyezetet

A Govee ismét feldobja az otthoni világítást, ezúttal a mennyezetet célozza meg legújabb okoslámpáival...

vasárnap 15:34

A legvadabb, mégis természetes macskafajták titkai

😺 Kevesen gondolnák, hogy a világ mintegy 400 millió macskájából kevesebb mint egy százalékuk tartozik konkrét fajtához...

vasárnap 15:17

Az MSX visszatér: egy filléres fejlesztőkészlet kelti életre a legendát

A nyolcvanas években elképesztő mennyiségű otthoni számítógép létezett, mindenféle méretben és rendszerrel, de ezek szinte egyáltalán nem működtek együtt...

vasárnap 14:50

A hagyományos ébresztők gyötörnek? A napfelkelte-órák mosolyra ébresztenek.

Sokan már reggel stresszesek lesznek a harsány, rideg ébresztőktől vagy a telefon visító hangjától...

vasárnap 14:35

Az MI‑lufi kipukkan? A Fed és a globális piacok 2026-ban

2026-ra a világgazdaság és a tőzsdék kilátásait a mesterséges intelligencia körüli bizonytalanság, a jegybanki vezetőcserék okozta aggodalmak és a kockázatos magánhitelezés miatti félelmek uralják...