Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

szerda 20:51

A forrólevegős sütő, amivel gyerekjáték megetetni az egész családot

Erre utal többek között az, hogy a Ninja Crispi Pro 6-in-1 üvegtartályos asztali légsütő nemcsak a klasszikus egyszemélyes vagy páros konyhák álma lehet: akár tízfős társaságot is simán kiszolgálhat, köszönhetően óriási, 5,7 literes főzőedényének...

szerda 20:33

A mikroműanyagok láthatatlanul mérgezik vizeinket

Egyre világosabbá válik, hogy a mikroműanyagok nemcsak szemmel látható szennyezők, hanem láthatatlan vegyi felhőket is kibocsátanak a folyókba, tavakba és óceánokba...

szerda 20:17

Az új botnethullám ostrom alá vette a Next.js-szervereket

A RondoDox nevű botnet hónapok óta tartja rettegésben az informatikai világot: most a React2Shell hibát (CVE-2025-55182) használja ki, hogy Next...

szerda 19:33

Az Unleash Protocolt kifosztották: milliárdok tűntek el

A decentralizált szellemi tulajdonkezelő platform, az Unleash Protocol súlyos támadást szenvedett el: egy illetéktelen szerződésfrissítés után 3,9 millió dollárnyi (kb...

szerda 19:19

A gyógyítás forradalma, zuhanó közegészség: mi vár ránk 2026-ban?

💉 Az elmúlt években a gyógyászat elképesztő áttöréseken ment keresztül, de miközben új terápiák és technológiák valósággá válnak, a közegészségügy alapjai megrendültek...

szerda 19:02

Az élet nyomában: új felfedezések a Marson egykor hömpölygő óriásfolyókról

Ami először apróságnak tűnt, mára alapjaiban változtatja meg a Marsról alkotott elképzeléseinket: egykor hatalmas folyók és eső formálták a vörös bolygó felszínét...

szerda 18:33

Az orosz szál és a Balti-tenger sötét mélyének titkai

Finn hatóságok lefoglaltak egy hajót, amelyről azt gyanítják, hogy horgonyával átvágta a Finn-öböl alatt húzódó, Helsinkit Tallinnal összekötő tenger alatti távközlési kábelt...

szerda 18:17

A Disneyt 3,6 milliárd forintra büntették gyerekadatokért

🚫 A Disney beleegyezett, hogy 3,6 milliárd forint (10 millió dollár) bírságot fizet, mert megsértette a gyermekek online adatvédelméről szóló amerikai törvényt...

szerda 18:03

A titokban csempészett Nvidia-chipek: 60 milliárd forintnyi hardver Kínán át

2024. december 8-án az amerikai hatóságok egy nagyszabású nyomozás részleteit hozták nyilvánosságra, amely egy világszintű, Kínához köthető csempészhálózatot buktatott le...

szerda 17:51

Az űr és védelem aranykora: ezek a műholdas cégek hódítottak

Fontos kérdés, hogy a tőzsdei befektetők figyelme miért fordult ebben az évben az űripar és a hadiipar felé, amikor a mesterséges intelligencia körüli felhajtás mindent elárasztott...

szerda 17:17

Az IBM-fiaskó kaput tár a hackereknek: veszélyben az API Connect

🚧 Az IBM kritikus sebezhetőségre figyelmeztet az API Connect vállalati platformban, amely súlyos biztonsági rést jelenthet több száz pénzügyi, egészségügyi, kiskereskedelmi és telekommunikációs cégnél világszerte...

szerda 16:49

A nagy földrengések tanulsága: a mianmari rengés mindent elsöpört

Március végén egy hatalmas, 7,7-es erősségű földrengés rázta meg Mianmart, amely példátlan módon, rendkívüli hatékonysággal és zökkenőmentesen vitte át a mélyből érkező energiát a felszínre...

szerda 16:18

A hó birodalma: Colorado rejtett fehér csodái

A Coloradó téli erdeiben és hegyoldalain egészen különleges jelenség játszódik le: néhány állatfaj megváltoztatja a bundája vagy tollazata színét, és hófehér ruhát ölt, hogy túlélje a kemény évszakot...

szerda 16:01

A hongkongi bankok új trükkje: csak személyesen férsz a pénzedhez

🔒 Hongkong új szintre emeli a banki csalás elleni védelmet: bevezették a Money Safe-számlákat, amelyekből kizárólag személyes megjelenéssel lehet pénzt felvenni vagy utalni...

szerda 15:49

A papírlevél korszaka véget ér Dániában

Dániában mostantól már senki sem számíthat arra, hogy hivatalos levelet talál a postaládájában, ugyanis az állami PostNord végleg leállította a levélkézbesítést...

szerda 15:34

A hódgátak forradalma: megmenthetik a tájat a tűzvészek után?

🦐 Magasan, Fort Collinstól nyugatra fekvő hegyekben tudósok és mérnökök hódokat utánoznak — legalábbis ami a gátépítést illeti...

szerda 15:17

Az NIH visszakozik: újraértékelik az elutasított kutatási pályázatokat

Több száz egészségügyi kutatási pályázat kapott új esélyt az Egyesült Államokban, miután a National Institutes of Health (NIH) bejelentette: felülvizsgálja azokat a támogatási kérelmeket, amelyeket a Trump-kormány antidiverzitási intézkedései miatt függesztettek fel...

szerda 15:01

A SoftBank 1460 milliárd forintért bevásárol az MI-forradalomba

A japán SoftBank Group 4 milliárd dollárért, vagyis mintegy 1460 milliárd forintért felvásárolja a DigitalBridge Groupot, hogy tovább erősítse pozícióját a globális MI-infrastruktúra fejlesztésében...

szerda 14:49

Az olcsó napelemek forradalmasítják Afrika mindennapjait

Az olcsó, kínai napelemek és akkumulátorok új korszakot nyitnak Afrika energiaellátásában...