2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 18:20

Az okos műbőr, amely képeket rejt és alakot vált

A Penn State Egyetem kutatói új, „okos”, hidrogélalapú műbőrt fejlesztettek ki, amely képes álcázni vagy feltárni képeket, szövegeket és más információkat, sőt a felülete, megjelenése és formája is parancsra változtatható...

MA 18:02

Az EU rászállt a TikTokra: veszélyesen addiktív

Az Európai Bizottság szerint a TikTok jelenlegi működése túlzottan addiktív, ezért akár a szolgáltatás alapjain is változtatni kellene a jogszabályok betartása érdekében...

MA 17:38

A láthatatlan vegyi eső már bolygónkat is elborítja?

🌧 Egyre nagyobb mennyiségben hullik a Földre egy szinte eltávolíthatatlan szennyező anyag, amelyet eredetileg az ózonréteg védelmére fejlesztett anyagok lebomlása generál...

MA 17:19

Az univerzum legvadabb energiakitörése: tombol Jetty McJetface

💥 Az elmúlt években egy különleges fekete lyuk, amelyet Jetty McJetface-nek becéznek, minden eddiginél erőteljesebb sugárzást bocsát ki – a kutatók szerint jelenleg az univerzum legnagyobb energiájú objektumai közé tartozik...

MA 17:02

Az igazi Starlink-mobil? Musk tagad, de jöhet egy MI-kütyü?

A SpaceX már most is műholdak százait irányítja az űrben, amelyek világszerte internet-hozzáférést biztosítanak...

MA 16:55

Az MI eladási pánikot váltott ki a tech tőzsdén

📈 A hét elején drámai árfolyamesés rázta meg a szoftveripart, miután az Anthropic új, MI-alapú vállalati csomagja, a Claude Cowork fenyegetést jelent a hagyományos szoftvereszközök számára...

MA 16:19

Az OpenAI Codexe már nemcsak programoz: új korszak az MI-ben

🧠 Az OpenAI bemutatta a GPT-5.3-Codexet, amely egy fejlettebb kódoló MI-modell, és mostantól a parancssorban, fejlesztői környezetben, webes felületen, valamint új platformokon is elérhető – API-hozzáférés viszont még nincs hozzá, de hamarosan várható...

MA 16:01

A spanyol kormány egyik minisztériumát kibertámadás bénította meg

🔒 A Spanyol Tudományos Minisztérium részlegesen leállította informatikai rendszereit, miután kibertámadás gyanúja merült fel...

MA 15:19

Az Amazon és a Google vezet az MI-harcban – de milyen áron?

📈 A nagy techcégek versenye egyre inkább arról szól, ki tud többet költeni adatközpontokra, hogy ezzel növelje az MI-fejlesztésekhez szükséges számítási kapacitást...

MA 15:01

A CISA elrendelte az elavult hálózati eszközök lecserélését

🔧 Az Egyesült Államok Kiberbiztonsági és Infrastruktúra-védelmi Ügynöksége (CISA) kötelező irányelvet adott ki, amely szerint a szövetségi ügynökségeknek fel kell kutatniuk és le kell cserélniük minden olyan hálózati eszközt – például útválasztókat, tűzfalakat és kapcsolókat –, amelyek már nem kapnak frissítést a gyártótól...

MA 14:56

A Szilícium-völgyet rettegésben tartják a titokzatos MI-botok

🤖 Egy átlagos hét sincs már az MI világában: friss az xAI-fúzió, a technológiai részvények piacán tombol az MI-hisztéria, és a Moltbook nevű új közösségi hálózat személyes MI-ügynökeivel robbantotta fel az internetet...

MA 14:38

Az MI-őrület: tényleg közeleg az új dotkomlufi?

A befektetői hangulat jelentősen átalakult ezen a héten, miután egyre többen kérdőjelezik meg a vállalati szoftverek és IT-szolgáltatások értékét abban a korszakban, amelyben a mesterséges intelligencia házon belül is elláthat sok feladatot...

MA 14:19

Az első gyerektelefon, amitől a szülők is nyugodtan alhatnak

A Samsung és az AT&T bemutatta a vadonatúj amiGO Jr. Phone-t, amely kifejezetten gyerekeknek készült...

MA 13:55

Az új LEGO-őrület: megjelenés előtt áll, mégis mindenki ezt lesi

🚀 A LEGO idén igazán szokatlan húzással jelentkezik: érkezik a Hail Mary küldetés (Project Hail Mary) építőkészlet, pedig a film maga még mozikba sem került...

MA 13:19

A Samsung berobban az első Ultra robotporszívóval

A robotporszívók ma már szinte nélkülözhetetlenek annak, aki szeretné tisztán tartani otthonát minimális erőfeszítéssel...

MA 13:01

A valaha volt legdurvább kriptotél: miért szakad be minden?

Az októberi csúcs óta a Bitcoin értéke mintegy 44%-kal esett vissza...

MA 12:55

Az új Switch végre feltámasztja a retro klasszikusokat

A Nintendo évekkel ezelőtt eltemette a Virtual Console-t, vagyis azt a lehetőséget, hogy klasszikus játékokat töltsünk le egyenként a Wii-re vagy a Wii U-ra...

MA 12:38

Az MI már önállóan költhet – itt az új korszak?

A programozásban járatlanok ma már képesek saját alkalmazást készíteni, köszönhetően a vibe-coding megoldásoknak, például a Lovable-nek, amelyek hétköznapi nyelvű leírásból működő kódot generálnak...

MA 12:20

Az „oldalszámozás” áttörése új korszakot nyit a DNS-tervezésben

🔎 A mesterséges intelligencia és a fejlett számítástechnika már ma képes olyan genetikai szekvenciákat tervezni, amelyek változatos biológiai alkalmazásokat tesznek lehetővé...

MA 12:06

Végre iPhone-okkal indulhatnak a Holdra az űrhajósok

A NASA új szabályozásának köszönhetően az űrhajósok a közelgő Crew-12 és Artemis II küldetések során már magukkal vihetik iPhone-jaikat, illetve más modern okostelefonokat az űrbe és a Holdra is...

MA 11:55

Az orosz virtuális gépek mögül csapnak le a zsarolóvírusok

A kiberbűnözők új trükkel szálltak be a ransomware-piacra: egy legitim szolgáltató, az ISPsystem virtuális gépein keresztül terjesztik a kártékony programokat...

MA 11:38

Az online toborzás lett a felhő legnagyobb biztonsági rése

A felhőalapú szolgáltatások biztonsága napról napra fontosabbá válik, miközben újabb és újabb támadási módszerek jelennek meg...

MA 11:20

Az új Ubiquiti UniFi switch végre 10G-s PoE-t hoz az asztalodra

🔋 Az Ubiquiti UniFi USW-Pro-XG-8-PoE egyedülálló megoldást kínál azoknak, akik gyors hálózatra és professzionális PoE-ellátásra vágynak...

MA 11:01

Az élet nyomában: Valóban sosem fagytak be teljesen a marsi tavak?

🕵 Évszázados rejtély, hogy miért vannak a Marson víz jelenlétére utaló nyomok, miközben a bolygó sosem volt elég meleg, hogy tartósan folyékony víz maradjon rajta...

MA 10:57

Az OpenAI új MI-je: aranybánya a hekkereknek, rémálom a fejlesztőknek

🔧 Az OpenAI bemutatta legújabb fejlesztését, a GPT-5.3-Codex nevű MI-modellt, amely messze felülmúlja a konkurens rendszereket kódolási teljesítményben és megbízhatóságban...

MA 10:49

Az MI-alapú keresés lehet a Reddit új aranybányája?

Az MI-alapú keresésben látja a Reddit a jövő üzleti lehetőségét. A vállalat szerint az MI által támogatott kereső túlszárnyalhatja a jelenlegi megoldásokat, mert ott is hatékony válaszokat tud adni, ahol hivatalos válasz nem létezik – elvégre a Reddit erőssége mindig is az volt, hogy egy kérdésre rengeteg különböző vélemény érkezhet sok felhasználótól...

MA 10:41

Az új korszak küszöbén: a Toyota ismét vezérigazgatót vált

🚗 Március 1-jétől új vezérigazgató irányítja a Toyotát: Kenta Kon, a korábbi pénzügyi igazgató lett a vállalat elnök-vezérigazgatója...

MA 10:26

A bonobó, aki átvert minket: Kanzi mesterien színlelt

Kanzi, a különleges nyelvet értő bonobó valódi meglepetést okozott a kutatóknak azzal, hogy képes volt színlelt játékban részt venni, és fejben nyomon követni kitalált tárgyakat – éppúgy, ahogy a kisgyerekek teszik...

MA 10:17

Az ázsiai kémek világszerte feltörték a kormányzati rendszereket

🕵 Az ázsiai államhoz köthető kiberkémkedő csoport csendben kompromittálta több mint 37 ország kormányzati rendszereit és kritikus infrastruktúráit, és több mint 70 szervezetbe jutott be sikeresen...