Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 20:52

Az algoritmus megszelídítve: te döntöd el, mit látsz online

🔎 A mai digitális világban szinte mindannyiunk életét behálózzák a tartalomajánló algoritmusok...

MA 20:33

A mesterséges intelligencia miatt felfüggesztik az online könyvelővizsgákat Angliában

Az ACCA, a világ legnagyobb könyvelői szervezete 260 000 taggal, márciusban leállítja az online vizsgákat, mert az MI-vel támogatott csalás egyre komolyabb probléma...

MA 20:19

Az MI nem hoz munkahelyi apokalipszist: inkább új állásokat teremt

Miközben egyre többen tartanak attól, hogy az MI tömeges munkanélküliséget okoz, a valóságban inkább új munkakörök jelennek meg...

MA 20:03

Az első fentanil-vakcina: jöhet az életmentő áttörés

💉 Egy új vakcina érkezik, amely gyökeresen megváltoztathatja az opioidválság kezelését: 2026-ban kezdődnek az első humán kísérletek a világ első, túladagolás és függőség ellen is védő fentanil-vakcinájával...

MA 19:52

A nagy OWASP MI‑ügynök‑kalauz: támadások és védekezés

Az elmúlt év meghatározó időszakot jelentett a mesterséges intelligencia (MI) fejlődésében...

MA 19:34

Az agy tanulásának titkai: biomimetikus modell leleplezi rejtett neuronjait

Egy lényeges szempont, hogy az agy működésének megértése már nem csak az állatkísérletek adataira korlátozódik...

MA 19:19

Az űrbéli adatközpont: megoldás az MI energiafalására, vagy puszta őrület?

Felmerül a kérdés, hogy meddig lehet még a Földön bővíteni az adatközpontokat, mielőtt valóban elérnénk bolygónk fizikai korlátait...

MA 19:02

Az egészségügy hét sorsdöntő kérdése 2026-ban

2025 egy viharos év volt az egészségügyben: a tudományos intézmények meggyengültek, a közegészségügyet pedig egyre több támadás érte...

MA 18:50

Elhunyt Lou Gerstner, az IBM megmentője, 83 éves volt

🕐 Az egykori IBM-vezérigazgató, Lou Gerstner szombaton, 83 éves korában halt meg...

MA 18:36

Az MI-forradalom küszöbén: tényleg 2026 hozza a nagy áttörést?

Érdemes megvizsgálni, hogy a ChatGPT három évvel ezelőtti debütálása óta sorra bukkannak fel a vállalati MI-megoldásokat fejlesztő cégek, a befektetők pedig milliárdokat öntenek az iparágba...

MA 18:19

A technológia olimpiája: mit hoz a CES 2026?

Minden év januárjában a világ figyelme Las Vegasra szegeződik, hiszen itt rendezik a technológiai iparág legrangosabb eseményét, a CES-t...

MA 17:50

Az erdőtüzek a gondoltnál sokkal durvábban szennyeznek

Az elmúlt évek tapasztalatai alapján az erdő- és bozóttüzek jelentősen hozzájárulnak a levegőszennyezéshez, azonban egy friss kutatás szerint a helyzet még súlyosabb lehet, mint eddig gondoltuk...

MA 17:34

A kozmosz rejtett fényforrása: új nyomok a gamma-rejtélyben

Az univerzum legnagyobb energiaszintű sugárzását kibocsátó források továbbra is rejtélyt jelentenek a csillagászok számára...

MA 17:17

Az Nvidia 5 milliárd dollárral mentőövet dob az Intelnek

💰 Az Nvidia szeptemberben bejelentett megállapodása alapján 5 milliárd dollárért (kb. 1 730 milliárd forintért) vásárolt részesedést az Intelben, ezzel komoly pénzügyi hátteret biztosítva a processzorgyártónak...

MA 17:02

Az adatlopás csúfos véget ért: MacBook a folyóban, 1,2 milliárdos kár

🚫 A dél-koreai Coupang online áruház korábbi dolgozója beismerte, hogy jogosulatlanul hozzáfért 33 millió ügyfél adatához, ugyanakkor a vállalat szerint a kár mértéke kisebb, mint amitől eredetileg tartottak...

MA 16:33

Az MI új titkos fegyvere: megérkezett a Copilot Smart Plus GPT‑5.2-vel

🚀 A Microsoft ingyenes frissítésként bevezeti a GPT-5.2 modelljét a Copilot szolgáltatásba, amely immár elérhető weben, Windowson és mobilon is...

MA 16:17

Az ezüstláz Kínában: durván zuhannak az árak

Az ezüstár hétfőn meredeken visszaesett, miután történelmi rekordot döntve átlépte a 80 dolláros, azaz közel 28 900 forintos unciánkénti határt...

MA 16:02

A qubitek megmentője: mikrohullámok a kvantumhibák ellen

A kvantumszámítógépek a jövő legígéretesebb számítástechnikai eszközei, de egy komoly hibával küzdenek: a qubitek (kvantumbitek) időnként „elszivárognak” a saját energiaszintjükből, így kiesnek a számításból, sőt a környező qubiteket is megzavarják...

MA 15:49

Súlyos betörés miatt leállt a Rainbow Six Siege

Egy jelentős biztonsági rés miatt az Ubisoftnak le kellett állítania a Rainbow Six Siege szervereit, miután ismeretlenek tömegesen jutottak hozzá a játékhoz kapcsolódó adatokhoz, ritka skinekhez és zárolt fiókokhoz...