Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 20:52

A CES 2026-on aranyos és félelmetes robotok szabadulnak el

🤖 Érdemes megvizsgálni, hogy a 2026-os Las Vegas-i CES vásáron milyen változatos és meglepő robotokkal találkozhattunk...

MA 20:35

Az amerikai kriptoautomaták napjai meg vannak számlálva?

💸 A kriptovaluta-automaták, vagyis azok a gépek, amelyek készpénzt alakítanak át digitális valutává, az utóbbi években az átverések első számú eszközévé váltak Amerikában...

MA 20:18

Az új óriáskígyó felfedi Amazónia legmélyebb titkát

Egy lényeges szempont, hogy az amazóniai esőerdő mélyén nemrég egy új, eddig ismeretlen óriásanakonda-faj bukkant elő a tudósok előtt...

MA 20:02

Az MI nem váltja ki az embert, mégis minden PC-be költözik

🤖 A Lenovo vezérigazgatója, Yuanqing Yang szerint 2026 végére a vállalati piacra szánt számítógépek fele már MI-alapú lesz...

MA 19:49

Az első vészhelyzeti ISS-evakuálás: bajba jutott űrhajósok hazatérnek

🚀 Négy űrhajós térhet vissza a Földre először kényszerű evakuálás miatt, miután egyikük rejtélyes, súlyos egészségügyi problémával küzd az ISS-en...

MA 19:34

Az Ariane–6 újrafelhasználása: Európa Frankenstein-rakétája?

Az európai űripar évtizedekig a hagyományos rakéták egyszer használatos, eldobható modelljéhez ragaszkodott, miközben a világban egyre nagyobb hangsúlyt kapott az újrahasználat...

MA 19:18

Az év, ami nem négyzetszám, mégis izgalmas: 2026 matematikai titkai

🧠 Érdemes megérteni, hogy bár a 2026-os év első ránézésre nem tűnik rendkívülinek, számos matematikai érdekességet rejt...

MA 19:01

Az eddigi leglassabb Windows? A Windows 11 legnagyobb bakijai

A legtöbb felhasználó szerint a Windows 11 nemcsak tele van felesleges funkciókkal, amelyeket nehéz kikapcsolni, hanem teljesítményben is nagy csalódást okoz...

MA 18:50

A kihalt dinoszauruszok és a szunnyadó fekete lyuk rejtélyei

🦖 Boldog új évet! Idén is akadnak meglepő felfedezések: például hogy a vöröshajúak hajpigmentje különleges, és egy regeneratív nanotechnológia képes lehet védeni az agyat...

MA 18:33

Az iLO 6-ban ez változik, ha Essentialsról Advancedre lépsz

Sokan megszokták, hogy az iLO Advanced funkcióit használják a HPE szervereken, de vannak rendszerek, amelyek csak az alap Essentials kiadással érkeznek...

MA 18:19

Az okosszemüvegek forradalma: a CES 2026 legütősebb modelljei

👓 Az idei CES kiállításon Las Vegasban az okosszemüvegek vitték a prímet, soha nem látott választékban...

MA 17:49

Az ír útlevélbotrány: 13 ezer hibás okmányt hívnak vissza

Írország külügyminisztériuma csaknem 13 000 útlevelet hív vissza, mert egy szoftverfrissítés hibája miatt hibásan nyomtatták ki azokat...

MA 17:33

A kialvatlanság éveket rabol az életedből

🛍 Érdemes megvizsgálni, milyen komoly következményei lehetnek a kevés alvásnak. Rendszeresen kevesebb mint hét órát aludni nemcsak fáradttá tesz, hanem években mérhetően megrövidítheti az életedet...

MA 17:18

Az űróriás Pandora hamarosan a rejtélyes exobolygók nyomába ered

🚀 A Pandora nevű, hűtőszekrénynyi műhold minden eddiginél pontosabban vizsgálja majd a Naprendszeren túli bolygókat...

MA 17:02

A bitcoin 2050-re 2,9 millió dollárt érhet – veri az aranyat?

💵 A VanEck alapkezelő szerint a bitcoin elképesztő, 2,9 millió dolláros (kb...

MA 16:50

Az űrállomás első orvosi mentése: ki a beteg űrhajós?

A NASA váratlanul, néhány nappal a tervezett időpont előtt hazahozza a Nemzetközi Űrállomás négyfős legénységét az egyik űrhajósnál fellépő egészségügyi probléma miatt...

MA 16:17

Az iPhone Air 2: szebb kijelző, nagyobb akku – de kinek kell?

📱 Az Apple hamarosan újít az iPhone Air-szérián. Bár a jelenlegi modell nem váltotta be igazán a vállalat reményeit, a pletykák szerint 2027-ben jöhet az iPhone Air 2...

MA 16:04

Az elegáns Goldring GR3 hódít, de egy dolog beárnyékolja

🎧 Érdemes észben tartani, hogy a Goldring hosszú kihagyás után, mintegy húsz év elteltével tér vissza a lemezjátszók világába, méghozzá egy olyan készülékkel, amely egyenlő arányban kínál kényelmet, minőséget és látványos megjelenést...

MA 15:49

Az életért folyik a harc a Fülöp-szigeteki lerakóomlás után

A Fülöp-szigeteki Cebu városában már napok óta tart a küzdelem a Binaliw nevű hulladéklerakó összeomlása után, ahol a mentők versenyt futnak az idővel, hogy rátaláljanak a több mint harminc eltűnt dolgozóra...