2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 19:22

A NASA óriási óceáni melegfoltot észlelt, jöhet az El Niño

🌊 A NASA műholdjai a Dél-Amerika partjaihoz tartó hatalmas melegvíztömeget figyeltek meg, amely komoly eséllyel az El Niño kialakulását jelzi...

MA 19:12

Az AYANEO tenyérnyi Game Boy-mása újra ringbe száll

🎮 A zsebben is elférő AYANEO Pocket Micro az utóbbi évek egyik legjobb kézi konzolja lett, amely tökéletesen hozza a klasszikus Game Boy Advance hangulatot...

MA 19:01

Az emberes SpaceX Mars-küldetés? Ne számítsunk rá ebben az évtizedben

🚀 Érdemes megérteni, hogy a SpaceX, amely a múlt pénteken debütált a Nasdaqon, villámgyorsan 19%-ot emelkedett, ezzel átlépve a 2 billió dolláros (kb...

MA 18:56

Az Xboxon felbukkant a „Vedd meg most, fizess később”, kiakadtak a rajongók

💸 Érdemes megvizsgálni, hogy a videojátékokhoz és konzolokhoz kapcsolódó vásárlási lehetőségek hogyan változnak a növekvő árak fényében...

MA 18:45

Az utazók pórul járhatnak: megugorhatnak a T‑Mobile külföldi percdíjai

Ha külföldre utazol, általában két lehetőséged van: veszel egy helyi SIM-kártyát, vagy a megszokott szolgáltatód roamingját használod...

MA 18:35

Az MI-vel ne csak gyorsabbak, hanem jobbak is legyenek a munkatársak

Képzeld el, pályád elején vagy, és a főnököd megbíz egy kellemetlen feladattal: meg kell írnod egy e-mailt egy fontos ügyfélnek, amelyben megmagyarázod a projekt késését...

MA 18:24

Az óriásgát Tibetben: Kína a természetet próbálja megszelídíteni

🚦 Magasan, a 4500 méterrel a tengerszint felett fekvő Tibeti-fennsík évszázadok óta Ázsia víztornya...

MA 17:45

A válogatós cégek MI-tudást követelnek: bajban az informatikusok

A kaliforniai techszektorban dolgozók tömegei még mindig abban reménykednek, hogy a munkaerőpiac végre talpra áll, de valójában egyre nehezebb új állást találni...

MA 17:34

A KFC visszavág: csont nélküli csirke és új italok

Az ikonikus gyorsétteremlánc most új stratégiához nyúl: teljesen átalakítja kínálatát, hangsúlyt helyezve a csont nélküli csirkére, különleges szószokra és izgalmas, élményalapú vendéglátásra...

MA 17:23

A Tejútrendszer szívében hatalmas szupernóva lehetséges maradványaira bukkant a NASA

💫 26 ezer fényévnyi távolságból figyelte meg a NASA Chandra Röntgen Obszervatóriuma a Tejútrendszer egyik leglátványosabb jelenségét...

MA 17:01

Az egyetemisták tömegesen felejtenek el olvasni?

Egy irodalmat és íráskészséget oktató egyetemi tanár, Tyler Jagt meglepő tapasztalatairól számolt be: egyik diákja sem tudott végigolvasni egy húszoldalas, kötelező tanulmányt, amelyet ő maga még egy évtizede egyetemistaként gond nélkül elolvasott...

MA 16:23

Az MI-felügyelőkre vadásznak a cégek: berobban a brit munkaerőpiac

Ami először apróságnak tűnt, mára gyökeresen átalakítja a brit munkaerőpiacot: a mesterséges intelligencia iránti kereslet ugrásszerűen megnőtt az utóbbi évben...

MA 16:12

A rekord egynapos esetszámugrás az Ebola-járványban Kongóban, egy hónappal a kitörés után

😷 Kongóban az Ebola-járvány minden eddiginél gyorsabban terjed, miközben az egészségügyi hatóságok igyekeznek lépést tartani az egyre növekvő esetszámmal...

MA 16:01

Az Antarktisz alatt több száz rejtett földrengést fedeztek fel – szokatlan helyen

Senki sem várta volna, hogy az Antarktisz rejtett, rendszeres földrengésekkel lepi meg a tudósokat...

MA 15:56

A Google lebuktatta a következő Pixel Dropot: képernyőreakciók, fizetős extrák

Tipikus eset, amikor egy vállalat maga szivárogtatja ki a nagy újításai részleteit, így mire a hivatalos bejelentés megtörténik, már mindenki tudja, mire számíthat...

MA 15:45

A SpaceX óriási tőzsdei bevezetése mindent a feje tetejére állíthat

Különösen igaz ez akkor, ha a befektetők már hónapok óta várnak valami nagy visszatérésre a tőzsdén...

MA 15:34

A Google AI-módja mostantól helyetted tartja számon az információkat

📝 A Google újabb nagy dobással jelentkezik: már valóság az a funkció, amelyben személyes digitális ügynököd veszi le a válladról az állandó keresgélést és a friss információkra való vadászatot...

MA 15:23

Az AMD Radeon RX 9070 XT váratlanul tarol a Steam-felmérésben

🔥 Az AMD új Radeon RX 9070 XT videókártyája váratlanul népszerűvé vált a gamerek körében: a legfrissebb Steam hardverfelmérés szerint májusban már 1,33%-os részesedést szerzett a felhasználók között, ezzel az első helyre került az AMD GPU-k között...

MA 15:02

Az NHS–Palantir adatüzletet visszaküldték újabb felülvizsgálatra

Jellemző példa erre, hogy a brit kormány felülvizsgálja a Palantirral kötött szerződését, amelynek célja az angliai Nemzeti Egészségügyi Szolgálat (NHS) több százezres nagyságrendű elmaradt, tervezett ellátásainak digitalizálása és felgyorsítása...

MA 14:56

Az AMD megtagadta a 10 ezer dolláros jutalmat – kitört a botrány

Egy kutató, Paul komoly sebezhetőséget talált az AMD szoftverében: egy távoli kódfuttatásra (RCE) alkalmas hibát fedezett fel a frissítőprogramban, amit közbeékelődéses (MITM-) támadással ki lehetett volna használni...

MA 14:45

Az alvilág ura: Mictlantecuhtli 500 éves, hátborzongató maszkja

Ámulatba ejtő, koponyára emlékeztető fa maszk idézi meg az azték alvilág hatalmas urát, Mictlantecuhtlit...

MA 14:34

Az Insta360 visszaperel: kirobban a szabadalmi háború a DJI ellen

🔫 Az akciókamerák világában újabb fordulóhoz érkezett a versengés: az Insta360 saját jogi lépésekkel vág vissza a DJI ellen...

MA 14:23

A színpadról a csillagok közé: Erini Lambrides a NASA-nál

🌌 Különösen igaz ez, hogy ha a gyerekkori álmainkat felnőttként is követjük, gyakran teljesen váratlan ösvényekre sodródhatunk...

MA 13:56

Az MI koronáját nem Amerika viseli – a világ így látja

Kína lassan megelőzi az Egyesült Államokat a mesterséges intelligencia fejlesztésében, és ezt világszerte egyre többen is így látják...

MA 13:33

A dolgozók annyit pesztrálják az MI-t, mint amennyit dolgoznak

A dolgozók kezéből egyre többet vesz át a mesterséges intelligencia, mégis rengeteg új, eddig ismeretlen feladat keletkezik...

MA 13:12

A lábunk alatt húzódik a Földet összekötő gombasztráda

Érdemes megérteni, hogy a lábunk alatt egy szinte felfoghatatlanul kiterjedt, láthatatlan hálózat húzódik: ez a gombafonalakból álló rendszer 110 billiárd kilométer hosszan behálózza a talajainkat...

MA 13:01

Az ARK Invest félmilliárdnál is többet költött SpaceX-részvényekre az IPO-n

Pénteken, a SpaceX történelmi tőzsdei bevezetésekor az ARK Invest közel 3,3 millió részvényt vásárolt, így több mint 180 milliárd forintos (500 millió USD) pozíciót épített ki egyetlen nap alatt...

MA 12:34

Az igazság órája: felelős a Google a hibás MI-összefoglalókért

A techóriások eddig messzire kerülték, hogy felelősséget vállaljanak azért, ha termékeik vagy szolgáltatásaik hibásan működnek, vagy félrevezető információkat adnak...

MA 12:01

A cégednek nem ad hoc MI-trükkök kellenek – íme, miért

A legtöbb vállalat manapság egyszerűen csak rá akarja húzni a mesterséges intelligenciát egy olyan működési modellre, amelyet még a múlt század stabil, kiszámítható világára szabtak...