Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 20:17

A kedvező árú Tecmojo 12U hálózati rack falra is szerelhető

A szerverek számára nélkülözhetetlen az állványos elhelyezés, hiszen míg egy asztali PC vagy NAS önmagában is megállja a helyét, igazi adatközponti érzést csak egy jó rack adhat...

MA 20:01

Az agyi miniorganoidok forradalmasítják a pszichiátriát

Egyre több kutatás mutatja, hogy a laborban növesztett miniatűr agyak most először engednek igazán részletes bepillantást abba, hogyan torzul az idegrendszer aktivitása skizofrénia és bipoláris zavar esetén...

MA 19:33

Az olvadó gleccserek végórái: drámai veszteség évtizedeken belül

Az elkövetkező évtizedekben évente akár 4 000 gleccser is eltűnhet világszerte, és a század végére már alig maradhat belőlük...

MA 19:19

Az idei filmek üzenete: egyék meg a gazdagokat!

2025-ben a mozik folytatták régi hagyományukat: a leggazdagabbak újra az év nagy ellenségeivé váltak...

MA 19:02

A 2026-os év három legizgalmasabb kriptója: ezekre figyelj

💸 A kriptopénzpiac erőteljes hullámzásait láttuk 2025-ben, hiszen a vezető kriptovaluták értéke 10–50 százalékkal esett vissza...

MA 18:49

Az új Retroid Pocket 6 már a PS2-t is viszi

A Retroid Pocket 6 végre valóság lett, és hamarosan megérkezik az első előrendelők kezébe...

MA 18:34

Az év sokkoló egészségügyi sztorijai: kanyaró, MI-vezérelt vírusok, botrányok

Érdemes megvizsgálni, milyen jelentős fordulatokat hozott 2025 az egészségügy terén: áttörő orvosi kezelések, alapvető biológiai rejtélyek és egészségpolitikai viharok formálták a világot, miközben az MI és a tudomány új korszakot nyitott...

MA 18:18

A Realme GT8 Pro cserélhető kamerával borzolja a kedélyeket

Megemlíthető továbbá, hogy az okostelefonpiacon évtizedek óta ritkán találni igazán meglepő újdonságot, ám a Realme GT8 Pro váratlanul új színt vitt a megszokott kínálatba...

MA 18:01

Az univerzum sorsa veszélyben: gyengül a sötét energia?

Az utóbbi időben egyre nagyobb vitát váltott ki, hogy a sötét energia, az Univerzum gyorsuló tágulásáért felelős titokzatos erő talán mégsem viselkedik úgy, ahogy korábban gondoltuk...

MA 17:50

Az ötven felettiek költekezése turbózza a gazdaságot

A befektetési világ egyre inkább az 50 év felettiekre, az úgynevezett Silver Spenders-re figyel, akik erősödő anyagi helyzetükkel és növekvő befolyásukkal komoly gazdasági lendületet adnak a brit piacnak...

MA 17:35

Az indiai startuplufi kipukkan? A befektetők már válogatnak

📈 India startup-ökoszisztémája 2025-ben közel 4 000 milliárd forintnyi (11 milliárd dollárnyi) tőkét vonzott, de a befektetők jóval kevesebb csekket írtak alá, mint korábban, és mind válogatósabbá váltak...

MA 17:17

Az érzelmileg intelligens párok valódi titkai

Érdemes megvizsgálni, hogy mit csinálnak másként azok a párok, akik magas érzelmi intelligenciával kezelik a konfliktusokat...

MA 17:03

Az Apple Watch: a hatékonyság titkos aduásza

⏱ Felmerül a kérdés: tényleg csak az egészséged figyelésére jó az Apple Watch, vagy a munkahelyi termelékenységben is segíthet?..

MA 16:50

Az MI mindent elárasztott 2025-ben – de hol a forradalom?

Érdemes megérteni, hogy 2025-re az MI már a mindennapok része lett, de az igazi világrengető áttörés elmaradt...

MA 16:33

Az iraki agyagpajzs a porviharok ellen

🌀 Irak déli sivatagaiban egyre gyakrabban támadnak heves por- és homokviharok, amelyeket az éghajlatváltozás okozta aszály, a magasabb hőmérséklet és az erdőirtás felerősítenek...

MA 16:18

A PlayStation idei éve: meglepetések helyett tökéletes folytatás?

🎮 A PlayStation semmit sem bíz a véletlenre a mostani konzolgenerációban. A 2020 óta piacon lévő PlayStation 5 folyamatosan bővült exkluzív játékokkal – a Returnaltől a God of War Ragnarökig, vagy éppen a The Last of Us folytatásaiig...

MA 16:02

A világegyetem csodája: 400 gyűrű fedi fel a csillagszületés titkát

A téli égbolton, ha délkelet felé nézel, és a ragyogó csillagokat keresed, érdemes kicsit feljebb tekinteni a visszafogottabb fényű Perseus csillagkép felé...

MA 15:49

Az MI‑forradalom újraírja a startupok szabályait

A kockázati tőke szereplői egyre szigorúbb követelményeket támasztanak a Series A-befektetések előtt, miközben az MI-láz teljesen átalakítja az iparágat...

MA 15:34

A videójátékok éve: új aranykor, vagy közeleg a vég?

2025 különösen mozgalmas év lett a videojáték-iparban, amit egyrészt új eszközök, másrészt óriási üzleti lépések formáltak át...