Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

szombat 18:40

Leghaszontalanabb amerikai szlengek és idiómák

“Wallet biopsy” Szó szerint: pénztárca-biopszia 💸, amikor egy orvos vagy egészségügyi szolgáltató előbb ellenőrzi 🔬, mennyi pénzed / biztosításod van, és aztán dönti el, milyen vizsgálatot kapsz...

csütörtök 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 18:33

Az EA leszámolt a csalókkal a Battlefield 6-ban

Az EA szerint a Csatatér 6 új csalás elleni rendszere látványos sikert hozott, még akkor is, ha sok játékos tart a mélyebb szintű védelmi megoldásoktól...

MA 18:17

Az OpenAI tényleg reklámokkal pakolná tele a ChatGPT-t?

A ChatGPT eddig reklámmentes és ingyenes volt, prémium előfizetés csak a plusz funkciókhoz kellett...

MA 18:01

A net régi varázsa: a Slop Evader kiszűri az MI-szemetet

Az internetet egyre jobban elárasztják a generatív MI által gyártott szövegek, képek és videók...

MA 17:34

Az apró ősállat, amely felforgatja a gyíkok történetét

🐍 Érdemes megvizsgálni, hogy egy 242 millió éves, mindössze tenyérnyi méretű fosszília Devon partjairól hogyan változtatja meg a gyíkok és kígyók fejlődéséről alkotott elképzeléseket...

MA 17:18

Az okos techbefektetés, amit már 36 ezer forintért elkezdhetsz

Hihetetlen, de mégis igaz, hogy 36 ezer forintból (100 USD) már komoly, hosszú távú technológiai befektetést indíthatsz, ha a megfelelő alapot választod...

MA 16:33

Az ünnepi rali jön, vagy újabb pofon vár a tőzsdén?

🎉 November mozgalmas és hektikus hónapja után a befektetők továbbra is bizonytalanul tekintenek december elé...

MA 16:02

Az első feltérképezett szupernóva-kitörés sokkolta a tudósokat

💥 Április 10-én egy hatalmas csillag robbanásának első fényét észlelte az ATLAS nevű figyelőrendszer...

MA 15:49

Az óceánok savasodása felgyorsult: nagyobb a baj, mint hittük

A St Andrews-i Egyetem (University of St Andrews) friss kutatása szerint a part menti tengerek savasodása drámaian felgyorsult, különösen azokon a területeken, ahol a mélyből feltörő tengervíz jelenik meg, vagyis a feláramlási zónákban (upwelling-zónákban)...

MA 15:33

Az árvíz letarolta Srí Lanka fővárosát, közel 200 halott

Srí Lanka fővárosának egész negyedeit öntötte el az árvíz a hétvégén, miután egy erős ciklon súlyos esőzéseket és földcsuszamlásokat váltott ki szerte a szigeten...

MA 15:02

A klímavédelem vakfoltja: amit a modellek nem látnak

Az éghajlatváltozás már most is alapjaiban forgatja fel az emberek jóllétét...

MA 14:50

Az örök emlékek titka: miért nem felejt az agy?

Tipikus jelenség, hogy egy gyerekkori nyár forró délutánja örökre bevésődik, miközben a tegnapi bevásárlólista már másnap reggelre elhalványul...

MA 14:33

Az új Galaxy S26: Forradalom helyett megint finomhangolás?

📱 2026 közeledtével egyre több részlet szivárog ki a Samsung Galaxy S26 szériáról, és már most látszik, hogy a gyártó idén sem kockáztat nagyot...

MA 14:02

A kiberbiztonság titka: a nyitott gondolkodás forradalma

🔒 A modern kiberbiztonságban nemcsak új eszközök és technológiák, hanem gondolkodásmódváltás is elengedhetetlen...

MA 13:18

A Kill Bill elveszett fejezete végre elkészült – Tarantinótól, Fortnite-ban

Fontos kérdés, hogyan kerülhetett Quentin Tarantino legendás bosszúeposza, az Öld meg Billt (Kill Bill) egy új fejezete éppen a Fortnite digitális világába...

MA 13:01

A valódi titkok nem a Stranger Things színdarabban bújnak meg

🔑 Az „A furcsa dolgok: Az első árnyék” (Stranger Things: The First Shadow) című színdarab tavaly decemberi londoni premierje óta sok rajongó tartott attól, hogy fontos részletek csak New Yorkban, ezer dollár feletti (kb...

MA 12:34

A hullámzó kínai gyártás: fordulat jön, vagy újabb zuhanás?

📈 A kínai gyáripar némileg javult novemberben, de továbbra is zsugorodik, immár nyolcadik hónapja...

MA 11:49

Az Asahinál példátlan adatlopásra derült fény

🔒 Egy szeptemberi kibertámadás miatt az Asahi Group Holdings, Japán legnagyobb sörgyártója, közel 1,9 millió ember adatait veszítette el...