Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

hétfő 20:50

Az MI váratlan szövetséges az igazságosabb munkahelyekért

Bár az MI körül nagy a lelkesedés, sokan még mindig szkeptikusak maradnak két fő ok miatt: az automatizálás elveszi a munkát, vagy épp felerősíti az emberek előítéleteit...

hétfő 20:34

Az Amazon-alapító: Nem ciki, ha a munka az első

💼 Jeff Bezos nemcsak a világ leggazdagabb emberei közé tartozik, hanem amellett is kiáll, hogy a sikerhez nem elég fiatalon vállalkozást indítani – tudás és tapasztalat nélkül több a bukás, mint a jó ötlet...

hétfő 20:17

Az Endesa ügyfeleinek adatai a hackerek prédájává váltak

Spanyolország legnagyobb energiaszolgáltatója, az Endesa, valamint leányvállalata, az Energía XXI most jelentették be, hogy hackertámadás érte informatikai rendszereiket – az elkövetők személyes és szerződéses ügyféladatokhoz jutottak hozzá...

hétfő 20:01

Az indiai kormány újra drákói korlátozásokat tervez az okostelefonokra

📱 India szigorú, okostelefonokra vonatkozó biztonsági szabályokat tervez, amelyek köteleznék a gyártókat, hogy a sebezhetőségek elemzése érdekében hozzáférést biztosítsanak forráskódjukhoz a kormány számára...

hétfő 19:49

Az Apple átvette a trónt: a legnagyobb mobilgyártó a világon

2025 végére az Apple megelőzte a Samsungot, és a világ legnagyobb okostelefon-gyártójává vált az eladott készülékek száma alapján...

hétfő 19:33

Az Apple Sirije új agyat kap: jön a Google Gemini

💡 Az Apple és a Google hivatalosan bejelentették, hogy a következő Siri-verzió már a Gemini MI-t és a Google Cloudot fogja használni...

hétfő 19:18

Az új kristály átírja a mágnesességet: forradalom az adattárolásban?

📸 A Florida State University kutatói olyan kristályos anyagot alkottak, amely eddig nem látott, bonyolult mágneses viselkedést mutat...

hétfő 19:01

Az elfeledett gombatörténelem: a csiperkegomba születésének titka

🍄 A csiperkegomba (Agaricus bisporus) világviszonylatban az egyik legkedveltebb és legtöbbet termesztett ehető gombaféle, mégis mostanáig keveset tudtunk arról, hogyan vált ilyenné...

hétfő 18:49

A Roblox új szabálya megtiltja a gyerek–felnőtt csevegést

🔒 A Roblox az Egyesült Államokban új, kötelező biztonsági rendszert vezetett be, hogy megakadályozza a gyerekek és felnőttek közötti kommunikációt a platformján...

hétfő 18:33

Az Apple Siri mostantól a Google Gemini erejét használja

Az Apple és a Google többéves együttműködést kötött, amelynek részeként az Apple következő generációs MI-modelljei a Google Gemini technológiájára és felhőszolgáltatásaira fognak épülni...

hétfő 18:02

Az amerikai szankciók befagyasztották a 66 milliárd forintnyi USDT-t

🔒 Tether eddig példátlan összeget, több mint 182 millió dollárnyi (kb. 66 milliárd forint) USDT-t fagyasztott be öt Tron-blokkláncú tárcában, miután igazodott az amerikai pénzügyminisztérium szankciós előírásaihoz...

hétfő 17:50

Az Instagram jelszókáosza és a Veeam súlyos sebezhetőségei

🔒 Ez a jelenség jól illusztrálható azzal, hogy napjaink egyik legnépszerűbb közösségi oldalán, az Instagramon érzékeny felhasználói adatok tömege válhat veszélyeztetetté néhány programhiba miatt...

hétfő 17:33

Az egészségügy forradalmát hozza el Claude, berobban az MI

💉 Az Anthropic elhozta Claude-ot az egészségügybe, ezzel felveszi a versenyt az OpenAI ChatGPT-jével...

hétfő 17:20

Az arany újra tarol, a Bitcoin elbukik a menedék próbáján

Különösen igaz ez akkor, ha a gazdasági és politikai feszültségek elérik a csúcspontot: a hagyományos menedékeszközök, mint az arany vagy az államkötvények még mindig legyőzik a Bitcoint...

hétfő 17:02

Az akváriumok vége? Florida betiltaná a védett tengeri fajok befogását

Tavaly nyáron Floridát bejárta egy felháborodást keltő videó, amelyen férfiak Panama City partjainál egy óriás ördögráját fogtak be – egy szövetségi szinten veszélyeztetett fajt – majd a hajójukra emelték...

hétfő 16:49

Az MI-tanácsokkal életeket sodort veszélybe a Google

⚠️ A Google nemrég csendben eltávolította az MI Overviews nevű funkcióját bizonyos májvizsgálatokkal kapcsolatos kereséseknél, miután kiderült, hogy a rendszer veszélyes, félrevezető egészségügyi tanácsokat adott...

hétfő 16:34

A legendás Midas nyomában: az elveszett királysír Törökországban

🪙 Törökország évezredeken átívelő temetkezési halmai mindig tartogattak meglepetéseket, de a nyugat-anatóliai Karaa tumulusz most igazán felkavarta az állóvizet...

hétfő 16:17

Az új otthoni vércukormérők: megéri váltani?

Érdekes felvetés, hogy már nem kell minden vércukormérésért orvoshoz menni: ma egy megbízható, otthoni vércukormérővel akár naponta is nyomon követheted, hogyan reagál a szervezeted az ételekre és a mozgásra...

hétfő 16:02

Itt a gluténteszter: a gluténérzékenyek rég várt álma

A gluténérzékenyek számára valódi áttörést jelent a NIMA új generációs kézi gluténérzékelője, amely mostantól rendelhető az interneten...