Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 07:37

A Samsung Galaxy Z Fold 7 végre megéri: telefon és tablet egyben

📱 A Samsung Galaxy Z Fold 7 igazán rászolgált a 2025-ös év legjobb telefonja címre, hiszen valódi műszaki bravúr...

MA 07:29

Az új vízbontás áttörést hozhat: olcsóbb hidrogén jöhet

Egy nemzetközi kutatócsoport forradalmi elektrokémiai eljárást hozott létre, amellyel vízbontással kétszer annyi hidrogén állítható elő, miközben az energiafelhasználás akár 40 százalékkal is csökkenhet...

MA 07:15

Újabb memóriaár-emelés a Frameworknél: tovább drágulhat

A moduláris számítógépeiről ismert Framework ismét emeli DDR5 memóriamoduljai árát, mivel a memóriapiacon továbbra is nőnek a költségek...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 12/27

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Duck Life 6: Space (iPhone/iPad)A Duck Life sorozat legfrissebb részében ismét egy tehetséges kacsa versenyző bőrébe bújhatunk...

MA 07:09

Az amerikai grafit aranykora visszatér: jön a grafitláz

Az Egyesült Államokban a grafitbányászat hetven éve szinte teljesen megszűnt, hiszen olcsón lehetett beszerezni Kínából és más országokból...

MA 07:02

Az új mágneses áttörés forradalmasíthatja az MI-memóriát

💡 A ruténium-dioxid (RuO2) ultravékony filmjeiben egy új mágneses állapotot fedeztek fel japán kutatók, amely áttörést hozhat a memóriachipek sebességében, sűrűségében és megbízhatóságában...

MA 06:57

Az LG új házirobotja felforgatja az otthoni mindennapokat

Az LG bemutatja legújabb háztartási segítőrobotját a 2026-os CES-en, Las Vegasban...

MA 06:51

Az Nvidia és a Groq nagy dobása: valódi verseny, vagy blöff?

💸 Az Nvidia újabb hatalmas dobása borzolja a techipar kedélyeit: a világ legértékesebb cége 20 milliárd dollárért (kb...

MA 06:43

A gyors hálózat olcsón? TP-Link TL-SG105S-M2 teszt

🔋 A TP-Link TL-SG105S-M2 ötportos, 2,5 GbE hálózati switch már egy ideje kelendő darab, nem véletlenül robbant be az Amazonon is a legnépszerűbbek közé, amikor 18 000 forintért (49,99 USD) kínálták – mostanra azonban jelentősen drágult...

MA 06:36

Az MI válságba sodorja az áramellátást – vagy épp megmenti?

⚡ Az MI-forradalom teljesen átalakítja az egészségügyi ellátást, a védelmi technológiákat és az áruszállítást, de ezzel együtt veszélyesen feszegeti az energiaszolgáltató infrastruktúra határait is...

MA 06:29

A rég eltűnt vadmacska visszatért Thaiföldre

😻 Thaiföldön harminc év után újra felbukkant a laposfejű macska, amelyet sokáig kihaltnak hittek az országban...

MA 06:22

Az új TP-Link switch tényleg olcsó, gyors és csendes?

💡 Fémházas kivitelben érkezik a TP-Link TL-SG105S-M2, amely öt darab 2,5 GbE porttal próbál versenyezni a piacon...

MA 06:15

Az idegesítő MI-funkciók száműzése a Chrome-ból

🔨 A Chrome asztali verziója egyre több beépített MI-eszközt tartalmaz, amelyek sokak számára zavaróak lehetnek, de szerencsére a legtöbb funkciót gyorsan el lehet tüntetni a böngészőből...

MA 06:09

A világra leselkedő legnagyobb veszély: az elfeledett vulkánok

Egy etiópiai tűzhányó 10 000 évnyi csend után tört ki, és ezzel élesen rávilágított arra, hogy a kevéssé ismert, vagy egyenesen figyelmen kívül hagyott vulkánok okozhatják a következő, globális méretű természeti katasztrófát...

MA 06:05

Történelmi események a mai napon (December 27.)

Időutazás egyetlen napon: elkészült a Hagia Sophia, megszületett Spanyolország demokratikus rendszere, és véget ért a romániai forradalom...

MA 06:02

Az ősi pestisről egy birkacsont rántotta le a leplet

A középkori pestisjárvány Európa lakosságának harmadát pusztította el. A fertőzést akkoriban bolhák terjesztették, amelyek a fertőzött patkányokról vitték át a Yersinia pestis baktériumot az emberekre...

péntek 20:49

Az LG leleplezte a jövő háztartási robotját

🤖 Az LG vadonatúj humanoid robotot mutat be a következő CES kiállításon Las Vegasban...

péntek 20:33

Az MI 2025-ben felforgatta a munka világát – új korszak jött

A 2025-ös év munkafronton minden eddiginél nagyobb fordulatot hozott az MI-nek köszönhetően...

péntek 20:18

Az MI-forradalom átírja a globális ellátási láncok szabályait

Egy lényeges szempont, hogy az ellátási láncok a világ gazdaságának gerincét adják: ezek a rendszerek juttatják el a termékeket és szolgáltatásokat a kiindulóponttól a vásárlóig, miközben növelik a hatékonyságot és csökkentik a költségeket...