2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 09:19

A Grace klinika sztárja titokban megnősült: Jesse Williamséknél úton a baba

👶 Alejandra Onieva a napokban diszkréten mutatta meg gömbölyödő pocakját az Instagramon, ahol több képet is megosztott magáról és férjéről, Jesse Williamsről...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/27

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     War Mongrels (iPhone/iPad)A War Mongrels egy izometrikus nézetű, valós idejű taktikai videojáték, amely a második világháború keleti frontján játszódik...

MA 09:10

Az arany átvette a vezetést: megtört a Bitcoin háromhónapos ralija

🥇 Ez a jelenség jól illusztrálható azzal, hogy a Bitcoin három hónapos, aranyhoz viszonyított szárnyalása véget ért...

MA 08:55

Az egyszerű orrspray, amely visszafordítja az agy öregedését

Az amerikai Texas A&M Egyetem kutatói meglepő fordulatot hoztak az agyi öregedés lassításának kérdésében...

MA 08:47

A pénzügyi szolgáltatókat letaroló támadás visszaállítja az MFA-t, tokent lop

🔐 A finanszírozási szektorban dolgozóknak napjainkban már nemcsak a jelszólopás miatt kell aggódniuk – a támadók egy új, kifejezetten hatékony módszerrel szerzik meg a hozzáféréseket: a multifaktoros hitelesítés (MFA) megkerülésével...

MA 08:36

Az XRP 1,32 dollárnál egyensúlyoz: szűkül a sáv, lesz kitörés?

Az XRP továbbra sem képes kitörni az egyre szűkülő sávjából, miután újabb próbálkozás után is elbukott az 1,36 dolláros (480 HUF) szintnél...

MA 08:28

A felturbózott K-vitamin beindíthatja az agy öngyógyítását

Japán kutatók olyan forradalmi vitamin K-alapú vegyületeket hoztak létre, amelyek segíthetnek az agy sérült idegsejtjeinek regenerálásában, sőt, idővel akár az Alzheimer- és Parkinson-kór kezelését is megváltoztathatják...

MA 08:02

A meteoritcsapás aranyfénybe vonta Ghána Lelkek Tavát

🌑 Ghána szívében található a Bosumtwi-tó, amelynek eredete egy ősi, gigászi becsapódásig nyúlik vissza...

MA 07:47

A halálos ütközés előtt: „Rövid az élet” – üzent Dominic Russo

🚘 Fiatal szerelem, heves érzelmek és végzetes döntés – mindez egy tragikus balesetben csúcsosodott ki az Egyesült Államokban...

MA 07:37

Az LHC különös részecskeviselkedést észlelt – átírhatja a fizikát

A genfi Large Hadron Collider (LHC) legfrissebb kutatásai alapjaiban rengethetik meg azt, amit eddig a világegyetem alapvető építőkockáiról hittünk...

MA 07:28

A Joe Lubin által támogatott SharpLink bekerül a Russell-indexekbe

📈 Az utóbbi években a kriptótartalékot építő vállalatok közül az egyik legkiemelkedőbb szereplő, a SharpLink Gaming, hamarosan belép a Russell 2000 és Russell 3000 tőzsdeindexekbe, miután június 29-i zárás után az FTSE Russell végrehajtja éves átsorolását...

MA 07:19

A 007: First Light rajtja: megjelenési dátum és indulási idők

Agent 47 egy kis szabadságra vonul, hamarosan pedig minden tekintet James Bondra szegeződik: május 27-én, szerdán világszerte elrajtol az IO Interactive legújabb játéka, a 007 First Light...

MA 07:10

A Nyaralóház forró reunionján lelepleződött West és Amanda viszonya

A Nyaralóház (Summer House) tizedik évadának egyik legnagyobb rejtélye végül lelepleződött, amikor a résztvevők a forró hangulatú évadzáró műsorban minden eddiginél nyíltabban beszéltek West Wilson és Amanda Batula kapcsolatáról...

MA 07:01

A Fülöp-szigeteki, kitörő tűzhányó fölött felrobbant egy smaragdzöld tűzgömb

🔥 A Fülöp-szigetek középső részén fekvő Mayon vulkán kitörése közben egy látványos, élénkzöld tűzgömb villant át az éjszakai égbolton, majd felrobbant a levegőben...

MA 06:55

A Jackson-hagyaték őre, John McClain, 71 évesen elhunyt

John McClain, a zeneipar legendás alakja, életének 71. évében malibui otthonában hunyt el...

MA 06:37

Az apró Bermuda kriptónagyhatalomra tör

🔮 Ebből következően érdemes megérteni, hogy Bermuda, a kis szigetország, hatalmas lépéseket tesz annak érdekében, hogy a világ első teljesen on-chain, vagyis blokklánc‑alapú gazdaságává váljon...

MA 06:28

A DeepSWE felforgatja a rangsort, trónra ülteti a GPT-5.5-öt

A legmodernebb MI-kódolási ranglisták hónapok óta azt a benyomást keltették, hogy nincs igazi különbség a vezető modellek között...

MA 06:19

Az Off Campus 2 visszatér: új szerelmek és sokkoló távozás

💘 Érdemes megjegyezni, hogy az Off Campus című sorozat első évada óriási sikert aratott mind a nézők, mind a kritikusok körében...

MA 06:05

Történelmi események a mai napon (Május 27.)

Válogatás a történelem mai napjához kötődő mérföldkövekből: királykoronázás, városalapítás, világháborús tragédiák és politikai fordulatok...

kedd 17:23

Az államkötvény-hozamok milliárdokat szívnak ki a bitcoin ETF-ekből

A kriptovaluták iránti lendület komoly csapást szenvedett el, ahogy a befektetők tömegesen menekítik a pénzüket a bitcoin-alapú tőzsdén kereskedett alapokból...

kedd 17:01

Az évszázad hőhulláma sújtja Európát: újabb halálos áldozatok

Döbbenetesen szokatlan, rendkívüli hőséggel küzd Nyugat-Európa: sorra dőlnek a melegrekordok, miközben egyre többen vesztik életüket a forróság következtében...

kedd 16:35

Az új Bond-játék végre igazi Bond-mozi: lopakodás és robbanások

Üldözések, szuperkütyük és látványos akciópillanatok – a 007 First Light minden eddiginél jobban képes átélhetővé tenni, milyen érzés James Bondként beszivárogni a világ legveszélyesebb színtereire...

kedd 16:23

Az új Ferrari Luce sokkol: Jony Ive védi, egy döntést imádnak

A Ferrari leleplezte története első elektromos autóját, a Lucét, ami máris heves vitákat kavart...

kedd 16:13

A GEEKOM A9 Max (2026) tesztje: mini PC, munkaállomás-erővel

Az asztali méretű, kis helyet foglaló gépek mezőnyében a GEEKOM A9 Max 2026 komoly kihívóként lépett színre...

kedd 15:56

A League of Legends nemet mond a kollab skinek dömpingjére

🔴 Ritka az a népszerű online játék, amely még ellenáll a marketing- és együttműködési őrületnek...

kedd 15:45

Az MMO-knak nem kell 200 óra egyedi tartalommal indulniuk

Az új MMO-k fejlesztése manapság igazi kihívás, hiszen a piacot évtizedes múlttal rendelkező játékok uralják...

kedd 15:34

A StablR befagyasztotta az USDR-t és EURR-t 13,5 milliós támadás után

A StablR, egy máltai stabilcoin-kibocsátó felfüggesztette két fő tokenje, a USDR és az EURR minden műveletét, miután jelentős kibertámadás érte...

kedd 15:23

A bitcoin újra gyengélkedik, az MI-tokenek szárnyalnak

Az utóbbi két hétben jelentős lejtmenet jellemezte a legnagyobb kriptopénzek piacát, miközben a hagyományos tőzsdeindexek, mint az S&P 500 és a Nasdaq 100, stabilan emelkedtek...

kedd 15:12

A Bitcoin sorsa kritikus támasz és opciós csata szorításában

📈 A Bitcoin árfolyama napok óta szűk sávban mozog, méghozzá nem véletlenül...