2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

szerda 20:55

Az AMD zuhan a tőzsdén, miközben az MI-kereslet rakétázik

A chipgyártó AMD vezérigazgatója, Lisa Su szerint az MI iránti kereslet olyan tempóban gyorsul, amilyenre még ő sem számított...

szerda 20:38

Az MIT ultrahangos áttörése közelebb visz a tudat rejtélyéhez

Az emberi tudat eredetét máig rejtély övezi: a kutatók még mindig nem értik pontosan, miként képes az agy fizikai működése gondolatokat, érzelmeket és öntudatot teremteni...

szerda 20:21

Az MI kiszorította a juniorokat – most fizetjük meg az árát

A 33 éves Isaac négy éve dolgozik középszinten fejlesztőmérnökként egy nagy techcégnél, ahol komoly változásokat érzékelt a belépőszintű munkaerő körül...

szerda 20:01

Az egyiptomi hatóságok betiltják a Robloxot – búcsú a kedvencnek?

Az egyiptomi médiahatóság úgy döntött, hogy teljesen blokkolja az egyik legnépszerűbb, gyermekeknek szánt videojátékot, a Robloxot...

szerda 19:55

A Behemót visszatért: az óriáscsillag mégsem robban fel

Külön említést érdemel, hogy a WOH G64, vagy ahogy sokan hívják, a „behemót csillag”, mégsem haldoklik, ahogy azt korábban gondolták...

szerda 19:38

A Prime-tagoknak most ingyen jár az Amazon Alexa+ MI-asszisztense

💭 Az Alexa+ mostantól minden amerikai felhasználó számára elérhető, a Prime-előfizetők számára pedig teljesen ingyenes...

szerda 19:20

Az MI a trópusok megmentője? A nitrogén újraéleszti az esőerdőket

🌲 Az emberi tevékenység miatt az elmúlt évtizedekben rengeteg trópusi erdő tűnt el, helyüket legelők váltották fel...

szerda 19:01

A mesterséges intelligencia kudarcainak rejtett oka: a szétszabdalt rendszerek átka

⚠ Nehéz elhinni, de az MI körüli kezdeti lelkesedés mára gyakran csalódottságba fordult a vállalatoknál...

szerda 18:55

Az agy rejtett hálózata új megvilágításba helyezi a Parkinson-kórt

Érdemes megérteni, hogy a Parkinson-kórt eddig elsősorban mozgászavarnak tartották, pedig a betegség hátterében jóval összetettebb idegi hálózat rejtőzhet...

szerda 18:20

Az Ozempic és a Wegovy rejtett táplálkozási csapdája

Felmerül a kérdés, hogy mennyire biztonságos valójában a gyors fogyás az új generációs fogyasztószerekkel, mint az Ozempic és a Wegovy...

szerda 17:55

A Jupiter új arca: kisebb, laposabb, meglepőbb, mint hittük

🪐 A Jupiter eddig ismert méretei és alakja a legújabb kutatások szerint finomhangolásra szorulnak...

szerda 17:37

A Samsung titkos aduja lehet a Galaxy S25 FE

🔐 A Samsung hamarosan bemutatja az új Galaxy S26 modelleket, de a szivárgások szerint az elérhető árú verziók főleg csak apróbb fejlesztéseket kapnak...

szerda 15:19

Az Xcode 26.3 elhozza az eszközön futó MI-fejlesztés erejét

💻 Frissült az Xcode, és a 26.3-as verzió már támogatja az ügynökalapú programozást...

szerda 15:02

A Sysmon végre alapfunkció lesz a Windows 11-ben

💡 A Microsoft elindította a beépített Sysmon-támogatás tesztelését a Windows 11 rendszerben, igaz, egyelőre csak a Windows Insider programban részt vevő felhasználók élvezhetik az újdonságot...

szerda 14:56

Az Nvidia és az OpenAI gigaüzlete füstbe ment: 36 billió forint

💸 Lényeges, hogy tavaly szeptemberben az Nvidia és az OpenAI szándéknyilatkozatot írt alá, miszerint az Nvidia akár 36 billió forint (100 milliárd dollár) értékben fektetne be az OpenAI MI-infrastruktúrájába...

szerda 14:37

Az ingyenes MI-kamerák korszaka: így védheted az otthonod

Az okosotthonokba lassan bekúszik az MI, és ma már nem luxus, ha egy kamera felismeri a családtagokat, különbséget tesz egy futár és a saját kutyád között, vagy kiértékeli a nap eseményeit...

szerda 14:20

Az Artemis II startja megint csúszik: hidrogénszivárgás a holdrakétán

🚀 A NASA újabb késést jelentett be az Artemis II misszióban, miután a rakéta főpróbáján ismét hidrogénszivárgást észleltek...

szerda 14:02

Olvad az Antarktisz: összeomolhat a Föld szénelnyelője

🌨 A Nyugat-Antarktiszi jégtakaró olvadása meglepő változásokat idézhet elő abban, ahogyan a Déli-óceán elnyeli a légköri szén-dioxidot...

szerda 13:55

Az óriás Tether meghátrál: milliárdokkal vágja vissza a tőkebevonást

💸 A Tether, a világ egyik legismertebb stabilcoin-kibocsátója drasztikusan visszafogta tőkebevonási terveit, miután a befektetők nem igazán voltak lenyűgözve az akár 180 000 milliárd forintos (500 milliárd USD) álomértékeléstől...

szerda 13:19

A gerinc születésének titka: egy sorsfordító gén nyomában

A gerinces állatok, azaz az emlősök, halak, hüllők és kétéltűek fejlődésének rejtélyeit segíthet megfejteni egy friss genetikai kutatás...

szerda 13:02

Az összehajtható telefonok 2026-ban már tényleg megérik?

📱 Érdemes megvizsgálni, mennyire éri meg összehajtható telefont venni 2026-ban, hiszen egyre több gyártó dob piacra ilyen készüléket, és a felhasználók véleménye is sokat árnyalja a képet...

szerda 12:55

A fehérzajgép tönkreteheti az éjszakai nyugalmadat

Sokan használják a hálószobában a különféle hanggépeket, például pink noise-t (rózsaszín zajt), abban a hitben, hogy ezek elősegítik az egészséges alvást...

szerda 12:36

Az óriás visszavág: a Walmart belép az egybillió dolláros klubba

A Walmart piaci értéke átlépte az 1 billió dolláros, vagyis 370 000 milliárd forintos határt, ezzel az amerikai kiskereskedelmi lánc bejutott a legértékesebb cégek szűk körébe, amelyet eddig főként techóriások uraltak...

szerda 12:19

Az Igazságügyi Minisztérium ismét nekimegy a Google-nek

Az amerikai Igazságügyi Minisztérium (DOJ) újabb fellebbezést nyújtott be a Google ellen indított versenyjogi perben, amely az internetes kereső- és hirdetési piac monopolhelyzetéről szól...

szerda 12:02

A nyers tej miatt halt meg egy újszülött Új-Mexikóban

😷 Egy Új-Mexikó-i újszülött életét vesztette liszteriózis következtében, miután édesanyja terhessége alatt nyers tejet ivott...

szerda 11:56

A Gemini átveszi az irányítást a mobilod felett?

Az MI térhódítása az Android-eszközökön megállíthatatlanul halad előre, és a Gemini hamarosan olyan funkciókat kap, amelyekkel akár teljesen átveheti az irányítást a telefonod felett...

szerda 11:37

Az MI-botok visszatértek: ma leálltak a ChatGPT és a Claude

🤖 Ma délután sokan nem tudták használni a ChatGPT-t, amikor a népszerű MI-csevegőbot részleges leállást szenvedett el...

szerda 10:58

Az árnyék-CDC: ki tölti be a közegészségügyi űrt?

👀 Az amerikai közegészségügy történetének egyik legnagyobb válságát éli. A Centers for Disease Control and Prevention (CDC) évtizedeken át a megbízható, bizonyítékalapú egészségügyi iránymutatás és a járványügyi védelem csúcsintézménye volt...

szerda 10:49

Az új vezér megfordítja a PayPal sorsát?

Hatalmas változás előtt áll a PayPal: Enrique Lores veszi át az irányítást, miután a társaság vezetése elégedetlen volt a korábbi vezérigazgató, Alex Chriss teljesítményével...