2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 11:33

Úton a Hold felé: startolt az Artemis II legénysége

🚀 Négy űrhajós, Reid Wiseman, Victor Glover, Jeremy Hansen és Christina Koch vágott neki a NASA Artemis II küldetésének, amely új fejezetet nyit az emberes űrutazás történetében...

MA 11:13

Az elfeledett dán zseni és a Föld belsejének titkai

🚀 Kezdetben kevesen ismerték Inge Lehmann nevét Dánián kívül, pedig épp neki köszönhetjük a Föld belső szerkezetéről alkotott új képünket...

MA 11:02

Az MI nem veszi el a legtöbb állást – vagy túl jelentéktelen?

🤔 A mesterséges általános intelligencia (AGI) kapcsán legtöbben attól tartanak, hogy a robotok minden munkát elvesznek tőlünk, és csak a legkreatívabb, legemberibb munkakörök maradnak meg...

MA 10:50

Az MI-vel tényleg bárkiből lehet játékfejlesztő?

🧠 Egy új MI-s startup, a Tesana szerint hamarosan akár 100 millió ember saját videojátékot készíthet néhány mondat begépelésével...

MA 10:42

Az MI-roham élén: a Microsoft 3700 milliárdot önt Japánba

Tízmilliárd dolláros, vagyis mintegy 3700 milliárd forintos gigaberuházást jelentett be a Microsoft Japánban, amellyel jelentősen bővíti a helyi MI-infrastruktúrát és felhőszolgáltatásokat...

MA 10:36

Az egyetlen szuri mindent visz? Jön a szupervakcina-korszak.

A járványok szinte mindig meglepetésszerűen robbannak be, ilyenkor derül ki igazán, mennyire számítanak a védőoltások...

MA 10:30

A Nyugatot már térdre kényszeríti az aszály – a nyár még előttünk

Az USA nyugati részén szó szerint elfogyott a víz, miközben még csak a tavasz közepén járunk...

MA 10:21

Az olasz bíróság lecsapott: a Netflixnek vissza kell fizetnie árdrágításért.

Évek óta húzza le a Netflix az olasz nézőket, most viszont nagyot koppant: a római bíróság úgy döntött, hogy a korábbi, jogtalan áremeléseket vissza kell fizetnie az előfizetőknek...

MA 10:08

Az őskori vietnámi gyerekfogak őrzik a szifilisz titkos eredetét?

👀 Több ezer éves vietnámi leletek alapjaiban rengethetik meg, amit a szifilisz eredetéről gondoltunk...

MA 10:01

A kiégés arcai: más a vezetőé, más a pályakezdőé

Hajlamosak vagyunk azt hinni, hogy a kiégés csak annyi, mint a túlóra, a túl kevés határhúzás vagy a legendás „maradj erős”...

MA 09:50

Az adataid veszélyben? Új Zendesk-botrány a Hims and Hers-nél

📝 Érdemes megvizsgálni, mit jelent egyre több online egészségügyi vállalat számára az adatbiztonság: már néhány nap is elegendő volt ahhoz, hogy ismeretlen hackerek a Hims & Hers Health ügyfélszolgálati rendszeréből több millió támogatási jegyet ellopjanak...

MA 09:36

A Netflix MI-vel írja át a filmek befejezését

Mi történik, ha a rendező egy autós ütközésre épülő finálé forgatása után rájön, mégis életben hagyná a főszereplőt?..

MA 09:29

A Microsoft új MI-varázslója: átverés vagy áttörés?

🤔 A Microsoft Copilot nevű mesterséges intelligenciáját óriási marketingkampány kíséri, a cég pedig lelkesen mutatja be, hogyan segíthet a szoftver üzleti stratégiaalkotásban, a munkahelyi hatékonyság növelésében, kreatív feladatokban és még sok minden másban...

MA 09:22

A pici Dell asztali gép száz wattból turbózza az MI-t

🚀 A Dell legújabb miniszámítógépe, a Pro 5 Micro, teljes értékű asztali teljesítményt hoz miniméretben: elég kicsi ahhoz, hogy elférjen egy monitor mögött, miközben nem kell kompromisszumot kötni a számítási kapacitásban...

MA 09:15

Kilenc perc, és viszik a bitcoinodat az új kvantumszámítógépek?

Erre utal többek között az, hogy a Google Quantum AI csapata szerint egy jövőbeli kvantumszámítógép mindössze kilenc perc alatt képes lenne egy bitcoin nyilvános kulcsából kinyerni a privát kulcsot...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/4

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     VSep (iPhone/iPad)A VSep egy innovatív alkalmazás, amely mesterséges intelligenciával választja szét az éneksávot és a zenét, miközben a felhasználó adatainak védelmét szem előtt tartja, hiszen minden művelet a készüléken belül történik...

MA 09:07

Az Apple végre kedvez az iOS 18-hoz ragaszkodóknak

Az Apple újabb biztonsági frissítést adott ki azok számára, akik eddig nem akarták vagy nem tudták telepíteni az iOS 26-ot, és még mindig a régebbi iOS 18 rendszert használják...

MA 09:01

Az indiánok ősi dobókockái meglepő titkot rejtenek

🎲 Az amerikai kontinens első lakói már az utolsó jégkorszak idején is ügyesen használtak dobókockához hasonló eszközöket különféle játékokban, amelyekkel a véletlen események eredményeit emelték be mindennapi szórakozásukba...

MA 08:57

Az első ember titka: valóban ember volt a Homo habilis?

Az emberi evolúció egyik legnagyobb talánya, hogy mikor és hogyan alakult ki a Homo nemzetség...

MA 08:50

Az FAA új drónszabálya tényleg megtiltja a határőrök filmezését?

👷 Évek óta ideiglenesnek mondott tiltás sújtja az amerikai drónpilótákat, akik a Bevándorlási és Vámhivatal (ICE) vagy a Határőrség (CBP) járművei közelében szeretnének felvételeket készíteni...

MA 08:43

Az Artemis II: lélegzetelállító Föld-panoráma, plüsshold és 4,2 milliárdos vécédráma

🚀 Három napja lebeg az Orion a semmiben, de a legénység már most olyan videókat küldött a Földnek, amit csak irigyelni lehet...

MA 08:36

Az év üstököse: a MAPS berobbanhat – vagy eltűnhet az égről

A jövő hét végén látványos égi jelenségre készülhetünk: a C/2026 A1 (MAPS) jelű üstökös extrém közel halad el a Nap felszínéhez...

MA 08:29

Az MI életre kelti a könyveket: rajzfilmsorozat a HarperCollinsnál

📖 A HarperCollins kiadó most az MI segítségével szeretné megeleveníteni népszerű könyveit, ezért partnerre talált a Toonstar stúdióban, amely mesterségesintelligencia-vezérelt animációkkal foglalkozik...

MA 08:21

Az NHS dolgozói fellázadnak a Palantir szoftvere ellen

😡 Az angliai NHS bevezette a Palantir által fejlesztett új egészségügyi adatplatformot, amelynek célja a betegellátás javítása és a várólisták csökkentése...

MA 07:49

Az Artemis II kísérlete örökre átírhatja az űrorvoslást

🚀 Érdemes megvizsgálni, miként járul hozzá a NASA Artemis II holdmissziója az űrutazások jövőjéhez, nemcsak a hosszú távú küldetések tervezésekor, hanem az űrorvostan fejlődéséhez is...

MA 07:42

Az űrbankároknak Elon Musk megmutatta, ki a főnök

🚀 Elon Musk újabb húzása minden képzeletet felülmúl: aki a SpaceX tőzsdei bevezetésében (IPO) szeretne részt venni, annak kötelező előfizetnie a Grokra – igen, arra a mesterséges intelligenciára, amelyet már most szuperalkalmazásként tolnak a nagyvilágba...

MA 07:36

Az Artemis II űrhajósai üstököst pillanthatnak meg – ha túléli a Nap közelségét

Felmerül a kérdés, hogy a NASA legújabb Artemis II-küldetésén részt vevő űrhajósai egy újabb rendkívüli látványosság részesei lehetnek-e: akár egy üstököst is megpillanthatnak az Orion-kapszula ablakából, ha a C/2026 A1 (MAPS) nevű üstökösjelölt túléli a forró találkozását a Nappal...

MA 07:31

Az MI hibázik, mi meg lemondunk a gondolkodásról – miért?

🤔 Az emberek jelentős része könnyedén átadja a logikus gondolkodás feletti irányítást az MI-nek, gyakran anélkül, hogy megkérdőjelezné a látott válaszok helyességét...

MA 07:22

Az orosz zsarolóvírus-támadástól retteg a Die Linke

A németországi baloldali Die Linke pártot zsarolóvírus-támadás érte, amely során a Qilin nevű csoport adatokat lopott el a párttól, majd azok nyilvánosságra hozatalával fenyegetett...