2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 14:01

Az Anthropic új MI-szabályai: hasznosak, őszinték, és nem irtják ki az emberiséget

Az Anthropic teljesen átalakítja Claude nevű MI-jének működési alapelveit. Az új, 57 oldalas dokumentum kifejezetten Claude-nak készült, nem a külvilágnak: meghatározza, hogy milyen értékrend és viselkedés várható el tőle, és milyen elvek alapján döntsön nehéz, ellentmondásos helyzetekben...

MA 13:55

Az MI-forradalom aranykort hozhat a szakmunkásoknak

A mesterséges intelligencia forradalma váratlan nyertest hozott: a chipgyártó és egyéb csúcstechnológiájú üzemek építői előtt hatalmas lehetőség nyílik meg...

MA 13:38

Összeáll végre a sötét anyag és a „szellemrészecskék” rejtélye?

💫 Az univerzum alapvető rejtélyeire új fény vetülhet, ha beigazolódik, hogy a sötét anyag és a neutrínók, vagyis a szellemrészecskék rendszeresen kölcsönhatásba lépnek...

MA 13:19

Az atomoknál megdől egy 200 éves fizikai törvény?

A Stuttgarti Egyetem két fizikusa megdöntötte a hőtan egyik alapelvét: amikor részecskék atomi léptékben összefonódnak, a több mint 200 éve meghatározott hatékonysági korlát egyszerűen nem érvényes...

MA 13:03

Az apró spinváltás felforgatja a kvantumfizika egyik alapjelenségét

A kvantumrészecskék viselkedése különleges mintázatokat mutat, amikor egymással kölcsönhatásba lépnek, és ezek a csoportos interakciók számos hagyományos fizikai törvényt átírnak...

MA 12:55

Az űrdenevérek titkai, amelyekről a drónok csak álmodnak

👾 A denevérek bámulatos navigátorok: a sötét erdőkben és barlangokban úgy suhannak, mintha radarjuk volna, saját hangjaik visszaverődéseit figyelve tájékozódnak...

MA 12:37

Az univerzum szeme kinyílik: lélegzetelállító JWST-képek a Helix-ködről

A Helix-köd új, részletgazdag képein, amelyeket a James Webb-űrteleszkóppal (JWST) készítettek, Naprendszerünk egyik legismertebb csillagtemetője egészen új arcát mutatja: látványos csomókat, csillagszelek által formált por- és gázfelhőket tár elénk...

MA 12:20

Az aszteroida-becsapódás után meglepően gyorsan talpra állt az élet

🚀 Hatvanhat millió évvel ezelőtt a Földet eltaláló aszteroida elképesztő pusztítást végzett: kihaltak a dinoszauruszok és számos más élőlény, a bolygó élete gyakorlatilag összeomlott...

MA 12:02

Az MI-szupersztárok új startuplázat robbantanak ki

🚀 Egyre gyakrabban fordul elő, hogy népszerű, nyílt forráskódú MI-eszközökből rövid idő alatt százmilliókat érő startupok lesznek...

MA 11:58

Az MI-leállások rémét űzi el a TrueFoundry új fegyvere

⚡ Érdemes megvizsgálni, hogyan válnak egyre kockázatosabbá a nagyvállalati MI-alapú rendszerek, amikor kizárólag egyetlen modell vagy szolgáltató megbízhatóságára támaszkodnak...

MA 11:38

Az okostelefonod éjjel titokban kifecsegi az adataidat

💡 Noha az okostelefonod éjszaka, az éjjeliszekrényeden pihenve látszólag tétlen, valójában sosem áll le teljesen...

MA 11:20

Az edzés éveket faraghat le az agy korából

💪 Heti 150 perc közepes vagy intenzív aerob mozgás már elég lehet ahhoz, hogy az agy biológiai értelemben is fiatalabb maradjon – derül ki friss kutatásokból...

MA 11:03

A Zendesket elöntötte az új spamhullám

Január 18-án minden várakozást felülmúló spamhullám indult világszerte: emberek százai, ezrei kaptak tömeges e-maileket jól ismert cégek Zendesk-ügyfélszolgálati rendszereiből...

MA 10:58

Az Apple MI-csevegőre cseréli Sirit: hamarosan megújul a hangasszisztens

🤖 A hónapok óta húzódó találgatásoknak vége: végre körvonalazódik, hogy az Apple miképp tervezi felpörgetni a mesterséges intelligencia fejlesztéseit...

MA 10:50

Az újabb T‑Mobile-trükk: csendben emelnek, mégis olcsóbb marad?

Január 21-től a T-Mobile újabb, sorozatban második alkalommal emeli a havi díjakat: mostantól minden hangalapú előfizetés után 4,99 USD-t (kb...

MA 10:33

Az Apple is ringbe száll a viselhető MI-trónért

Az Apple saját MI-s viselhető eszköz fejlesztésén dolgozhat, amely egy ruhára tűzhető, kör alakú, vékony PIN-szerű kiegészítő lesz, alumínium- és üvegházzal...

MA 10:17

Az MI új dimenzióba repíti a LinkedIn ajánlórendszerét

🚀 A LinkedIn több mint 15 éve fejleszti saját MI-alapú ajánlórendszerét, ám a munkaerőpiac következő generációjához új szintre kellett lépniük...

MA 10:04

A gyógyszerkísérletek forradalma: nem kell többé a nulláról kezdeni?

Tipikus eset, amikor egy gyógyíthatatlan betegség ellen keresik a hatásos gyógyszert, mégsem használják fel a korábbi tapasztalatokat teljes mértékben...

MA 09:57

Az űrállomás evakuálása után: mire jött rá a Crew–11?

Csak egy héttel a Nemzetközi Űrállomásról való kényszerű hazatérésük után a Crew–11 négy tagja magabiztosan állt ki a nagyközönség elé, és mindannyian egyetértettek abban, hogy az emberes űrutazás jövője továbbra is ígéretes...