2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 21:12

Az ingyenes Shakira-koncert kétmillió embert vonzott Rio tengerpartjára

Rio de Janeiroban szombat este felejthetetlen hangulat uralkodott, amikor Kolumbia szupersztárja, Shakira adott ingyenes koncertet a legendás Copacabana strandon...

MA 21:01

Az MI leleplezi a távoli világok titkait

Az asztronómia világában új mérföldkőhöz érkeztek a Warwicki Egyetem kutatói, akik több mint 100 exobolygó létezését erősítették meg a NASA TESS űrteleszkópjának adataiból...

MA 20:56

A legújabb Windows 11-fiaskó: miért falja fel a memóriát?

Jellemző, hogy egyre több felhasználó szenved a Windows 11 memóriaigényétől, miközben a memóriamodulok megdrágultak, és alig akad pénztárcabarát RAM a piacon...

MA 20:45

Az amerikaiakat még soha ennyi csaló nem csapta be

Fontos kérdés, hogy miért növekednek megállíthatatlanul a különböző csalások az Egyesült Államokban...

MA 20:34

Az emlékeink csak illúziók – a Boltzmann-agy rejtélye

💡 Könnyen lehet, hogy amit szilárd emléknek és valóságnak tartunk, csupán véletlenszerű fizikai folyamatok eredménye...

MA 20:23

Az ásványbányászat rejtett ára: beteg gyerekek, mérgezett víz

🚨 A tisztább, zöldebb jövő felé vezető út tele van ellentmondásokkal: a mesterséges intelligenciához, szélerőművekhez, mobiltelefonokhoz, elektromos autókhoz és védelmi rendszerekhez nélkülözhetetlen kritikus ásványokat döntően a világ legszegényebb vidékein bányásszák, az ott élők egészsége és környezete pedig végzetesen megsínyli ezt...

MA 20:12

Az idő megbicsaklik: apró hibát találtak a valóság szövetén

A kvantummechanika világa tele van meglepő, néha meghökkentő elméletekkel. Az egészen parányi részecskék nem viselkednek úgy, mint a hétköznapi tárgyak: egyszerre több állapotban lehetnek jelen, amit szuperpozíciónak nevezünk...

MA 19:56

A legújabb botrány: tinédzserek feldúlták a New York-i Szcientológia-egyházat

🔥 Szombat délután káosz tört ki a New York-i Szcientológia-egyház épületében, amikor egy csapat tizenéves randalírozva betört az oldalajtón, és súlyos károkat okozott az ingatlanban...

MA 19:46

Az iPhone 17 és az iPhone Air: dizájn vagy teljesítmény?

Az Apple új okostelefon-párosával igazán nehéz melléfogni, akár a klasszikus funkcionalitás, akár a feltűnő dizájn vonz...

MA 19:34

Az új memóriacsoda felrúgja a miniatürizálás szabályait

Tipikus eset, amikor a mobiltelefon túlmelegszik, az akkumulátor villámgyorsan lemerül, éppen a legrosszabb pillanatban...

MA 19:24

A konzolélmény a zsebedben: kipróbáltuk a GameSir G8 Galileót

🕹 Érdemes megérteni, mennyire közel kerülhet a mobilos játékélmény a konzolos szinthez...

MA 19:13

Az űrverseny új ásza: az AMD szembeszáll a bezárkózással

Az űriparban egyre nagyobb hangsúlyt kap a rugalmasság és a rendszerkompatibilitás, hiszen az űrbéli eszközöknek szigorú energia- és hőmérsékleti korlátokkal, időszakos földi kapcsolattal és rendkívül hosszú élettartammal kell számolniuk...

MA 19:01

A kert háborúja: Plants vs. Zombies – teszt

Itt egy játék, amelynek a koncepciója egyszerű, de annál ellenállhatatlanabb: a kertedet meg kell védened az élőhalottak inváziójától, miközben szokatlan fegyvereid nem mások, mint a saját növényeid...

MA 18:56

Az utolsó hajrá: mindjárt itt A testamentumok 7. része!

Agnes szemében végre megreped a Gileád által gondosan építgetett, rideg fal...

MA 18:45

Az agy eleve tele van – váratlan fordulat a memóriakutatásban

Az emlékek és a térbeli tájékozódás szempontjából kulcsfontosságú agyi terület, a hippokampusz működése új megvilágítást kapott az osztrák ISTA kutatóinak friss eredményei nyomán...

MA 18:34

Az új Wall Street: a blokklánc átírja a pénzpiacok szabályait

Mike Cagney neve sokaknak ismerős lehet a pénzügyi technológiák világában, de most új pályára állt: a blokklánc segítségével alakítaná át a Wall Street mélyrétegeit...

MA 18:23

Az amerikai bizalom még mindig a bankoké, nem a kriptóé

Érdemes megvizsgálni, mennyire fogadta be az amerikai társadalom a kriptovalutákat, miközben azok eredetileg a hagyományos bankrendszer bukásaira adott válaszként jelentek meg...

MA 15:02

Az óriáspatkány‑pánik hajtóvadászatot robbantott ki Idaho utcáin

Éjszakáról éjszakára Doug Perry és felesége kénytelenek voltak tűrni a patkányok kaparását és a kábelek rágcsálását, miközben próbáltak aludni...

MA 14:56

Az égi tűzijáték visszatér: a Halley-üstökös hullócsillagai érkeznek

🌈 Május 5–6. éjszakáján érdemes lesz az eget kémlelni, hiszen ekkor tetőzik az Eta Aquaridák meteorraj...

MA 14:45

Az MI korában ki védi meg az alkotókat?

Az utóbbi években komoly változásokat hozott a mesterséges intelligencia a szerzői jog világában...

MA 14:35

Az utazóborotvák új királya: Laifen P3 Pro teszt

A Laifen P3 Pro forradalmi villanyborotva azoknak készült, akik saját tempójukban, egyszerűen, akár útközben szeretnének borotválkozni...

MA 14:23

Az év meccse jön: Manchester United–Liverpool élőben, bárhonnan

A Premier League egyik legjobban várt összecsapásán két északnyugati nagyágyú találkozik az Old Traffordon, ahol a Manchester United egy BL-hely bebiztosításáért harcol...

MA 13:12

Az új 32 GB RAM-követelmény: tényleg csak a pénztárcád bánja?

💸 Feltételezhető, hogy akik mostanában szeretnék fejleszteni gamer PC-jüket, nem lesznek boldogok a Microsoft legújabb közlése után: rövid időre ugyanis 32 GB RAM-ot ajánlottak a Windows 11-et használó játékosok számára, ha valaki zökkenőmentes élményre vágyik többfeladatos használat (pl...

MA 13:02

Az a meghökkentő videojáték, amelyben tényleg fotózol

A Lushfoil Photography Sim egy igazi különlegesség: úgy élheted át a fotózás minden örömét, hogy közben ki sem kell mozdulnod a kanapéról...

MA 12:56

Tényleg megéri az előfizetéses nyomtatás? Kipróbáltam a HP All-In-t

💸 A rendszeres nyomtatás sokunknak problémás, főleg, ha épp akkor fogy ki a festékpatron, amikor a legnagyobb szükség lenne rá...

MA 12:45

A Sombrero-galaxist óriási, titokzatos fényudvar öleli körül

Felmerül a kérdés, hogy mennyivel több lehet a világegyetem, mint amit eddig láttunk – erre utal többek között az, hogy a chilei Cerro Tololo Obszervatóriumban működő, 570 megapixeles Dark Energy Camera most olyan részleteket mutatott meg a Sombrero-galaxisról (M104), amelyek korábban rejtve maradtak...

MA 12:35

A női szamurájok nyomában: mítosz vagy kőkemény valóság?

🥋 A szamurájokról legtöbbször markáns férfiként készült ábrázolásokat látunk, akár múzeumokban, akár filmeken...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 5/3

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     BoobieTime Breastfeeding Timer (iPhone/iPad)A BoobieTime egy 2017-ben, az alapító első gyermekének megszületését követő hetekben létrejött, hasznos alkalmazás szoptató édesanyák számára...

MA 08:29

Az új Dyson porszívó ördögi trükkje, amiért rajongani fogsz

💥 Megint feltűnik a régi mumus: teszteltem már a legtöbb Dyson porszívót, és bár egy ideje már nem ebből élek, még mindig követem, mit újít a márka...