2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 07:17

Az Apple TV lecsap az F1-re: külön csatorna a nappalidba

Ugyanúgy, ahogy a Ferrari padlógázt nyom az egyenesben, az Apple sem vacakol: a Formula–1 mostantól saját csatornát kapott az Apple TV alkalmazásban...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 2/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Earplug (iPhone/iPad)Az Earplug egy minimalista relaxációs alkalmazás, amelyet alvásproblémák esetén használhatsz...

MA 07:01

Az agyam eldobom: Most tényleg ölre mennek a Steam Deck OLED-ért!

😱 Hoppá, gamerek, itt már nem csak a Diablóban kell vért izzadni: az új Steam Deck OLED egy ideig csak mutatóban lesz az üzletekben!..

MA 06:57

Az új adószabályok tényleg neked kedveznek, vagy csak átverés az egész?

Idén az adózás szokásosan gáz: elveszett papírok, stressz, félelem, hogy belezavarodsz mindenbe...

MA 06:49

Az új vérteszt áttörést hozhat a rák korai felismerésében

Egy csepp vérből már felismerhető lehet a daganat, még mielőtt azt bármilyen képalkotó vizsgálat kimutatná...

MA 06:33

Az Antarktisz utolsó őslakója már műanyagon él

Érdekes felvetés, hogy a világ legtávolabbi, leghidegebb tájait is eléri az emberi tevékenység következménye – a szennyezés...

MA 06:25

A férfiak öregedésének rejtett ára: az Y-kromoszóma eltűnése

👷 Ahogy a férfiak idősödnek, sejtjeikben egyre gyakrabban eltűnik az Y kromoszóma, amelyet sokáig ártalmatlannak tartottak...

MA 06:17

Az első PCIe 6.0-s SSD: a szerverek játékszere, nem a tiéd

💻 Na, végre megérkezett a PCIe 6.0 SSD, amit most először tényleg lehet venni – persze, hogy tiszta legyen: te úgysem fogsz hozzájutni, mert ezt csak az óriási AI-adatközpontoknak dobják oda...

MA 06:05

Történelmi események a mai napon (Február 17.)

Rövid utazás a történelemben: csaták, forradalmi technológiák és politikai fordulatok egyetlen napon átívelve...

hétfő 20:56

Az MI‑apokalipszis öt vészjósló jele: közelebb, mint gondolnád

Az utóbbi években rajongók és fejlesztők egy új MI-aranykort hirdettek, az ipari forradalom ígéretével és korábban elképzelhetetlen áttörésekkel...

hétfő 20:02

A Vatikánban mostantól AI fordítja élőben a misét 60 nyelven

⛪ Na, képzeld el, ott ülsz a Szent Péter-bazilika padjában, zsibbasztod a térded, és halvány fogalmad sincs, miről beszél a pap olaszul vagy latinul...

hétfő 19:56

A legendás Quake 3-at hajtó ördögi matek

🔥 A ’90-es évek végén, amikor a számítógépes hardver még messze nem volt ilyen gyors, a játékfejlesztőknek a lehető leghatékonyabb kódokat kellett írniuk, hogy a legmodernebb grafikát és élményt hozzák ki a gépeikből...

hétfő 19:39

Az Android szabadságának vége? Így változnak a letöltések

🚧 Az Android mindig is a szabadság szinonimája volt: a felhasználók szabadon telepíthettek alkalmazásokat külső forrásból, függetlenül a Play Áruháztól...

hétfő 19:19

Az Apple március 4-én tarol: új Mac, iPad, friss iPhone-színek?

New York, London, Sanghaj – az Apple idén végre kimozdul az unalmas Apple Parkból, és új eseményt dob össze március 4-én, magyar idő szerint délután 3 órakor...

hétfő 19:02

Az égitestek titkos órája: meddig él egy bolygó?

A bolygók születnek, alakulnak, majd elpusztulnak — de hogy mennyi ideig tart mindez, az a csillaguktól és saját belső folyamataiktól is függ...

APP
hétfő 18:59

APPok, Amik Ingyenesek MA, 2/16

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Tunepal (iPhone/iPad)Az alkalmazás a Sunday Times toplistáin is szerepelt: 2012-ben bekerült minden idők 500 legjobb appja közé, 2010-ben pedig az iPhone húsz legfontosabb kulturális alkalmazása között említették...

hétfő 18:56

Az agyi gyulladás lehet a kényszeresség rejtett mozgatórugója

Évtizedeken át a kényszeres viselkedést egyszerűen rossz beidegződésnek gondolták, mintha az agy csak rutinból ismételné ugyanazokat a cselekvéseket...

hétfő 18:48

Az új Samsung mobil végre leskelődésgátló kijelzőt kap

A Samsung most tényleg bedobott egy új, vad funkciót az S26-tal: bemutatkozott a privát kijelzőmód (privacy display)...

hétfő 18:37

Az erős pszichedelikum új reményt hozhat a depresszió kezelésében

Egyetlen adag dimetiltriptamin (DMT), amelyet sámánisztikus szertartásokban is használnak, jelentős és tartós javulást hozhat a súlyos depresszióval élők számára, ha pszichoterápiával együtt adják be...

hétfő 18:19

Az univerzum óriási, forgó kolosszusa váratlanul sokkolta a kutatókat

Lyla Jung, az Oxfordi Egyetem csillagásza egy különös, eddig ismeretlen szerkezetre figyelt fel monitorján: 400 millió fényévnyire a Földtől sikerült azonosítani egy óriási kozmikus fonalat, egy több száz galaxisból álló, forgó láncolatot...

hétfő 17:55

A gyorsan merülő iPhone-ok megmentője jöhet: érkezik az iOS 27

⚡ Sokan bosszankodnak az iOS 26 miatt, mert az iPhone akkumulátora alig bírja a napot...

hétfő 17:37

Az amerikai kormány pánikszerűen befoltozza a súlyos biztonsági rést

Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) ultimátumot adott a szövetségi hivataloknak: mindössze három napjuk van befoltozni a BeyondTrust-rendszereket érintő súlyos sérülékenységet, amelyet a támadók már aktívan kihasználnak...

hétfő 17:19

Az Ether túléli a 200 milliárdos eladási vihart

💰 A kriptopiacok továbbra is nyomás alatt vannak, miközben a hétvégi hatalmas eladási hullám után az ether árfolyama visszakapaszkodik a 735 ezer forintos (2000 dolláros) szint felé...

hétfő 17:01

Tényleg ellopta a mesterséges intelligencia egy rádiós hangját?

📢 A népszerű amerikai rádiós, David Greene szerint a Google NotebookLM nevű MI-eszköze engedély nélkül másolta le a hangját...

hétfő 16:55

Az OpenAI keményen fellépett az OpenClaw megalkotója ellen

Az OpenAI legújabb húzása, hogy leszerződtette Peter Steinbergert, az OpenClaw nevű MI-ügynök megalkotóját, akitől azt várják, hogy elindítsa a személyes MI-ügynökök új generációját...

hétfő 16:20

Az első indiai MI-óriás tőzsdei rajtja csúfosan besült

India első MI-cége, amely tőzsdére lépett, nem igazán hozta lázba a befektetőket: a Fractal Analytics részvényei gyengén nyitottak, majd még tovább estek, miközben a szoftverrészvények eladási hulláma miatti bizonytalanság uralkodott a piacon...

hétfő 16:01

A ByteDance ellen per MI-videók miatt: Disneyt, Cruise-t és Pittet is érinti

A ByteDance alig egy hete dobta piacra új MI-alapú videókészítőjét, a Seedance 2...

hétfő 15:37

Az ősi varázsló, akitől egy birodalom rettegett

Két évezreddel ezelőtt a Tumaco-Tolita nép kerámiamesterei elképesztő élethűséggel formálták meg közösségük idős vezetőit...

hétfő 15:19

Az MI felkavarja Hollywoodot: a stúdiók visszatámadnak

A TikTok tulajdonosa, a ByteDance komoly viharba keveredett Hollywoodban a Seedance 2...