2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 10:41

Az okosan választott szénhidrát pajzsként védhet a demencia ellen

🧠 A szénhidrátok minősége nemcsak a derékbőségeden, hanem hosszú távon az agyad épségén is nyomot hagy...

MA 10:25

Az MI-chipforradalom: két hónapos startup már 4 milliárd dollárt ér

A Ricursive Intelligence villámgyorsan berobbant a techvilágba – a mesterséges intelligenciát fejlesztő chipgyártó startupot mindössze két hónappal az indulása után már 4 milliárd dollárra, tehát körülbelül 1 440 milliárd forintra értékelik...

MA 10:17

Az ázsiai reptereken kitört a pánik a halálos indiai Nipah-vírus miatt

Indiában, Nyugat-Bengál államban kitört a halálos Nipah-vírus legújabb járványa, ami miatt Ázsia több országában is szigorították a repülőtéri ellenőrzéseket...

MA 10:02

Az univerzum láthatatlan ragasztója: megérkezett a legrészletesebb sötétanyag-térkép

💫 A NASA James Webb-űrteleszkópja (JWST) ismét forradalmit alkotott: közel 800 000 galaxis fotójára vetítette rá legújabb, eddig legpontosabb sötétanyag-térképét...

MA 09:58

Az Office új biztonsági hibája tömegeket fenyeget – így védekezhetsz

⚠ A Microsoft váratlanul kiadott egy sürgősségi frissítést egy súlyos, aktívan kihasznált Office-sebezhetőségre, amelyet már támadásokban is kihasználtak...

MA 09:42

A nagy áttörés: hibátlan grafénelektródák az átlátszó elektronikához

💡 Az átlátszó elektródák fényt engednek át, miközben vezetik az áramot, ezért egyre több modern bioelektronikai és optoelektronikai eszközben használják őket...

MA 09:25

A kiberbűnözők új szolgáltatása kamu Chrome-bővítményekkel támad

Egy új, Stanley nevű malware-szolgáltatás azt ígéri, hogy olyan ártó szándékú Chrome-bővítményeket juttat át a Google ellenőrzési rendszerén, amelyek végül felkerülnek a Chrome Web Store-ba...

MA 09:20

Az új böngészős támadások már szinte minden céget célba vesznek

🛡 Az elmúlt évben a vállalatok 95%-a tapasztalt böngészőalapú kibertámadást, miközben a hagyományos biztonsági rendszerek legtöbbször teljesen védtelennek bizonyultak ezekkel szemben...

MA 09:09

Az MI leveri a gyakornokot: itt a Google Naptár forradalma

A Google Naptár mostantól igazi asszisztensként segít megszervezni a megbeszéléseket: a Gemini nevű MI képes minden résztvevő naptárát, munkaidejét és elfoglaltságait összevetni, így azonnal felajánl olyan időpontokat, amelyek mindenkinek megfelelnek...

MA 08:52

Az új Kimi K2.5: gépi látású MI, önálló ügynökhadsereggel

🚀 A Kimi K2.5 vadonatúj, nyílt forráskódú modell, amely egyszerre hoz áttörést a vizuális intelligenciában, a kódfejlesztésben és az önállóan szerveződő ügynökalapú munkafolyamatokban...

MA 08:33

Megint lehúz a Meta: jönnek a fizetős extrák

💸 A Meta hamarosan teszteli a prémium előfizetéseket az Instagramon, a Facebookon és a WhatsAppon, amelyek exkluzív funkciókat kínálnak majd a felhasználóknak...

MA 08:27

Az AAA dél-kaliforniai autóbiztosítása nem olcsó, de megbízható

Különösen igaz ez akkor, ha már rendelkezel AAA-tagsággal – hiszen ilyen esetben kézenfekvőnek tűnhet autóbiztosításra is náluk szerződni, és mindent egy jól ismert márka alatt kezelni...

MA 08:17

Az új AirTag 2 messzebbre talál és hangosabban jelez

Az Apple bemutatta az AirTag 2-t, amely jelentős fejlesztéseket kínál az előző verzióhoz képest...

MA 08:02

Az amerikai TikTok összeomlott – a hiba végigsöpört a rendszeren

🔴 Az amerikai TikTok-felhasználók napok óta furcsa hibákkal találkoznak: gondot okoz a bejelentkezés, a videók feltöltése, az algoritmus pedig mintha teljesen megbolondult volna...

MA 07:57

Az óvatlan Google-lehallgatásért most megfizethet a techóriás

A Google 25 milliárd forintot (68 millió dollárt) fizet, hogy lezárja a Google Assistant lehallgatási botrányát...

MA 07:49

Az acél mágnesességének titkára végre fény derült

💡 A kutatók évtizedek óta tudják, hogy a mágneses tér javíthatja az acél tulajdonságait, mégsem értették pontosan, mi áll ennek hátterében...

MA 07:42

A kriptovagyon sorsa: mi történik, ha meghal a tulajdonos?

🔒 Modern világunkban egyre több magyar is tart valamilyen kriptovalutát – akár régi, jól őrzött bitcoint, akár csak egy unoka tanácsára vásárolt néhány tokent...

MA 07:33

Az ónos eső, a téli viharok alattomos csapdája

⛄ Fontos kérdés, hogy miért okoz az ónos eső sokkal súlyosabb károkat, mint a havazás...

MA 07:25

Az ezüst tarol a Hyperliquiden, miközben a Bitcoin toporog

Az utóbbi napokban az ezüst határidős ügyletei elképesztő forgalmat értek el a Hyperliquid nevű kriptoderivatíva-tőzsdén, alig maradva el a bitcoin és az ether mögött...

MA 07:17

Az EU vizsgálja az X-et a Grok botrányos szexuális deepfake-jei miatt

Az Európai Bizottság vizsgálatot indított az X (korábbi nevén Twitter) ellen, mert a Grok nevű MI-chatbot szexuális jellegű deepfake-képeket generált...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/27

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Cutter (iPhone/iPad)Ez a maró- és gömbvégű szerszámokhoz készült “speeds and feeds” kalkulátor mind metrikus, mind angolszász mértékegységeket támogat...

MA 07:09

Az iPhone 5s meglepetésfrissítést kap 13 év után

Az Apple újra meglepte a régi iPhone-tulajdonosokat: megjelent az iOS 12...

MA 06:57

Az EU rászállt az X-re a Grok pornóképei miatt

Az Európai Bizottság eljárást indított az X ellen, miután a platform Grok nevű MI-eszközét szexuálisan explicit képek előállítására használták, köztük gyermekeket érintő tartalmak létrehozására is...

MA 06:50

A kanyaró visszatért: az Egyesült Királyság már nem kanyarómentes

Az Egyesült Királyságban immár több mint egy éve folyamatosan terjed a kanyaró, ezért az ország elveszítette az Egészségügyi Világszervezet (WHO) által elismert kanyarómentes státuszát...

MA 06:41

Az elhízás és a magas vérnyomás valóban demenciához vezethet

Az elhízás és a magas vérnyomás nem csupán növeli a demencia kialakulásának kockázatát, hanem közvetlenül okozhatja is azt – derült ki egy új, dán és brit nagymintás genetikai kutatásból...

MA 06:33

A Cloudflare hibája világszerte megbénítette az internetet

Egy rosszul beállított Cloudflare útválasztó 25 perces forgalmi káoszt okozott az interneten, amikor január 22-én több helytelen BGP (Border Gateway Protocol) útvonalat hirdetett meg, főként az IPv6-os forgalmat érintve...

MA 06:25

A TikTok új tulajdonosai már a bevándorlási státuszodat is figyelik

👀 Az amerikai TikTok-alkalmazás új korszakába lépett: Donald Trump támogatásával olyan milliárdosok vették kézbe a platformot, akik szoros kapcsolatban állnak a jelenlegi konzervatív politikai vezetéssel...

MA 06:18

Az óriási bagoly rejtélye: egy zapoték sír sokkolja Mexikót

Mexikó déli részén, Oaxaca államban 1400 éves zapoték sírt tártak fel, ahol döbbenetesen jó állapotban fennmaradt részleteket találtak: egy hatalmas, kidülledt szemű bagolyszobrot, amely egy ember arcát tartja a csőrében, sokszínű falfestményeket és naptári véseteket...

MA 06:05

Történelmi események a mai napon (Január 27.)

Időutazás egyetlen napon: Bizánctól a vietnámi békéig, Leningrád felszabadításától a Seikan-alagút áttöréséig sorra jönnek a fordulópontok...