2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 21:56

A fáraók csillogó gyászruhája: a gyöngyhálók titkos története

💎 Ez a látványos, több mint 4500 éves, gyöngyhálóból készült óegyiptomi ruha igazi ritkaság, amely kifejezetten egy nő temetésére készült a piramisok korában...

MA 21:34

A zsarolóvírusok orosz királya lebukott: így csaptak le UNKN-re

🔒 A német hatóságok hivatalosan is leleplezték Daniil Makszimovics Scsukint, azt a 31 éves, krími születésű orosz hackert, aki évekig „UNKN” fedőnéven működtette a hírhedt GandCrab- és REvil-zsarolóvírus-bűnbandákat...

MA 21:02

A víz alatti élet titka: miért nem fulladunk meg?

Az emberiség elképesztően sokszínű környezethez alkalmazkodott az évezredek során. Bárhol nézünk szét a Földön, megtalálhatók olyan közösségek, amelyek a legextrémebb körülményeket is túlélhetővé tették – sőt, otthonukká formálták...

MA 20:57

Az olcsó tárhelynek befellegzett: hová mentse most az adatait?

📤 Ebből következően érdemes megérteni, hogy az adattárolás egyre nagyobb kihívást jelent: a videók felbontása és mérete folyamatosan nő, a projektekhez szükséges fájlok könnyen túllépik a több száz MB-ot, miközben a megbízható, nagy kapacitású és megfizethető fizikai tárolók lassan eltűnnek...

MA 20:46

A mesterséges intelligencia megelőzi a katasztrófákat: itt a NeuBird Falcon

🕵 Kezdetben a technológiai ipar egyik legfőbb jelszava az volt, hogy haladj gyorsan, és törj össze dolgokat...

MA 20:12

A T‑Mobile lekapcsolja a régi mobilokat – lejárt az idő

⏱ Alig pár napja, hogy a T-Mobile frissítette a hálózatát, és elbúcsúzott néhány régi biztonsági szabványtól, amelyeket a 2017 előtti, régi androidos vagy iPhone-ok használtak...

MA 20:02

A MacBook Neo tényleg megváltoztatja a hétköznapokat ennyiért?

💻 Az Apple jó ideje nem dobott piacra új MacBook modellt, így sokan kíváncsian várták a Neo érkezését...

MA 19:56

Az MI-háború küszöbén: Altman vészjelzése az emberiségnek

Tipikus eset, amikor a technológia fejlődése villámgyorsan átírja a játékszabályokat: az MI már nemcsak elméleti fenyegetés, hanem a mindennapi gazdaság húzómotorja...

MA 19:34

Az internet kora elszabadította a zaklatást: sosem látott esetszám

Az elmúlt tíz évben Angliában és Walesben mintegy ötvenszeresére emelkedett a rendőrség által nyilvántartott zaklatási ügyek száma, tavaly több mint 135 ezer bűncselekményt regisztráltak, szemben a tíz évvel korábbi majdnem 3 ezerrel...

MA 19:24

Az új diplomások kálváriája: miért sosem volt ilyen nehéz állást találni?

💼 Az egyetemi diplomát szerző fiatalok idén minden eddiginél szigorúbb munkaerőpiaccal szembesülnek...

MA 19:13

Az új Moto Watch: sportóra, vagy csak mutatós kiegészítő?

A Moto Watch első pillantásra komoly versenytársnak tűnik a fitneszórák piacán...

MA 19:02

A NEAR berobban, az Avalanche száguld – kriptóőrület hétvégén

Micsoda fordulat a hétvégén! A kriptopiacon mindenki a NEAR Protocolra kapta fel a fejét, mert 8,1%-ot hasított – komolyan, ez már nemcsak véletlenül elszabadult rakéta...

MA 18:56

Az Artemis II élőben kerüli meg a Holdat – ilyen még nem volt!

A NASA épp most ír történelmet az Artemis II küldetéssel. Reid Wiseman, Christina Koch, Victor Glover és Jeremy Hansen lesznek azok, akik minden eddigi űrhajósnál messzebb utaznak a Földtől, az Orion űrhajóval...

MA 18:45

A magányos bitcoin-bányász, aki egy csapásra meggazdagodott

🤑 Egy magányos bitcoin-bányász szenzációt keltett, amikor mindössze 230 terahash/s számítási kapacitással sikerült validálnia a 943 411-es blokkot...

MA 18:23

Az új Walmart 4K-s streaming stick: tényleg megéri?

📺 A Walmart legújabb, 4K-s streaming stickje már csendben megjelent néhány üzlet polcán, így a vásárlók már most is beszerezhetik az UHD-minőséget kínáló eszközt...

MA 16:45

A Samsung Ultra villámgyorsan tölt, de az akku csak közepes

⚡ A Samsung legújabb csúcsmobilja, a Galaxy S26 Ultra elsőként kapott 60 wattos vezetékes gyorstöltést, amivel végre felzárkózott a versenytársak szintjéhez...

MA 16:34

Az univerzum óriás fekete lyukai éheznek – miért?

🧰 Az elmúlt 10 milliárd évben a világegyetem legnagyobb fekete lyukai feltűnően lassabban növekedtek, mint korábban...

MA 16:24

A fényalapú chipek hozzák el az MI következő nagy ugrását?

Az ipart formáló, stratégiai jelentőségű innovációként tör előre a szilícium-fotonika: ez a technológia főként a fejlett MI-, kommunikációs és adatinfrastruktúra alapkövévé válik...

MA 16:01

A végső leszámolás az otthoni téves riasztásokkal

A legtöbb otthoni riasztórendszer használója találkozott már az éjszaka közepén megszólaló szirénával vagy ok nélkül működésbe lépő füstérzékelővel...

MA 15:56

A Bitcoin veszélyben – zár alá kerülnek Satoshi pénztárcái?

⚠ A világ legnagyobb Bitcoin-vagyona veszélybe került, mivel új kvantumszámítási technikák már 2029-re képesek lehetnek feltörni Satoshi Nakamoto pénztárcáit akár kilenc perc alatt is...

MA 15:46

Az MI felfalja a SaaS-t: Túl korán temetjük a szoftvereket?

Az idei év elején komoly hullámokat vetett a technológiai piac, amikor a fejlett MI-megoldások, mint az Anthropic Claude jogi feladatmodulja, egyetlen nap alatt 104 ezermilliárd forintnyi piaci értéket tüntettek el a tőzsdékről...

MA 15:34

Az iPhone mostantól rászól, ha koszos a kamerád – mert miért ne?

Gyerekek és mobilkamerák – ez aztán páros! Ha hagyod, hogy a kis kezek rátegyék a tappancsukat a mobilodra, tuti, hogy pár ujjlenyomat és egy adag titokzatos trutyi landol a képernyőn, sőt, a kamerán is...

MA 15:22

Az IMF riadót fúj: a tokenizáció megrengetheti a pénzpiacokat

⚠ A blokkláncon megjelenő valós eszközök tokenizációja forradalmasíthatja mind a kriptopiacokat, mind a hagyományos pénzügyi rendszert, de új kockázatokat is teremt, amelyekre a szabályozóknak egyelőre nincs válaszuk...

MA 15:14

A 8849 Tank X: a mobil, ami túléli a világvégét

🛡 A 8849 Tank X-szel első pillantásra kiderül: ez nem hétköznapi okostelefon...

MA 15:03

Az egyszeri génszerkesztés átírhatja a koleszterincsökkentés szabályait

Érdemes megvizsgálni, hogy egy kísérleti génszerkesztéses eljárás milyen áttörést hozhat a veszélyesen magas koleszterinszint kezelésében azok számára, akiknek a hagyományos gyógyszerek nem válnak be, vagy egyszerűen nem képesek hosszú távon következetesen szedni azokat...

MA 14:45

Az égbe törő mobiltornyok: közeleg a hálózati forradalom

A világ távközlési infrastruktúrája jelentős átalakulás előtt áll: a műholdas rendszerek mellett most a sztratoszférába emelt, irányítható léghajók is megjelentek az adatátvitel forradalmian új formájaként...

MA 14:24

Az új Google Fotók-trükk: villámgyors MI-szerkesztés a Pixel telefonokon

⚡ A Google ismét a Pixel-tulajdonosoknak kedvez egy izgalmas fejlesztéssel: a Google Photos MI-alapú fotójavító funkcióját most kettéosztja...

MA 14:04

Vége a játéknak: bezár a Robot Cache, oda a játékgyűjtemény

A 2018-ban indult Robot Cache digitális játékbolt gyors bukásának története a kriptoőrület egyik utórezgése...

MA 13:45

Az új memóriavédelem végre nyugalmat hozhat a Samsung-felhasználóknak

Ez a jelenség jól illusztrálja, hogy az okostelefonokon futó alkalmazások gyakran észrevétlenül is helytelenül kezelik a memóriát, ami adatvesztéshez, engedély nélküli hozzáféréshez vagy akár komolyabb biztonsági résekhez vezethet...