2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 16:45

A Samsung Ultra villámgyorsan tölt, de az akku csak közepes

⚡ A Samsung legújabb csúcsmobilja, a Galaxy S26 Ultra elsőként kapott 60 wattos vezetékes gyorstöltést, amivel végre felzárkózott a versenytársak szintjéhez...

MA 16:34

Az univerzum óriás fekete lyukai éheznek – miért?

🧰 Az elmúlt 10 milliárd évben a világegyetem legnagyobb fekete lyukai feltűnően lassabban növekedtek, mint korábban...

MA 16:24

A fényalapú chipek hozzák el az MI következő nagy ugrását?

Az ipart formáló, stratégiai jelentőségű innovációként tör előre a szilícium-fotonika: ez a technológia főként a fejlett MI-, kommunikációs és adatinfrastruktúra alapkövévé válik...

MA 16:01

A végső leszámolás az otthoni téves riasztásokkal

A legtöbb otthoni riasztórendszer használója találkozott már az éjszaka közepén megszólaló szirénával vagy ok nélkül működésbe lépő füstérzékelővel...

MA 15:56

A Bitcoin veszélyben – zár alá kerülnek Satoshi pénztárcái?

⚠ A világ legnagyobb Bitcoin-vagyona veszélybe került, mivel új kvantumszámítási technikák már 2029-re képesek lehetnek feltörni Satoshi Nakamoto pénztárcáit akár kilenc perc alatt is...

MA 15:46

Az MI felfalja a SaaS-t: Túl korán temetjük a szoftvereket?

Az idei év elején komoly hullámokat vetett a technológiai piac, amikor a fejlett MI-megoldások, mint az Anthropic Claude jogi feladatmodulja, egyetlen nap alatt 104 ezermilliárd forintnyi piaci értéket tüntettek el a tőzsdékről...

MA 15:34

Az iPhone mostantól rászól, ha koszos a kamerád – mert miért ne?

Gyerekek és mobilkamerák – ez aztán páros! Ha hagyod, hogy a kis kezek rátegyék a tappancsukat a mobilodra, tuti, hogy pár ujjlenyomat és egy adag titokzatos trutyi landol a képernyőn, sőt, a kamerán is...

MA 15:22

Az IMF riadót fúj: a tokenizáció megrengetheti a pénzpiacokat

⚠ A blokkláncon megjelenő valós eszközök tokenizációja forradalmasíthatja mind a kriptopiacokat, mind a hagyományos pénzügyi rendszert, de új kockázatokat is teremt, amelyekre a szabályozóknak egyelőre nincs válaszuk...

MA 15:14

A 8849 Tank X: a mobil, ami túléli a világvégét

🛡 A 8849 Tank X-szel első pillantásra kiderül: ez nem hétköznapi okostelefon...

MA 15:03

Az egyszeri génszerkesztés átírhatja a koleszterincsökkentés szabályait

Érdemes megvizsgálni, hogy egy kísérleti génszerkesztéses eljárás milyen áttörést hozhat a veszélyesen magas koleszterinszint kezelésében azok számára, akiknek a hagyományos gyógyszerek nem válnak be, vagy egyszerűen nem képesek hosszú távon következetesen szedni azokat...

MA 14:45

Az égbe törő mobiltornyok: közeleg a hálózati forradalom

A világ távközlési infrastruktúrája jelentős átalakulás előtt áll: a műholdas rendszerek mellett most a sztratoszférába emelt, irányítható léghajók is megjelentek az adatátvitel forradalmian új formájaként...

MA 14:24

Az új Google Fotók-trükk: villámgyors MI-szerkesztés a Pixel telefonokon

⚡ A Google ismét a Pixel-tulajdonosoknak kedvez egy izgalmas fejlesztéssel: a Google Photos MI-alapú fotójavító funkcióját most kettéosztja...

MA 14:04

Vége a játéknak: bezár a Robot Cache, oda a játékgyűjtemény

A 2018-ban indult Robot Cache digitális játékbolt gyors bukásának története a kriptoőrület egyik utórezgése...

MA 13:45

Az új memóriavédelem végre nyugalmat hozhat a Samsung-felhasználóknak

Ez a jelenség jól illusztrálja, hogy az okostelefonokon futó alkalmazások gyakran észrevétlenül is helytelenül kezelik a memóriát, ami adatvesztéshez, engedély nélküli hozzáféréshez vagy akár komolyabb biztonsági résekhez vezethet...

MA 13:12

Az IT-válság brutális ára: cégek versenyt futnak a túlélésért

A vállalatok többsége ma már tisztában van azzal, hogy egy IT-incidens utáni gyorsabb helyreállás komoly előnyt jelenthet...

MA 12:23

A Samsung Üzeneteknek vége: mi lesz most az üzeneteiddel?

💬 A Samsung végleg lelövi a Samsung Messages alkalmazást: 2026 júliusában búcsút kell mondanunk a jól ismert üzenetküldőnek, minden felhasználót az átállásra biztatja...

MA 11:34

Az iPhone diadalmaskodott az Android felett a világűrben

A NASA Artemis II küldetésének űrhajósai most először készítettek olyan fotókat iPhone 17 Pro Max-szal, amilyeneket korábban egyetlen Android-telefon sem tudott: az űrből, a Holdhoz közel, az egész Föld látható egyetlen hatalmas, kék buborékként...

MA 11:02

A Garmin Approach S50 visszavág a túlárazott golfóráknak?

A Garmin Approach S50 a márka középkategóriás golfórájaként mindent hoz, amit a hobbigolfos vagy a szenvedélyes játékos elvárhat...

MA 10:57

Az Arc blokklánc páncélt kapott a kvantumtámadások ellen

🛡 A feltörekvő Arc blokklánc már induláskor olyan pénztárcákat kínál majd, amelyek ellenállnak a jövő kvantumszámítógépes támadásainak...

MA 10:44

A minósziak rejtélye: hová lett Kréta ősi nagyhatalma?

A Kr. e. 2000 és 1500 közötti évszázadokban a mai Kréta szigetén és a környező kis szigeteken elképesztően fejlett civilizáció virágzott...

MA 10:29

Az elfeledett LG Rollable még 2026-ban is leiskolázza a mobilokat

📱 Egy igazi ritkaság került elő: a JerryRigEverything csatornáról ismert Zack Nelson szétkapta az LG be nem mutatott, feltekerhető kijelzős mobilját, amelyet a nagyközönség sosem láthatott...

MA 10:22

Az Anthropic óriásbakit vétett: kiszivárgott a Claude Code teljes forráskódja

Hohó, ki gondolta volna, hogy 2026 húsvétján ekkora ajándék pottyan az égből?..

MA 10:01

Az Artemis űrhajósai élőben mutatják a Hold eddig rejtett arcát

Érdekes felvetés, hogy az Artemis-misszió asztronautái most először lépnek be a Hold gravitációs terébe, ahol a Hold vonzása erősebb, mint a Földé...

MA 09:43

A Malwarebytes naplózásmentes VPN-je: tényleg véd, vagy átverés?

🔒 A Malwarebytes, a kiberbiztonsági piac egyik legismertebb neve, most igazi áttörést ért el átláthatóság terén: független külső félnek, az elismert X41 D-Sec csapatnak adott teljes hozzáférést VPN-szolgáltatása forráskódjához és infrastruktúrájához egy kemény, két hónapos átfogó vizsgálathoz...

MA 09:36

A nyelv rejtett törvényei: meghökkentő mintázatok a világban

Bár a világ nyelvei első ránézésre óriási különbségeket mutatnak, a legfrissebb kutatások szerint rendkívül következetes, mélyen emberi szabályokat követnek...

MA 09:22

Az emberközpontú MI jövője: szólhat végre rólunk a technológia?

Az utóbbi évek MI-fejlődése alapjaiban forgatta fel az eddigi elképzeléseket arról, mire képesek ezek a rendszerek az életünkben...

MA 09:15

Az emberiség visszatér a Holdhoz: indul az Artemis II

🚀 Évtizedek óta először jár ismét emberes űrhajó a Hold közelében. Az Artemis II négyfős legénysége – Reid Wiseman, Christina Koch, Victor Glover és Jeremy Hansen – mindössze négy nap alatt elérte azt a határt, ahol a Hold gravitációs vonzása már erősebb, mint a Földé...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 4/6

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Dragon Ruins I (iPhone/iPad)Ebben a retró hangulatú dungeon crawler RPG-ben a játékos Isigwere fővárosában feltárt ősi romok mélyébe ereszkedik alá...

MA 09:08

Az Artemis II áttöri a határt: közelebb a Holdhoz

🚀 Eljött a pillanat, amire több mint ötven éve nem volt példa: az Artemis II legénysége belépett a Hold szférájába, vagyis abba a térségbe, ahol a Hold gravitációja már erősebb, mint a Földé...