2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 06:06

Történelmi események a mai napon (Április 14.)

Ezen a napon koronázások, háborúk és sorsfordító döntések formálták a világot: a lengyel államiság keresztény alapokra állt, a Khalsa létrejött, a spanyol monarchiát köztársaság váltotta, miközben a Titanic jéghegynek ütközött...

hétfő 21:46

Az MI felfalja az óriásplatformok bevételeit

Kezdetben mindennapjainkat és gazdasági döntéseinket digitális platformok uralták. Az online tevékenységek bővülésével egyre inkább ezekre a szolgáltatókra támaszkodtunk, legyen szó arról, hogy keresünk a Google-ben, üzenetet váltunk WhatsAppon, videókat nézünk a YouTube-on, kapcsolatot tartunk az Instagramon, vagy vásárolunk az Amazonon...

hétfő 21:34

Az AT&T sunyi díjemelésére a régi ügyfelek ráfázhatnak

Áprilistól drágább lesz az élet azoknak az AT&T előfizetőknek, akik hosszú évek óta ragaszkodnak régi vezeték nélküli tarifacsomagjukhoz...

hétfő 21:01

Az MI beégett a bíróságon: kitalált ügyek, súlyos következmények

Az MI térnyerése az élet számos területén látványos ígéretekkel érkezett, de a jog világában teljesen más kihívásokkal találta szembe magát...

hétfő 20:45

A valódi Zuckerberg helyett már a mesterséges főnök diktál?

Képzeld el, hogy egy fontos céges kérdéssel fordulsz a vezérhez, várva a személyes, motiváló választ – aztán kiderül, hogy „Mark Zuckerberg” valójában csak egy mesterien kiképzett MI-klón, amely a vezér minden gesztusát, hangszínét, múltbeli nyilatkozatát, sőt a céges stratégiához fűzött gondolatait is tökéletesen utánozza...

hétfő 20:34

Az Artemis II diadala és a világ legkövérebb papagája: két szenzáció

🚀 Ezen a héten több tudományos szenzáció is született: az Artemis II űrmisszió hazatérése, a kihalás széléről visszatérő különleges új-zélandi madár, valamint a Torinói lepel erősen vitatott eredetű DNS-mintái mind hozzájárultak az izgalmakhoz...

hétfő 20:24

A balti bálna a végóráit éli, Németország tehetetlen

Egy tízméteres hím púpos bálna hónapok óta vergődik a németországi Balti-tengeren, miközben egy egész ország látja tehetetlenül az állat lassú haldoklását...

hétfő 20:14

Az MI véget vet az online oktatásnak?

🤓 Az egyetemi oktatás sosem volt könnyű pálya, hiszen a bér alacsony, a munka bizonytalan, mégis rengetegen választják, mert a tanítás öröme semmihez sem fogható...

hétfő 19:56

A Circle csak bírósági végzésre fagyasztja be az USDC-t

🔒 A stablecoinok világában egyre nagyobb botrányt kelt, hogy hackerek százmilliókat lopnak el digitális valutákból, miközben a kibocsátók tétlenül nézik...

hétfő 19:45

Az új Roblox-gyerekfiókok felforgatják a szabályokat – jön a szigorúbb ellenőrzés

🔒 A Roblox júniustól kétféle, korosztályhoz kötött fiókot vezet be a fiatalabb játékosok számára: Roblox Kids és Roblox Select...

hétfő 19:34

Az új adatgyűjtő vírus, amely jelszó nélkül is kifoszt

🔒 2026 elején egy vadonatúj infógyűjtő, a Storm jelent meg az alvilági hackerkörökben...

hétfő 19:12

Az Adobe villámfrissítéssel zárja az Acrobat kritikus biztonsági rést

⚡ Az Adobe kritikus biztonsági frissítést adott ki az Acrobat és az Acrobat Reader szoftvereihez, hogy orvosolja a CVE-2026-34621 nevű sebezhetőséget, amelyet már hónapok óta zéró-napos támadásokban kihasználják...

hétfő 19:01

Az Android Auto végre átveszi a klímavezérlést?

Az Android Auto fejlesztései új lendületet kaptak: hamarosan lehetőség nyílik a klímaberendezés vezérlésére közvetlenül az autó kijelzőjéről, anélkül, hogy ki kellene lépni az Android Auto felületéről...

hétfő 18:56

A Google Messengerben végre kukázhatók az üzenetek

Sokáig igazi stresszforrás volt a törlés a Google Messengerben, hiszen azonnal és végleg eltűntek az üzenetek, ha megnyomtad a törlés gombot...

hétfő 18:45

A túl erős fény visszavetheti a növények fejlődését

A növények növekedését a fény nemcsak serkenti, hanem korlátozhatja is. Japán kutatók meglepő eredményre jutottak: világosban fejlődő borsóhajtásokban az epidermisz – vagyis a növény külső rétege – sokkal szorosabban tapad az alatta lévő szövetekhez, mint a sötétben nevelt növények esetében...

hétfő 18:34

Az újabb Rockstar-káosz: hackertámadás borzolja a GTA VI előszelét

🔫 Képzeld el, hogy a Rockstar Games – igen, az a stúdió, amelyik a Grand Theft Auto VI-n (GTA 6) dolgozik – megint hackertámadás célpontja lett...

hétfő 18:23

Az új fogkrém, amely véget vet a fogínybetegségeknek

😃 Az emberi szájban több mint 700-féle baktérium él, de csak kevés felelős a súlyos fogínybetegségekért...

hétfő 17:56

A mesterséges intelligencia sötét oldala: veszélyben a kriptotárcák

🔐 A technológiai világ egyre inkább a mesterséges intelligenciára támaszkodik, és a kriptovilágban is látványos forradalom készül...

hétfő 17:47

Az olcsó OLED nagy blöffje? Gigabyte GO27Q24G teszt

💡 Egy lényeges szempont, hogy a Gigabyte GO27Q24G egy újabb próbálkozás arra, hogy a gamerek számára elérhető áron kínáljon OLED kijelzős monitort, mégpedig egy régebbi LG WOLED panel segítségével...

hétfő 17:35

Az univerzális légúti vakcina: mennyit kell még várnunk?

😷 Képzelj el egy olyan oltást, amely egyszerre véd az influenza, a COVID-19, a tüdőbe jutó baktériumok és a szezonális allergének ellen...

hétfő 17:23

Az új kriptoőrület: száguld a Bitcoin, tombol a RAVE

Külön említést érdemel, hogy az elmúlt napokban a Bitcoin továbbra is stabilan tartja magát 25,5 millió forint (70 000 USD) körül, még akkor is, ha világszerte erősödnek a geopolitikai feszültségek, és a hagyományos piacok inkább a biztonságot keresik...

hétfő 17:12

A legutóbbi, alattomos Windows-frissítés ellopja a jelszavaidat

🔒 Erre utal többek között az, hogy a csalók már hamis Windows-támogatói oldalakkal tévesztik meg a felhasználókat, ahol egy látszólagos, „összegző frissítés” (cumulative update) nevű Windows-frissítést kínálnak a 24H2-es verzióra...

hétfő 17:01

Az MI miatti elbocsátási csapda: amikor a robotok romba döntik a gazdaságot

Ha a mesterséges intelligencia gyorsabban váltja le az embereket a munkahelyeken, mint ahogy a gazdaság újra képes felszívni őket, az könnyedén kiütheti az alapokat a fogyasztói kereslet alól – ami nélkül a cégek is pórul járnak...

hétfő 16:47

Az örök fiatalság nyomában: rajtol az emberkísérlet

A sötét mikroszoba fojtogató csendjében Yuancheng Ryan Lu levegőért kapkodott, miközben a tárgylemezen egy apró csoda született...

hétfő 16:35

A népszerű PC-diagnosztikai oldalról szabadult el egy veszélyes trójai

🐛 A népszerű CPUID.com oldalt néhány órára feltörték, és alattomos trójai fertőzések kiindulópontjává vált...

hétfő 16:12

A valódi szabadság: techállások, amelyekkel bárhol élhetsz és dolgozhatsz

🌍 Általános home office? Hát persze, ki ne unná már, hogy a kanapé sarkából meetingel minden második kocka...

hétfő 16:01

Az áttörés küszöbén: új gyógyszer reményt hoz a hasnyálmirigyrákban

💉 Fontos kérdés, hogy van-e valódi előrelépés a hasnyálmirigyrák gyógyításában, amely a legalacsonyabb ötéves túlélési aránnyal rendelkező daganatos betegségnek számít, mindössze 13%-kal...

hétfő 15:46

Az iPhone Csendes és Ne zavarjanak között mi a különbség?

Érdemes megvizsgálni, mikor érdemes némítani az iPhone-t, hiszen rengeteg olyan helyzet adódik, amikor nem jön jól, ha pittyeg vagy rezeg a telefon: egy fontos megbeszélés, tanóra vagy éppen egy film alatt...

hétfő 15:23

Az X hadat üzen a kattintásvadász tartalomgyárosoknak

Az X, Elon Musk vezetésével, jelentősen csökkentette azoknak a felhasználóknak a kifizetéseit, akik kattintásvadász vagy másoktól átvett híreket osztanak meg...