2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 12:01

Az IKEA okosotthona: menő és olcsó, mégsem működik

📦 Az IKEA új, mindenki számára elérhető okos kütyüi végre megérkeztek! A gondolat izgalmas: menő, okos izzók, kapcsolók, dugaljak, mind kezdőáron, már 2400 forinttól...

MA 11:34

Az MI-asszisztensek kijátszása: veszélyes parancsok az orrod előtt

🛡 Egy új, böngészőkben alkalmazható trükk lehetővé teszi, hogy rosszindulatú parancsokat rejtsenek el közvetlenül a weboldalakon anélkül, hogy azt az MI‑asszisztensek észrevennék...

MA 11:23

Az iPhone 16e megkapja az álomfrissítést, amiről az Android csak álmodik

😍 Fontos kérdés, hogy mennyire lehet egy okostelefont olcsón, akár otthon is fejleszteni, főleg, ha új funkciók utólag is elérhetők lesznek...

MA 11:13

Az USA-ban berobban a vastagbélrák az 50 év alattiaknál

💉 Az Egyesült Államokban egyre fiatalabbakat érint a vastagbélrák, amely immár a leggyakoribb daganatos halálok az 50 év alattiak körében...

MA 11:01

Az új Google Gemini már mindent tud rólad – ráadásul ingyen

A Google újraírta a szabályokat: mostantól a Geminiben mindenki számára ingyenesen elérhető az a funkció, amellyel valóban személyre szabott válaszokat adhat...

MA 10:50

Az orosz hackerek új kártevőhulláma elözönli a GitHubot

Jellemző példa erre, hogy napjaink egyik legagresszívebb ellátásilánc-támadása, a GlassWorm ismét lecsapott: több mint 400 fejlesztői csomag, forráskódtár és bővítmény vált fertőzötté olyan platformokon, mint a GitHub, az npm, a Visual Studio Code és az OpenVSX...

MA 10:43

Most te vagy a hangmérnök: itt az új Spotify-mód

🎧 A Spotify most végre bevezette az Exkluzív módot (Exclusive Mode) Windowsra – innentől a szoftver ráteszi a kezét a hangkártyádra, és kiküszöböli, hogy a géped belemotyogjon a zenédbe...

MA 10:36

Az Apple új titkos fegyvere: láthatatlanul javították a sebezhetőséget

🔒 Az Apple először élesítette a Háttérbiztonsági fejlesztések nevű rendszerét, amellyel anélkül javíthattak egy kritikus WebKit-sebezhetőséget, hogy a teljes operációs rendszert frissíteni kellett volna...

MA 10:30

Az akcentus rejtett ára: kinek a hangja számít igazán?

Modern munkahelyeken sokan hiszik, hogy a legjobb ötletek maguktól érvényesülnek: az győz, aki meggyőzően érvel, vagy eredeti meglátással áll elő...

MA 10:23

Az észak-koreai hekkerek kifosztották a Bitrefillt: 19 ezren pórul jártak

💰 Március 1-jén nagyszabású kibertámadás érte a nagy nemzetközi kriptopénzes fizetési és ajándékkártya-platformot, a Bitrefillt...

MA 10:16

A gyerekkori stressz egész életre beleég a bélrendszerbe

😱 A korai gyermekkori stressz nem csupán mentális sebeket hagyhat maga után, hanem a bélrendszer működését is átrendezheti...

MA 10:10

Az iráni háború miatt rekordon a benzinárak Amerikában

Miközben az iráni háború felbolygatta a globális olajpiacot, az üzemanyagárak soha nem látott magasságokba emelkedtek Amerikában...

MA 09:57

Az Apple lopakodva telepíti a biztonsági frissítéseket a készülékeidre

🔒 Az Apple beindította a háttérben letöltődő biztonsági javításokat, amelyek olyan észrevétlenül érkeznek, hogy talán észre sem veszed őket – de a telefonod vagy a géped nagyon hálás lesz érte...

MA 09:51

Az iráni blokád a Hormuzi-szoros lezárásával fenyeget

Az elmúlt hetek eseményei szinte megbénították a Hormuzi-szoros forgalmát: ahol korábban naponta több mint 100 tanker haladt át, most viszont február vége óta alig 21 tette meg az utat...

MA 09:44

Az amerikai tőzsde igazi mélypontja még odébb van?

📈 A látszólagos tőzsdei robbanás ellenére a befektetők már hónapok óta gyakorlatilag medvepiacban mozognak...

MA 09:29

Az albérletpiac most neked dolgozik – érkeznek a durva kedvezmények

Szóval végre valami, aminek most tényleg lehet örülni bérlőként: az albérletpiacon közel 12 éve nem látott szintre emelkedtek az extra kedvezmények...

MA 09:23

A Meta leteszi az asztalodra a Manus MI-ügynököt

A Meta frissen felvásárolt MI-startupja, a Manus most egy asztali alkalmazással hozza el saját mesterségesintelligencia-ügynökét közvetlenül a felhasználók számítógépeire...

MA 09:16

Az utolsó tánc: újabb frissítés az FBC: Firebreakhez – de minek?

🔥 Mielőtt bárki eltemetné az FBC: Firebreak-et, fontos tudni, hogy a Remedy kiadta hozzá az utolsó tartalmi frissítést—de cseppet se aggódj, a szerverek még évekig bírni fogják a strapát...

MA 09:11

A Mistral Forge letaszítja trónjukról az MI-szuperszámítógépeket

👑 A francia Mistral AI bemutatta a Forge nevű platformját, amellyel cégek és állami intézmények saját MI-modelleket építhetnek, továbbfejleszthetnek és folyamatosan igazíthatnak a saját adataikhoz szabva – mindezt teljes körű adatvédelem mellett...

MA 09:01

Az XRP-n 5,5 milliárd forint a tét: háború a tőzsdén

💸 Fontos kérdés, hogy mi történik az XRP árfolyamával a következő napokban...

MA 08:57

A nagy Pikachu-leleplezés: Pizzafutár lett a Pokémon GO-ból?

👑 A Pokémon GO valaha csak játék volt, ma már viszont sokkal több: szinte észrevétlenül a városi robotok navigációs segédeszközévé vált...

MA 08:38

Az Nvidia MI-ügynökplatformja tényleg biztonságos?

🔒 Kezdetben az MI-fejlesztések fő fókuszában a képességek és a funkcionalitás állt, de most először jelent meg egy átfogó biztonsági rendszer már a kiadás pillanatában...

MA 08:30

Az MI-engedélyezés könnyen vállalati káoszhoz vezethet

Az MI-alapú ügynökök egyre több vállalatnál végzik el helyettünk az érzékeny feladatokat: CRM-rendszerekbe lépnek be, adatbázisokat olvasnak, e-maileket küldenek...

MA 08:23

A pofonegyszerű trükk, amivel túljárhatsz a ChatGPT eszén

A ChatGPT szinte mindig magabiztos válaszokat ad, bármiről kérdezed is. Olyan határozottsággal érvel, hogy első ránézésre meggyőző lehet – ugyanakkor könnyen elfeledteti, hogy az általa közvetített válasz csupán egy nézőpont, nem pedig az egyetlen érvényes megoldás...

MA 08:08

Az MI rengeteg tudományos bakit ejt – több mint hinnéd

🤔 Érdemes megvizsgálni, mennyire megbízható valójában egy olyan népszerű MI, mint a ChatGPT, ha tudományos állításokról van szó...

MA 07:57

Az MI szerinte csak nevetséges fenyegetés a Grand Theft Auto VI-ra

A videojáték-ipar épp az MI robbanását éli, sokan attól tartanak, hogy a generatív modellek elveszik majd az emberek munkáját a legnagyobb franchise-okban is...

MA 07:50

Az MI-ügynököknek végre van bizonyítható személyiségük?

Érdemes megvizsgálni, miként lehet az online térben biztosan megkülönböztetni az MI-ügynököket működtető embereket a tömeges, névtelen botoktól...

MA 07:43

Az online csalók rémálma: összefog a Google, a Meta és az Amazon

A netes csalók manapság vérprofi szélhámosokká váltak: ügyesen ugrálnak a közösségi oldalak, üzenetküldő appok, e-mailek és piacterek között, hogy lecsapjanak a legóvatosabb áldozatokra is...

MA 07:36

A Samsung Galaxy Z TriFold pályafutása villámgyorsan véget ért

⚠ Három hónap után eltűnik a boltokból a Samsung úttörő, hárompaneles, hajlítható mobilja, a Galaxy Z TriFold...