2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

péntek 20:55

Az exodus elindult: az MI felforgatja a brit reklámipart

Az MI egyre nagyobb nyomást gyakorol a brit reklámügynökségekre, emiatt tavaly minden eddiginél több alkalmazott hagyta el a szakmát, főként a fiatalabb generációból...

péntek 20:37

A legújabb Chrome-frissítés végre rendet vág a fülek között

📂 A Chrome régóta várt, függőleges fülkezelése még csak kísérleti szakaszban van, de a Google már most nagyobb dobásra készül...

péntek 20:19

Az agy rejtett sejtjei áttörést hozhatnak a gerincsérülések gyógyításában

Tipikus eset, amikor a tudomány átrendezi a régóta ismert tényeket – ezúttal a Cedars-Sinai kutatói bukkantak rá egy olyan biológiai javítófolyamatra, amely új utakat nyithat a gerincsérülések, a stroke vagy éppen a sclerosis multiplex kezelésében...

péntek 20:03

Megvan a kvantummechanika rejtélyeinek eddigi legjobb magyarázata?

🧠 A kvantummechanika száz éve tartja izgalomban a világot magyarázatra szoruló ellentmondásaival...

péntek 19:55

A Samsung új MI-je megturbózza a böngészőt

A Samsung a One UI 9 rendszerben komoly frissítést készít elő böngészőjéhez, amelybe a kiszivárgott firmware alapján már betekintést nyerhetünk...

péntek 19:21

Az xAI alapítóinak fele otthagyta a céget, Musk nem aggódik

💀 Elon Musk MI-cége, az xAI az elmúlt hetekben látványos személyi átalakuláson ment keresztül: az alapítók fele távozott, köztük két társalapító is...

péntek 19:01

Az algoritmusok tényleg mérgezik a közéletet? Itt a megoldás

🤔 A közösségi oldalak algoritmusai egyre inkább szélsőséges tartalmakat tolnak előtérbe, ami komoly politikai megosztottságot eredményez...

péntek 18:20

A túlélő ősi fekete lyukak: sötét anyagot rejtenek?

💫 Az univerzum hajnalán, közvetlenül az ősrobbanás után, az akkor még forró és kaotikus térben születtek meg az első, úgynevezett primordiális (ősi) fekete lyukak...

péntek 18:04

A valaha észlelt leghangosabb gravitációs hullám próbára teszi Einstein elméletét

2025 januárjában a tudósok minden eddiginél tisztább gravitációs hullámjelet észleltek, amely két távoli fekete lyuk összeolvadásából származott...

péntek 17:56

A közösségi médiafüggőség: mítosz vagy valós veszély?

A Meta két nagy port kavaró perbe keveredett: Új-Mexikóban az állam főügyésze a gyerekek kizsákmányolását és károkozását rója fel a platform addiktív funkciói miatt, míg Los Angelesben egy nő mentális egészségromlásáért okolja a céget...

péntek 17:37

A szinglik új nemzedéke, akiket mégis büntet a rendszer

Soha nem volt még ilyen magas az egyedülállók száma Amerikában, ráadásul sokan szándékosan választják ezt az életformát...

péntek 17:21

A Blackwell-lel tízszer olcsóbb az MI-üzemeltetés

A mesterséges intelligencia-alapú alkalmazásoknál az egyik legjelentősebb fejlemény a költségek drasztikus, akár tízszeres csökkentése az Nvidia Blackwell platformján...

péntek 17:02

Az Archaeopteryx szájának titkai: bizarr fogak és elképesztően mozgékony nyelv

🐮 Tipikus eset, amikor egy legendás őslény újabb meglepetéssel szolgál: az Archaeopteryx, a dinoszauruszok és madarak közötti átmenetet jelző ikonikus lény számos meglepő, eddig ismeretlen sajátossággal gazdagítja ismereteinket...

péntek 16:55

A Microsoft újabb bakija kifektette a Chrome-ot – most orvosolták

A Microsoft végre kijavította azt a bosszantó hibát, amely miatt a Family Safety szülői felügyeleti szolgáltatás megakadályozta a Windows-felhasználókat abban, hogy elindítsák a Google Chrome-ot és más böngészőket...

péntek 16:37

Az univerzum tojása: lenyűgöző Hubble-fotó új titkokat tár fel

Lenyűgöző pillanatot örökített meg a Hubble űrtávcső: a Tojás-köd (Egg Nebula) közepén egy haldokló csillag rejtőzik, amely kettős fénysugarat bocsát ki sűrű porburka poláris nyílásain át...

péntek 16:19

Az IBM visszavág az MI-nek: még több pályakezdőt vesz fel

Miközben egyre több techóriás hangoztatja, hogy az MI elvenné a pályakezdők munkáját, az IBM épp az ellenkező irányba mozdul: 2026-ban háromszorosára növelné a pályakezdők felvételét az Egyesült Államokban...

péntek 16:01

Az aranykornak vége: a Bitcoin csak 85 ezer dollár fölött robbanhat

A Bitcoin árfolyama hetek óta 60 és 70 ezer dollár között mozog, jócskán elmaradva az októberi csúcsától...

péntek 15:39

Az otthoni levegő rejtett veszélyei, amikről alig beszélünk

Otthonaink védelmet nyújtanak, de a benti levegő minőségére kevésbé figyelünk, pedig szinte soha nem látjuk, nem halljuk, és ritkán érezzük...

péntek 15:20

Az MI felveri az áramárat – a középosztály issza meg a levét

🔋 Az elmúlt években az MI-verseny miatt sorra létesülnek új adatközpontok az Egyesült Államokban...

péntek 15:02

Az ősi sír, amely titkos középkori alagutakhoz vezet Németországban

🗿 A németországi Dornberg közelében zajló ásatások során régészek váratlan felfedezést tettek egy kőkori temetkezési helyen...

péntek 14:56

Az MI szuperhőssé teszi az ügyfélszolgálatosokat

A gyorsan fejlődő MI-technológiák nemhogy elvennék az ügyfélszolgálati munkatársak állásait, hanem segítenek nekik abban, hogy hatékonyabban oldják meg az ügyfelek problémáit...

péntek 14:37

A csavart mágneses anyag forradalmasíthatja az ultrasűrű adattárolást

💾 Egy alig észrevehető atomszintű csavar a mágneses rétegekben forradalmi áttörést hozott: új típusú, rendkívül apró mágneses örvények – úgynevezett szkyrmionok – jöttek létre, amelyek teljesen megváltoztathatják az adattárolás jövőjét...

péntek 14:20

Az OpenAI áttörése: szinte azonnali kódgenerálás Cerebras lapkákkal

⚡ Egy lényeges szempont, hogy az OpenAI szakít a kizárólagos Nvidia-függéssel, és új partnert választott a kódgenerálás felgyorsítására: a Cerebras Systems óriáslapkáit...

péntek 14:02

Az északi kanadai erdők ötszörösére fokozhatják a CO2-megkötést

Kanada az évszázad végére évente akár ötször több szén-dioxidot távolíthatna el a légkörből, mint amennyit most kibocsát – mindezt azáltal, hogy fákat ültet a boreális erdő északi peremén...

péntek 13:55

Az emulátorháború folytatódik: a Nintendo ismét lecsap

Komolyabb akadályok elé néznek a Nintendo Switch-emulátorokat kereső felhasználók, ugyanis a Nintendo ismét DMCA-értesítéseket küldött a GitHubon jelenleg fellelhető összes Switch-emulátor és azok változatai (forkjai) ellen...

péntek 13:38

Az Ariane 6 lehet az Amazon műholdas álmának utolsó esélye

Érdemes megvizsgálni, hogy Európa legerősebb rakétája, az Ariane 6 sikerrel indította el az Amazon régóta várt műholdhálózatát, amikor a vállalatnak erre a legnagyobb szüksége volt...

péntek 13:22

Az MI-korszak titkos fegyvere: az ügynökmenedzser

Erre utal többek között az, hogy a vállalatok egyre nagyobb arányban telepítenek önállóan is működni képes MI-ügynököket, de ezek sikeres működtetéséhez egészen új típusú vezetőkre van szükség...

péntek 13:01

A Bitwarden új Cupid Vaultja forradalmasítja a biztonságos jelszómegosztást

🔒 A Bitwarden mostantól egy új funkcióval, a Cupid Vault-tal segíti a biztonságos jelszómegosztást, főként azoknak, akik egy-két személlyel szeretnének közösen használni fiókokat...

péntek 12:55

A Google Fotók megújul: itt a vadiúj lebegő menüsáv

📷 A Google Photos végre megszabadult a régi, képernyő alján húzódó navigációs sávjától, és helyette egy lebegő, kapszula alakú eszköztár jelent meg...