2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 17:02

Az MI már lángokban, mi meg bámulunk – hol a vészterv?

Felpörögtek az MI-videók, a Seedance 2.0-nak (csináld ránk, TikTok, Kína!) hála már mindenféle Instagram-posztok, TikTokok és YouTube-shortok ultrarealisztikus kamukkal bombáznak, és úgy fulladunk bele az alternatív valóságba, mint a legkínosabb internetes összeesküvés-hívők...

MA 16:58

Az új Leica-mobil: a Xiaomi brutális kamerával hódít

Többek között elképesztő kameratechnológiát, látványos dizájnt és remek processzort kínál a Xiaomi új Leitzphone készüléke, amely látványosan összeforrt a legendás német Leica fotómárkával...

MA 16:20

Az óraátállítás sokkja: így mentsd meg az alvásod

Vasárnap hajnalban előre kell állítani az órát, vagyis eljön a tavaszi óraátállítás ideje...

MA 14:01

Az álmatlanság és az alvási apnoé együtt durván terheli a szívet

Majdnem egymillió amerikai veterán adatai alapján világosan látszik, hogy ha valaki egyszerre küzd álmatlansággal és alvási apnoéval, sokkal nagyobb eséllyel alakul ki nála magas vérnyomás és szívbetegség, mintha csak az egyik problémával élne...

MA 13:58

A vikingek nyomában: elérték-e valaha Maine-t?

🔭 1957-ben egy amatőr régész egy ezeréves norvég ezüstpénzre bukkant egy őslakos indián lelőhelyen, Maine államban...

MA 13:20

A graffitisek álma: színkeverés egyetlen spray-vel

A graffiti készítése eddig rengeteg különböző színű festékes dobozt igényelt, ami nemcsak kényelmetlen, de egyúttal korlátozza is a művészek kreativitását...

MA 12:01

Az időskori szuperemlékezet titka: fiatalon maradó agysejtek

Többek között az idős emberek közötti nagy különbségek okaira világít rá egy új kutatás, amely meglepő felfedezést tett: azok, akik idősebb korukban is kivételes memóriával rendelkeznek, lényegesen több fiatal idegsejttel rendelkeznek, mint hasonló korú társaik...

MA 11:58

Az iráni háború berobbantotta a Polymarketet: rekorddöntés a fogadási piacon

💰 Fontos kérdés, hogy mennyit ér ma az információ, amikor a háború kitörésekor másodperceken belül elözönlik a prognózisok a kriptopénzek világát, és a geopolitikai eseményekre tett fogadások szinte azonnal rekordokat döntenek...

MA 11:39

Az adóhatóság fatális bakija: 1,7 milliárd forintnyi kriptót loptak el

💰 Döbbenetes baklövést követett el Dél-Korea adóhatósága, amikor egy sikeres lefoglalási akciót követően véletlenül nyilvánosságra hozta egy digitális pénztárca helyreállító kulcsát...

MA 11:21

A MotoGP lázban tartja a világot: így nézheted élőben 2026-ban

2026-ban újra felbőgnek a motorok – ismét elstartol a MotoGP-szezon, amely március 1-től egészen november 22-ig tart...

MA 11:02

Az új F1-korszak: Forradalmi változások 2026-tól a Forma–1-ben

Új korszak kezdődik a Forma-1-ben, hiszen a szezon során vadonatúj szabályok lépnek érvénybe, melyek teljesen átalakítják a versenyautókat...

MA 10:47

Az őskori svéd fiú agancsos-tollas fejdíszének megfejtetlen titkai

Lényeges, hogy a régészek egy rendkívüli temetkezést fedeztek fel Dél-Svédországban, ahol egy, a több mint hétezer évvel ezelőtti időkből származó fiú holttestét szarvasbőrbe és fakopáncs-tollból készült fejfedőbe burkolva temették el...

MA 10:28

Az űrcica tényleg telesírja az eget: elszabadult a Rubin Obszervatórium riasztója

😺 Az éjszaka sötétje alatt a Rubin Obszervatórium vadonatúj figyelmeztetőrendszere igazi űrkavalkádot indított el, első éjszaka rögtön 800 000 figyelmeztetéssel bombázva a csillagászokat...

MA 10:19

Az igazi retró lelke: a ’70-es évekbeli terminál új életre kel

A számítógépek hőskorában az átlagember csak álmodhatott saját számítógépről – mindenki egy központi gépet nyüstölte, és távoli terminálokon pötyögte be a parancsokat...

MA 10:03

Az MWC 2026 legnagyobb durranásai: Leica, Xiaomi, Honor és váratlan újdonságok

💥 Barcelona a technológia középpontjává vált március elején, ahol mindent elleptek az új mobilok, tabletek és innovatív kütyük...

MA 09:55

A Xiaomi új okosórája gesztusvezérlést és brutális üzemidőt kínál

📱 Megemlíthető továbbá, hogy a Xiaomi Watch 5 globális bemutatója sokkal többről szól, mint egy szokásos frissítés...

MA 09:39

Az MI-szektor a saját csapdájába zuhant

Pénteken, amikor épp interjú készült Dario Amodeival, az Anthropic alapítójával, váratlan hír futott be: a Trump-kormányzat megszakította minden kapcsolatát az Anthropic-kal, a 2021-ben alapított San Francisco-i MI-fejlesztő céggel...

MA 09:28

Az Anthropic Claude az App Store élére tör a Pentagon-botrány után

🚀 Az elmúlt napokban valóságos roham indult az Anthropic MI-asszisztense, a Claude alkalmazás iránt: hirtelen az amerikai App Store ingyenes alkalmazásainak listája élére ugrott, maga mögé utasítva a korábbi csúcstartó ChatGPT-t, valamint a Google Geminit is...

MA 09:20

Az áttörés, amely padlóra küldi a szuperbaktériumokat

Kiderült, hogy a baktériumokat fertőző vírusok – azaz fágok – egy eddig ismeretlen gyengeséget tártak fel: képesek lekapcsolni egy létfontosságú bakteriális fehérjét, a MurJ-t, amelyre az eddigi antibiotikumok nem tudtak hatni...

MA 09:12

Az első írás tényleg 40 ezer éves?

Erre utal például, hogy a paleolitikum emberei sokkal fejlettebb kommunikációs rendszert használtak, mint eddig gondoltuk...

MA 09:01

Az Apple Houstonban gyártja az új Mac miniket – csökken az ár?

💻 Az Apple idén év végétől az Egyesült Államokban kezdi el gyártani a Mac minit, leállítva a Vietnámban és Kínában folyó termelést, hogy az összeszerelés a houstoni Foxconn-gyárban történjen...

MA 08:55

Az univerzum új kulcsa: Hawking átírja a fekete lyukak törvényeit

1974 márciusában a mindössze 32 éves Stephen Hawking alig kétoldalas tanulmánya alapjaiban írta át a fekete lyukakról alkotott képünket...

MA 08:46

A Xiaomi 17-es széria letarolja a csúcskategóriát

A Xiaomi világszerte bemutatta a Xiaomi 17 és Xiaomi 17 Ultra mobilokat, amelyek bátran odaállnak bármelyik zászlóshajó mellé, és akár az idei Galaxy S26-sorozat csalódott rajongóinak is izgalmas alternatívát kínálnak...

MA 07:37

A valódi kapcsolatok nem a LinkedInen születnek, hanem élőben

👥 A szólóvállalkozók gyakran falakba ütköznek, amikor új ügyfeleket szeretnének találni. A hagyományos platformok, mint a LinkedIn, tele vannak önjelölt gurukkal, akik a saját tanfolyamukat promózzák, vagy a reggeli jógájuk eredményeit akarják világgá kürtölni...

MA 07:19

Az olcsó gigabites hálókártya, ami pontosan azt nyújtja, amit kell

🖥 Időnként előfordul, hogy egy gépbe csak néhány plusz hálózati csatlakozóra van szükség, mindenféle extra tudás vagy sebesség nélkül...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 3/1

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Last Horizon (iPhone/iPad)A Last Horizon egy letisztult, minimalista űr-túlélő játék, amelyben egy letűnt civilizáció utolsó űrhajóját irányítva kell új otthonra lelnünk az univerzumban...

MA 07:11

Az esélyegyenlőség túlél minden leépítést

Az 1854-ben alapított Clarity évtizedeken át adott munkát vak és látássérült embereknek az Egyesült Királyságban, legutóbb pedig szappankészítéssel foglalkozott...

MA 07:02

A Chrome újabb botránya: a QuickLens kriptót lopott

🚨 A QuickLens nevű Chrome-bővítmény, amely eredetileg a Google Lens gyors elérését tette lehetővé a böngészőn belül, mára már több ezer felhasználót megkárosított, miután veszélyes, kriptolopásra és adathalászatra alkalmas kódokat építettek bele...

MA 06:55

A Xiaomi Tag: okos kulcskereső tok nélkül – megéri?

🔑 A Xiaomi bemutatta első Bluetooth-alapú helymeghatározó eszközét, amely a beépített fém huroknak köszönhetően azonnal rögzíthető kulcscsomóra, karabinerre...