2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 18:01

Az új Switch 2 új életet lehel a régi játékokba

A Nintendo Switch 2 frissítése egy olyan újdonságot hozott, ami rengeteg rajongónak kedvezhet...

MA 17:56

Az elátkozott Samsung-gépeken visszatért a C meghajtó

💀 Bizonyos, Windows 11‑et futtató Samsung‑laptopokon komoly problémák jelentkeztek a C‑meghajtó elérésével, fájlok megnyitásával és alkalmazások indításával kapcsolatban...

MA 17:46

A belső óra ereje: az időzítés forradalmasítja a gyógyítást

Az utóbbi időben egyre több kutatás támasztja alá, hogy a szervezet belső órája, vagyis a cirkadián ritmus nemcsak az alvásra vagy étkezésre van hatással, hanem a gyógyszerek hatékonyságára is...

MA 17:35

Az áttörés: így verik vissza a vese rejtett ellenségeit

A vese megbetegedései sokáig csendben, szinte észrevétlenül támadnak, különösen akkor, ha gyógyszerek hatására alakulnak ki az első problémák...

MA 17:23

Az MI vezetői válságot hoz: hová tűnnek a főnökök?

Jó, jó, persze, hogy mindenki az MI-lázról beszél, de most tényleg jön a Nagy Lapítás...

MA 17:12

Az aszteroida, ami genetikailag megelőzhet minket: becsapódik a Ryugu?

Ryugu, a Földtől 300 millió kilométerre keringő aszteroida, igazi űrbéli sztár lett, miután a japán Hayabusa2 űrszonda két mintát is hazahozott róla: egyet a felszínről, egy másikat a mélyebb rétegekből...

MA 17:03

Az új gravitációs hullámok az univerzum rejtett dallamát játsszák

🎶 Például egy hatalmas csillagrobbanás vagy két szupernehéz fekete lyuk összeolvadása olyan zörejeket kelt a világegyetemben, amelyek a földi léptékkel felfoghatatlan távolságokon is átsöpörnek...

MA 16:57

Az MI-ügynökök védelmének öt kőkemény aranyszabálya

🛡 Az MI-ügynökök megjelenése új korszakot nyit a vállalati működésben. Ezek a rendszerek nem egyszerű segédprogramok, nem pusztán fejlettebb chatbotok, hanem autonóm szereplők, amelyek önállóan képesek tervezni, dönteni és végrehajtani...

MA 16:46

Az éjszakai tűzoltó drónok végre megérkeznek Aspenbe

🛰 Aspenben új fejezetéhez érkezik a csúcstechnológiás tűzoltás, ahol idén nyáron bevetik az első, kifejezetten erdőtüzek elleni harcra tervezett drónokat...

MA 16:35

Az El Niño tombolása: példátlan hőhullámok közelednek

🔥 A légkörkutatók egy különösen erős, úgynevezett szuper El Niño kialakulására figyelmeztetnek, amely akár már a 2026-os hurrikánszezon végére is bekövetkezhet...

MA 16:23

A Microsoft visszakozik: nem tolja rá a Copilotot a gépekre

December elején a Microsoft automatikusan elkezdte telepíteni a Microsoft 365 Copilot nevű MI-asszisztenst tartalmazó alkalmazást minden olyan Windows-gépre, ahol a Microsoft 365 irodai programcsomag megtalálható volt, kivéve a jogszabályok miatt az Európai Gazdasági Térség országaiban...

MA 13:56

A Denon DP-500BT, a Bluetooth-os lemezjátszó, ami odaver

🎵 A Denon most dobja piacra a DP-500BT nevű lemezjátszót, ami egyszerre hozza a klasszikus vinyl-élményt és a menő, nagy felbontású Bluetooth-streamelést...

MA 13:34

Az ADHD-s agy ébren is álomszerű transzba eshet

Különös agyi működést figyeltek meg a kutatók azoknál, akik figyelemhiányos hiperaktivitás-zavarral (ADHD) élnek: miközben látszólag éberek, agyuk mégis időnként álomszerű, alváshoz hasonló állapotba kerül...

MA 13:24

Az elveszett Doggerland erdei újraélednek az Északi-tenger mélyén

🌲 Az Északi-tenger mélyén rejtőzik Doggerland, egykor Nagy-Britanniát és Európát összekötő földsáv, amely 16 ezer évvel ezelőtt buja erdőkkel és változatos állatvilággal teli élőhelyet kínált – jóval korábban, mint azt eddig gondolták...

MA 11:56

Az Nvidia új csodafegyvere: végre biztonságos lesz az OpenClaw?

🛡 Az Nvidia komoly lépést tett az MI-biztonság terén: bemutatta a NemoClaw platformot, amely vállalati szintű MI-ügynökök futtatását teszi lehetővé saját, helyben működő hardveren...

MA 11:45

Egy elterjedt növényvédőszer drámaian megduplázhatja a Parkinson-kór kockázatát

🐛 Egy friss kutatás szerint a klórpirifosz nevű, világszerte elterjedten használt növényvédőszer hosszan tartó hatása összefüggésbe hozható a Parkinson-kór jelentős kockázatnövekedésével...

MA 11:34

Az új kriptóláz: minden zuhan, csak a Bitcoin hasít

📈 Fontos kérdés, hogy a kriptovaluták piacát mi mozgatja ezekben a kaotikus hetekben...

MA 11:22

A halálos meningitisz-járvány tarol az angliai egyetemeken

😷 Két diák már életét vesztette Angliában egy heveny bakteriális fertőzés miatt, további tizenegyen pedig súlyos állapotban vannak kórházban...

MA 11:13

Az MI sötét oldala: káosz, perek, milliárdos veszteségek fenyegetik a cégeket

⚠ A vállalatok mind a mai napig keresik a helyes módszereket, hogyan integrálhatják az MI-t a saját működésükbe, és ez nem is baj – hiszen idő kell ahhoz, hogy átlássák az MI által generált kód és tartalom valós problémáit...

MA 11:01

A Pokémon Go ártatlan játéka indította be a futárrobot-forradalmat

A Pokémon Go-játékosok fényképezési szokásai, amelyek először apróságnak tűntek, mára robotforradalmat indítottak el...

MA 10:57

A hatalmas föld alatti vezeték Québecből árammal látja el New Yorkot

Egy több mint 545 km hosszú, 6 milliárd dolláros (kb. 2 200 milliárd forint) föld alatti vezetékrendszer, a Champlain Hudson Power Express az elkövetkező hónapokban már képes lesz ellátni New York City-t a Montreal térségéből származó megújuló vízenergiával...

MA 10:37

A namíbiai Nagy Fehér Hely szellemtavait feltáró űrfotó lenyűgözi a világot

Namíbia északnyugati részén, a végtelennek tűnő Etosha Pan szélén meghökkentő, szivárványszínű tavak jelentek meg egy 2011-es katasztrofális árvíz után...

MA 10:23

Az OpenClaw tényleg a biztonsági rendszerek rémálma?

Például elképzelhető, hogy egyetlen utasítást rejt el egy támadó egy továbbított e-mailben...

MA 10:02

A világegyetem ősi fénye titokzatosabban csavarodik, mint gondoltuk

💫 A világegyetem legrégebbi fényében felfedezett finom csavarodás új lendületet adhat azoknak a kutatásoknak, amelyek az univerzum legnagyobb kérdéseire keresik a választ...

MA 09:57

Az Nvidia chipje az egybillió dolláros álomhatár kapujában

💰 Jensen Huang egy pillanatig sem fogta vissza magát a színpadon, amikor a vadonatúj Blackwell- és Vera Rubin-csipekről áradozott – és na most kapaszkodj, mert olyan számokat dobott be, hogy az ember csak pislog...

MA 09:43

Az Nvidia gyeplőre fogná az MI-ügynököket

🐒 Tipikus eset, amikor a technológiai játékosság komoly megoldásokat rejt: az Nvidia legújabb fejlesztése, a NemoClaw már nemcsak a jövőkutatók kedvenc témája, hanem valós segítséget jelenthet a vállalati MI-ügynökök biztonságának kezelésében...

MA 09:36

A Waymo betör és tarol: önvezetők felforgatják a fuvarpiacot

🚗 Hadd ordítsam bele a levegőbe, hogy itt az új főnök: a Waymo berobbant az utazásmegosztó buliba, és mindenkit lesöpör — Uber, Lyft, Tesla, szoronghattok!..

MA 09:29

Az Nvidia kétfrontos offenzívája: biztonságosabb MI, kevesebb para?

Az Nvidia legújabb GTC keynote-ján bedobta a köztudatba a NemoClaw-t, egy vadonatúj biztonsági réteget, ami extra védelmet ad az OpenClaw MI-ügynökeihez...

MA 09:22

Az MI-kriptók szárnyalnak: jön az ügynökalapú hullám

Az MI-alapú kriptovaluták értéke kiugró növekedést mutatott, miután az Nvidia vezérigazgatója, Jensen Huang vázolta a vállalat következő lépéseit az MI-infrastruktúra terén a GTC fejlesztői konferenciáján...