2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 19:19

Az orosz hackerek új vírusától rettegett a lengyel energiahálózat

⚠ Lengyelország elektromos hálózatát tavaly év végén eddig ismeretlen törlővírus támadta meg, amely valószínűleg orosz állami hackerekhez köthető...

MA 18:57

Az ausztrál emlősök végzete: kóbor macskák és rókák?

🐱 Ausztrália emlősfaunája a világon egyedülálló: a hosszú elszigeteltség olyan fajokat eredményezett, mint a kacsacsőrű emlős, a koala vagy a vombat...

MA 18:37

Az Outlook megint lefagy – a Microsoft villámgyorsan lépett

💥 A Microsoft villámgyors, rendkívüli frissítéseket adott ki szombaton Windows 10, Windows 11 és Windows Server rendszerekhez, miután sokaknál egyszerűen nem indult el a klasszikus Outlook, ha a PST-fájlokat felhőben tárolták, például a OneDrive-on vagy a Dropboxon...

MA 18:20

Az Edison-izzó és a grafén véletlen születésének titkos története

A grafén a jelenleg ismert legvékonyabb anyag: egyrétegű szénatomokból épül fel, hatszögletű rácsban...

MA 18:02

Az a telefon, amelyért Amerika könyörögne: Fairphone 6

Az amerikai okostelefon-piacot szinte teljes egészében az Apple és a Samsung uralja...

MA 17:55

Kitört az e-bike-háború New Jerseyben

New Jersey-ben mostantól minden elektromos kerékpár-tulajdonos a legszigorúbb szabályozással szembesül. Legyen szó akár egy 20 km/h-s, pedálrásegítéses kerékpárról vagy egy motorkerékpár-teljesítményű e-bike-ról, mindenkire ugyanazok a szigorú előírások vonatkoznak: kötelező a regisztráció, a jogosítvány és a biztosítás...

MA 17:37

Az adatvédelem vége? A Microsoft kiadta a titkosítási kulcsokat

Az FBI tavaly bírósági végzéssel kérte a Microsofttól, hogy adja át három laptop titkosítási kulcsait egy olyan csalási ügy vizsgálata miatt, amely a Guam szigetén folyósított COVID–19-munkanélküli-támogatásokat érintette...

MA 17:20

Az MI-óriások davosi összecsapása: egymásnak estek a csúcson

Davos idén alaposan átalakult: a Világgazdasági Fórum korábbi, komoly hangvételű tanácskozását techcégek színesítették meg az MI-forradalom jegyében...

MA 17:02

A mesterséges intelligencia terjed az iskolákban – megéri az árát?

Az MI térhódítása az oktatásban komoly aggodalmakat kelt világszerte. Egy friss, 50 országot és több mint 500 tanárt, diákot, szülőt, oktatási vezetőt és szakértőt bevonó, egy évig tartó globális kutatás eredményei szerint az MI alkalmazásának kockázatai jelenleg felülmúlják az esetleges előnyöket...

MA 16:55

Az aszály soha nem látott ütemben feszíti szét Kelet-Afrikát

Kelet-Afrika éghajlata az elmúlt 5 000 évben jelentősen kiszáradt, és ez a változás arra utal, hogy a kontinens a vártnál gyorsabban szakad szét...

MA 16:37

Vége az ingyenes WhatsAppnak? Jön a fizetős reklámmentesség

💳 Sokan egyetértenek abban, hogy a hirdetések idegesítőek, és a WhatsApp sem kerülte el ezt a sorsot...

MA 16:02

Kudarcot vallott az orosz kibertámadás a lengyel áramhálózat ellen

⚡ Lengyelország villamosenergia-hálózata elleni kibertámadást hiúsítottak meg 2025. december végén. A támadás mögött az orosz állam által támogatott, hírhedt Sandworm nevű hackercsoport állt, amely egy új, pusztító törlővírust, a DynoWipert próbálta bevetni...

MA 15:56

A Sparkli MI-alkalmazás játékosan turbózza fel a gyerekek tanulását

Nemrég komoly figyelmet kapott a Sparkli nevű, MI-alapú oktatási alkalmazás, amelynek három egykori Google-alkalmazott áll a hátterében...

MA 15:38

Az optikai tranzisztorok feltámaszthatják a Moore-törvényt

💡 Neurophos, a texasi MI-chipcég új mércét akar állítani a szuperszámítástechnikában azzal, hogy optikai processzorokat fejleszt, amelyek teljesítménye többszöröse a mai legmodernebb grafikus kártyák teljesítményének – mindezt jóval kisebb energiafelhasználás mellett...

MA 15:19

Az észak-koreai hackerek MI-vel vadásznak a blokklánc-fejlesztőkre

Az észak-koreai Konni (Opal Sleet, TA406) hackercsoport MI által generált, erősen titkosított PowerShell-kártevővel célozza meg a blokklánc-szektor mérnökeit és fejlesztőit...

MA 15:02

Miért nem hódította meg a QD‑OLED már minden nappalit?

Az OLED-technológia az utóbbi években teljesen átalakította a tévépiacot. Az önállóan világító OLED-pixeleknek köszönhetően tökéletes feketét, élénk színeket és erős kontrasztot kapunk...

MA 14:40

A vegán házhozszállítás titkos receptje: 2026 legjobbjai

Vegánként vagy növényi étrendet követőként óriási kihívást jelenthet ízletes, változatos és egészséges készételeket vagy főzős csomagokat találni...

MA 14:19

Az új génkincs lehet a szója túlélésének kulcsa

🥑 A világ szójatermelőit csendes, de komoly ellenség tizedeli: a szója-cisztaképző fonálféreg, amely a gyökereket támadva rontja a terméshozamot, évente komoly veszteséget okozva a gazdáknak...

MA 14:01

A Gmail spamszűrője bedőlt: elárasztanak a promóciók

Az elmúlt napokban jelentősen megnőtt a promóciós e-mailek száma a Gmail-felhasználók beérkező levelei között...

MA 13:55

Tényleg veszélyesek a gyerekekre az önvezető taxik?

Austinban ismét botrányt kavartak a Waymo önvezető autói: a robotaxik többször szabálytalanul előzték meg a diákokat szállító iskolabuszokat...

MA 13:37

Az agyevő amőbák: a következő globális rémálom

Világszerte egyre nagyobb aggodalmat keltenek a szabadon élő amőbák, amelyek a kutatók szerint egyre komolyabb egészségügyi kockázatot jelentenek...

MA 13:20

Az MI-óriás, amelyik még az igazán nagy áttörés előtt áll

🤖 Felmerül a kérdés, hogy kinek érdemes most a technológiai tőzsdéken kutakodnia, amikor a kvantumszámítógépek és a mesterséges intelligencia versenye kiélezettebb, mint valaha...

MA 12:55

A szenzáció: az első európai őselefántcsont-szerszám

🔨 Egy körülbelül 480 ezer éves, háromszögletű eszközre bukkantak az Egyesült Királyság területén, amelyet egy ismeretlen archaikus emberfajta őselefánt csontjából készített...

MA 12:37

Az OpenAI új MI-je gyanús forrásokkal támasztja alá állításait

Az OpenAI nemrég nagy csinnadrattával mutatta be a GPT-5.2 modellt, amelyet szakmai felhasználásra fejlesztett, de a Guardian tesztjei kellemetlen meglepetést hoztak: az MI-rendszer időnként a Grokipediára hivatkozott forrásként, amely az Elon Musk-féle xAI által létrehozott, MI-alapú online enciklopédia...

MA 12:20

Az ultraibolya lila kristály áttörést hoz a mély-UV lézereknél

A mély-ultraibolya (DUV, 200 nm alatti) lézerek kulcsfontosságúak a modern tudományos kutatásban és az ipari gyártásban is, például anyagelemzésben vagy litográfiában...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 1/25

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Master 3D Color...

MA 06:05

Történelmi események a mai napon (Január 25.)

Share on Social Media x facebookwhatsapptelegram

szombat 17:38

Az MI váratlan arca: erre nem készített fel a kézikönyv

🤔 Az MI-vel foglalkozó kutatók újabb meghökkentő felfedezésre jutottak: a nagy nyelvi modellek spontán, előzetes utasítások nélkül is képesek önálló személyiséget kialakítani...

szombat 17:20

Egy óriási fekete lyuk átírja a galaxisokról alkotott képet

🔵 A Hawaii-n működő W. M. Keck Obszervatórium, a James Webb Űrtávcső és a Very Large Array rádióteleszkóp együttes megfigyelései során sikerült azonosítani egy hihetetlenül nagy, „imbolygó” fekete lyuk-kilövellést, amelynek átmérője egy teljes galaxis szélességével vetekszik...