2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 08:03

Az új Galaxy S26 Ultra hódít – közben még spórolhatsz

🚀 A Samsung Galaxy S26-sorozat bemutatkozása nem jelent forradalmat, inkább aprólékos finomhangolásokat és néhány lényeges, helyenként egyedi innovációt hoz – leginkább a prémium Ultra modellnél...

MA 07:55

Az illegális szerencsejáték botránya elérte a Valve-ot New Yorkban

New York állam főügyésze bíróság elé idézte a Valve-ot, mert szerinte a vállalat videojátékai, mint például a Counter-Strike 2, a Team Fortress 2 és a Dota 2 tudatosan ösztönzik a fiatalkorúakat jogellenes szerencsejátékra az úgynevezett loot box-rendszeren keresztül...

MA 07:37

Az érintőkijelzős MacBook Pro megkapja az iPhone-trükköt, Face ID nélkül

Erre utal többek között az, hogy az Apple hamarosan egy új, OLED-kijelzős, érintőképernyős MacBook Pro bemutatására készül, amely megkapja az iPhone-okról ismert Dynamic Island funkciót...

MA 07:28

Az AMD 84 magos Epyc-cel rohamozza az Intelt

Az AMD újabb lendületet ad a szerverpiacnak legújabb Epyc fejlesztésével, a 8005-szériás, Sorano kódnevű processzorokkal...

MA 07:19

Az újabb Cisco SD-WAN-botrány: a kritikus rést tavaly óta kihasználják

🔴 Egy súlyos biztonsági hiba miatt komoly támadások érték a Cisco Catalyst SD-WAN rendszereket, többek között a felhőben és helyben telepített SD-WAN Controller (korábban vSmart) és SD-WAN Manager (korábban vManage) platformokat...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 2/26

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Auto Redial App (iPhone/iPad)Ez az alkalmazás lehetővé teszi, hogy automatikusan hívásokat indíts a kiválasztott telefonszámokra, hatékonyan és személyre szabottan...

MA 07:10

A legújabb SonicWall-botrány: zárolt banki adatok, per a vége

Augusztus 14-én hekkerek betörtek a Marquis Software Solutions hálózatába, miután feltörték a cég SonicWall-tűzfalát...

MA 07:02

Az MI-aranyláz pörög: újabb 250 ezermilliárd forint ömlik adatközpontokba

Felmerül a kérdés, hogy hova vezethet az a tempó, ahogy a technológiai óriások öntik a pénzt az MI-infrastruktúrába: idén közel 250 ezermilliárd forint értékben épülnek adatközpontok világszerte, és még mindig nem látszik a vége...

MA 06:55

Az új Galaxy S26-ok közül melyik a legjobb vétel?

📱 Ha azt hinnéd, hogy a Samsung idén csak a szokásosat hozta, nagyot tévedsz: a Galaxy S26 család simán berúgja az AI ajtaját, így nemcsak okosabb lett minden mobil, de tempóban is szupergyorsak...

MA 06:47

A Gong mindent kockára tesz az MI-háborúban

A Gong, a bevételi intelligencia piacának egyik meghatározó szereplője, most minden eddiginél ambiciózusabb platformfrissítéssel jelentkezett...

MA 06:37

Az ősi marsi élet jelei évezredeken át fennmaradhatnak a jégben

A Mars felszínén található jégsapkákat eddig főként a bolygó klímatörténetének tanulmányozására használták, azonban egy friss NASA-kutatás szerint ezek igazi időkapuként őrzik az ősi élet nyomait...

MA 06:28

A MrBeast-csapat sztárja lebukott bennfentes kereskedelemmel

💸 Egy YouTube-sztár, MrBeast népszerű valóságshow-jához köthető alkalmazottat tiltottak el a Kalshi jóslatpiaci platformján, miután bennfentes kereskedelemmel vádolták meg...

MA 06:19

Az OpenAI ütőkártyája: a Frontier és a titkos tanácsadók

Az OpenAI eddig főleg a ChatGPT-vel robbant be a köztudatba, most azonban valami sokkal nagyobb dobásra készül: bemutatkozik a Frontier, amely vállalati szinten képes MI-ügynökök létrehozására, telepítésére és üzemeltetésére egy cégen belül...

MA 06:05

Történelmi események a mai napon (Február 26.)

Röviden: ezen a napon betiltják Galileo tanítását a Nap körül keringő Földről, Napoleon megszökik Elbáról, Hitler újraszervezi a Luftwaffét, létrejön a Grand Canyon Nemzeti Park, a Barings Bank pedig összeomlik...

szerda 18:02

Az új Galaxy S26? Még ne rohanj a kasszához!

A Samsung hamarosan leleplezi a Galaxy S26 szériát, és a három új csúcskészülék már aznap előrendelhető lesz...

szerda 17:59

A mesterséges intelligencia felfalja a biztosítási piacot: megérkezett a Harper

Különösen említést érdemel, hogy Dakotah Rice visszatért alapítói szerepéhez, miután előző cége, a Poolit, kudarcot vallott...

szerda 17:39

Az alkohol nem csak az embereké: csimpánzok is kortyolgatnak

🙈 Az emberszabásúak közeli rokonaink, és úgy tűnik, még az iszogatás örömeiben is osztoznak velünk...

szerda 17:21

A meglepő igazság Dzsingisz kán vérvonaláról: tényleg rokonok vagyunk?

🤓 Kevesebben tartoznak Genghis Khan híres vérvonalához, mint korábban gondolták. Egy friss genetikai kutatás új fényt vet legendás ősünk családfájára, megingatva a világszerte elterjedt mítoszt arról, hogy minden 200...

szerda 17:01

Vége az olcsó repülésnek? Újabb csőd szélén a Spirit Airlines

✈ A Spirit Airlines ismét túlélési harcot folytat. Az Egyesült Államok egyik legismertebb fapados légitársasága bejelentette, hogy lényegesen kisebb méretben folytatja működését, miközben próbál kimászni második csődeljárásából alig két éven belül...

szerda 16:59

A kihagyhatatlan Android-appok, amelyeket Obtainiumon át szerezhetsz be

Érdemes tudni, hogy rengeteg hasznos alkalmazás létezik, amelyek nem találhatók meg a Play Áruházban, mégis kihagyhatatlanok minden új telefonon...

szerda 16:39

Az áttörés: megérkezett a szupergyors 3D-nyomtatás

A volumetrikus 3D-nyomtatásban komoly áttörést értek el a Tsinghua Egyetem kutatói: úgy sikerült felgyorsítaniuk a folyamatot, hogy a szokásos forgó gyantakád helyett egy nagysebességű periszkópot használtak...

szerda 13:59

A világ legfiatalabb krátere bukkanhatott elő Kína vadonjában

🚀 A világ legfiatalabb és legnagyobb becsapódási kráterét fedezhették fel Kína sűrű erdeiben, mégpedig az ország északkeleti részén, Heilongjiang tartományban, a Lesser Xing’an hegységben...

szerda 13:21

Az újabb botrány: hackerek szerezték meg a Wynn Resorts dolgozóinak adatait

A Wynn Resorts hivatalosan is elismerte, hogy hackertámadás érte vállalati rendszerét, amelynek során illetéktelenek dolgozói adatokat szereztek meg...

szerda 12:02

A rejtélyes szindróma majdnem amputációra kényszerítette az olimpiai legendát

Lindsey Vonn, az amerikai síelés ikonikus alakja pályafutása során többször bizonyította elképesztő kitartását, de az idei téli olimpia előtt történt sérülése még számára is életveszélyes kalanddá vált...

szerda 11:58

Az ingyenes, karcsúsított MI-modell, ami felforgathatja Európát

💡 Egy spanyol startup, a Multiverse Computing egy jelentősen tömörített, nagy nyelvi modelljével hívja fel magára a figyelmet, amely jóval kisebb méretű, mint versenytársai, mégis hasonló pontosságot ér el...

szerda 11:40

A Wayve brutális tőkét kapott: itt az MI forradalma

Ez a jelenség jól illusztrálja, hogy a brit Wayve MI-startup most 1,2 milliárd dollárt, azaz közel 433 milliárd forintot vont be befektetőktől, köztük olyan technológiai óriásoktól, mint az Nvidia és az Uber, valamint három autóipari világmárkától...

szerda 11:20

Az áttörés: fél évszázad után megszületett az első szilíciumos aromás vegyület

A Saarland Egyetem vegyészei végre elérték azt, amire fél évszázada várt a tudományos világ: sikerült szintetizálniuk egy régóta keresett szilíciumalapú aromás molekulát...

szerda 11:01

Az OpenAI keményen visszavágott Elon Musknak és az xAI-nak

💪 Az OpenAI most simán visszaverte az xAI egyik jogi támadását, amely állítólag titkos információk és munkaerő lenyúlásáról szólt...

szerda 10:55

Újabb Discord-csúszás: továbbra sem kötelező a korigazolás

📤 Egyre több online platform kényszerül szigorúbb intézkedések bevezetésére a fiatalkorú felhasználók védelme érdekében...