2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 20:56

A Microsoft új MI-chipje háromszor veri a Google processzorát

A Microsoft legújabb fejlesztésű, Maia 200 nevű MI-chipje valóságos áttörést jelent a piacon, ugyanis háromszor nagyobb teljesítményt kínál, mint a Google TPU-ja vagy az Amazon Trainium processzora...

MA 20:38

A nagy olajkalauz a forrólevegős sütőhöz: mit használj, mit kerülj?

Az air fryer forradalmasította az otthoni sütést: gyors, hatékony, és minimális zsiradékot igényel...

MA 20:19

Az új Microsoft-chip turbót ad a mesterséges intelligenciának

A Microsoft bemutatta legújabb chipjét, a Maia 200-at, amelyet kifejezetten az MI-alkalmazások futtatására terveztek...

MA 20:03

Az új Resident Evil a túlélőhorror és akció csúcsmixe?

👾 A Resident Evil Requiem új szintre emeli a széria jellegzetes kettősségét: a borzongató túlélőhorrort és a pörgős akciót két főhős szemszögéből élhetjük át...

MA 19:56

Az igazság: így ölöd meg a telefonod akkumulátorát

Mindenki szeretné, ha a telefonja bírja a strapát akár egy hosszú napon át is, ezért sokan töltőn hagyják éjjel-nappal, hogy mindig száz százalékon legyen...

MA 19:37

Jön a nagy dobás: az új Starship márciusra kész

🚀 Az új, jelentősen továbbfejlesztett Starship rakéta első tesztjei március közepén várhatók, jelentette be Elon Musk a közösségi oldalán...

MA 19:20

Az emberiség újra a Holdra tör, előkerült a legősibb barlangrajz

🚀 Ami kezdetben ártalmatlannak tűnt, mára az űrkutatás, a betegségek gyógyítása és az emberi kultúra eredetének megértése terén is ugrásszerű áttöréseket hozott...

MA 19:00

A világ nincs felkészülve az egyre gyilkosabb hőhullámokra

Mintegy 3,8 milliárd ember életét változtathatja meg a növekvő extrém hőség, és bár a trópusi országok szenvedik el leginkább a következményeket, a mérsékelt égövi régiók is komoly alkalmazkodásra kényszerülnek...

MA 18:57

Az utolsó részecske után: meghalt a részecskefizika, vagy csak nehezebb lett?

Érdemes megvizsgálni, milyen állapotban van a részecskefizika több mint egy évtizeddel azután, hogy 2012 nyarán megtalálták a Higgs-bozont a Nagy Hadronütköztetőben (LHC)...

MA 18:38

A Microsoft új chipje felforgatja az MI-piacot

A Microsoft bemutatta új, második generációs mesterségesintelligencia-chipjét, a Maia 200-at, amely 30%-kal nagyobb teljesítményt ígér az azonos árkategóriájú riválisoknál...

MA 18:19

Az új AirTag messzebbre hallatszik, hangosabb és okosabb, mint valaha

Az Apple meglepetésfrissítéssel rukkolt elő: a népszerű AirTag mostantól nagyobb hatótávval és erősebb hangszóróval érkezik, vadonatúj külső nélkül, de jelentős technikai előrelépésekkel...

MA 17:57

A nappalidból igazi mozi: ezektől tényleg prémium lesz

🎥 Érdekes felvetés, hogy a tökéletesen összeállított otthoni mozi nemcsak egy nagy tévéről szól...

MA 17:38

Tényleg eltűnnek az adataid? Amit a törlőszolgáltatásokról tudnod kell

Személyes adataink számos adatkereskedőnél és embereket kereső oldalakon megtalálhatók – nemcsak a legismertebbeknél, hanem több ezer más helyen is...

MA 17:19

Az ingyenes MI is aranybánya lehet a Google-nek

A legtöbb MI-felhasználó továbbra is az ingyenes eszközöket választja, vagyis hatalmas bevételi lehetőségek maradnak kiaknázatlanul...

MA 17:02

A friss VMware-sebezhetőséget már gőzerővel támadják

⚠️ Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) sürgős figyelmeztetést adott ki egy kritikus súlyosságú VMware vCenter Server sebezhetőségről, amelyet támadók már aktívan kihasználnak...

MA 16:55

A 2026-os Windows 11 első frissítése totális káoszt okozott

💥 Az év első Windows 11-frissítése igazi katasztrófát okozott a Microsoftnál. Először leállásokat jelentettek egyes gépeken a januári javítás telepítése után, ezért a Microsoft gyors sürgősségi javítást adott ki...

MA 16:38

Az Nvidia letaszítja az Apple-t a félvezetők trónjáról

Az idei évben teljesen új fejezet nyílik a globális félvezetőiparban: az Nvidia várhatóan felülmúlja az Apple-t, és a világ legnagyobb szerződéses chipgyártójának, a tajvani TSMC-nek a legnagyobb ügyfelévé válik...

MA 16:19

A történelmi nukleáris béke pillanata elérkezett

Több mint nyolc éve nem robbantottak fel atomfegyvert a világon – ez új rekord az atombomba korának kezdete óta...

MA 16:01

Az MI-forradalom átírja, mit jelent ma a karriersiker

Az idei davosi Világgazdasági Fórumon Jensen Huang, az Nvidia vezetője meghökkentő gondolatot fogalmazott meg: az MI várhatóan a fizikai munkát igénylő pozíciók számát növeli...

MA 15:57

A nano-hidroxiapatit letaszítja a fluoridot a trónról?

Érdekes felvetés, hogy a fluorid körüli vita egyre hevesebb, miközben egyre többen keresnek alternatívát a hagyományos fogkrémek helyett...

MA 15:38

A sós tavaszi óceán megduplázza az El Niño szélsőségeit

🌊 A nyugati Csendes-óceán tavaszi felszíni vizeinek szokatlanul magas sótartalma drámai módon növeli az El Niño rendkívül erős, időjárást felforgató eseményeinek esélyét...

MA 15:19

Az FBI simán megszerezheti a BitLocker-kulcsaidat

A Microsoft megerősítette, hogy hivatalos jogi megkeresés esetén kiadja a felhasználók BitLocker-titkosítási kulcsait az FBI-nak...

MA 15:02

Az új Proton VPN: Linuxon végre igazi élmény mindenkinek

A svájci Proton VPN nagy bejelentéssel rázta fel a Linux világát: óriási megújuláson megy át mind a grafikus felületű (GUI), mind a parancssoros (CLI) alkalmazása...

MA 14:56

A dollár szabadesésben, aranyláz söpör végig a piacon

💲 Érdemes látni, hogy az amerikai dollár hirtelen zuhanása pénteken vette kezdetét, miután kiderült: a New York-i Fed valóságos ritkaságnak számító „rate check”-et (árfolyam-ellenőrzést) végzett a dollár/jen árfolyamon...

MA 14:37

Az újabb bitcoin-zuhanás: jön a negyedik vesztes hónap?

A bitcoin árfolyama már negyedik egymást követő hónapban lehet veszteséges, amire utoljára 2018-ban volt példa...

MA 14:19

Az otthon sem mindig biztonságos: így védd magad egyedül

A hosszabb időt egyedül otthon töltők számára sok fejfájást okozhat a biztonság kérdése...

MA 14:02

A Brax Open Slate: tablet, amely fittyet hány a Big Technek

A Brax Technologies újabb merész lépést tesz a független okoseszközök piacán: bemutatta Open Slate nevű 2 az 1-ben táblagépét, amely egyszerre szolgál fogyasztói táblagépként és teljes értékű, ARM-alapú Linux munkaállomásként...

MA 13:55

A sci-fi világában tényleg nincs helye az MI-nek?

🤖 Az utóbbi hónapokban egyre több népszerű sci-fi szerző és kulturális rendezvény áll ki az MI-vel generált alkotások ellen...

MA 13:37

A rekord bitcoinnyereség szárnyakat ad a Metaplanetnek

A Metaplanet jelentős változásokon ment keresztül 2025 végén, amikor több mint 100 milliárd jen összegű számviteli veszteséget volt kénytelen elszámolni a bitcoin árfolyamának ingadozása miatt...