2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 17:02

Az iráni hekkerek lecsaptak: veszélyben az amerikai tengerészgyalogosok adatai

🔫 Többek között közel 2400, a Perzsa-öböl térségében szolgáló amerikai tengerészgyalogos személyes adatait hozta nyilvánosságra egy iráni kiberbanda, amely már hónapok óta szervezi támadásait...

MA 16:56

A PlayStation-tábor forrong a 30 napos ellenőrzés miatt

🔥 Több PlayStation-felhasználó igazi rémálomként élte meg, hogy a Sony digitális boltjából vásárolt játékoknál feltűnt egy új, 30 napos licencellenőrzési kötelezettség...

MA 16:46

Az MI végre munkába áll: a Mistral Workflows betör a vállalatokhoz

💼 A francia székhelyű Mistral AI, amelynek értékét 11,7 milliárd euróra (kb...

MA 16:34

Az amerikai infláció, háborús pánik és gyenge jen ledöntötte a bitcoint

Az év eleji menetelés után a bitcoin ára a héten 28 millió forint (76 500 dollár) környékére húzódott vissza, messze az áhított 29,5 milliós (80 000 dollár) árfolyamtól...

MA 16:22

Az izraeli digitális sékel megérkezett: stabilcoin a blokkláncon

Izrael első hivatalosan szabályozott stabilcoinja elindult: a Bits of Gold nevű tel-avivi kriptotőzsde két évnyi tesztidőszak után megkapta az engedélyt, így már stabilcoint bocsáthat ki a helyi pénznemhez, a sékelhez kötve...

MA 16:12

Az első 6K-s gamer monitor: forradalom vagy parasztvakítás?

A Samsung bemutatta az Odyssey G8-at (G80HS), amely a világ első 6K-s, 32 hüvelykes gamer monitora, és 1 499 eurós (kb...

MA 16:01

Az MI elveszi a fiatalok munkáját? Egy vezető kiutat mutat

💡 Az utóbbi években rengeteg fiatal, főként a Z generáció tagjai, épp arra ébrednek rá, mennyire semmivé vált az a tudás, amivel az iskolapadból kikerültek...

MA 15:57

Az apró távcső, amelytől ámulnak az égbolt rajongói

👀 A DwarfLab Dwarf Mini igazi újdonságnak számít azoknak, akik egyszerűen, gyorsan és minimális vesződéssel szeretnének égi fotókat készíteni...

MA 15:45

Az OpenAI új mobilja trónfosztja az iPhone-t?

📱 Az OpenAI újabb meglepetéssel készül a techvilágnak: a korábbi pletykákkal ellentétben nemcsak digitális hangrögzítőn, viselhető kiegészítőn vagy okoshangszórón dolgozik, hanem egy saját fejlesztésű mobilchipen is, ami egy teljes OpenAI-mobiltelefon eljövetelét vetítheti előre...

MA 15:34

Az áramhálózatot már robotok irányítják: startol Kína nagy dobása

⚡ A kínai hatóságok idén 8 500 vadonatúj robotot vetnek be az ország energiaellátásának megújítására...

MA 15:24

Az új DJI Mic Mini 2: kis méret, nagy tudás, baráti ár

🔊 A DJI Mic Mini 2 a vezeték nélküli mikrofonok világában friss színt hoz — szó szerint is, hiszen a transmitterein lecserélhető, színes előlapok is elérhetők...

MA 14:45

Az Arc Raidersben gyorsabban törnek a fegyverek, felfordul a PvP

⚡ A legfrissebb Arc Raiders-frissítés alaposan felforgatja a fegyverek kezelését: mostantól fegyvereink sokkal gyorsabban mennek tönkre, ráadásul az értékesebb zsákmányra vadászó játékosokat is a pálya közepére terelik...

MA 14:23

Itt az óvatosság ideje: megtört a bitcoin lendülete, zuhan a piac

A bitcoin megint elakadt a 80 000 dollár (kb. 29,5 millió forint) feletti kitörésnél, és ezzel együtt közel 0,75 százalékos esést szenvedett el, miközben az ether és a piac többi része is hasonló mozgást mutat...

MA 13:35

A nagyvállalatok új aduja: az MI-szuverenitás

🤖 A mesterséges intelligencia fejlődése villámgyors, és a korábbi kísérleti időszakot követően a világ legnagyobb vállalatai stratégiai újratervezésbe kezdtek...

MA 13:23

A világegyetem vége közelebb van, mint hinnéd

Az univerzum sorsa új fordulatot vett: friss kutatások szerint nem trillió éveink vannak hátra, hanem „csak” éppen 33 milliárd évünk van hátra, míg minden önmagába omlik...

MA 13:13

Az új Steam Deck 2 még nem hozza az áttörést

A Valve már több mint négy éve dolgozik a Steam Deck következő generációján, viszont a várva várt új gép bemutatása még mindig nem látható a láthatáron...

MA 13:01

Az ether-vásárlási roham utoléri a Bitcoin nagyágyúit

💸 Senki sem várta volna, hogy az üzleti világ két legnagyobb kriptovásárlója ennyire közel kerüljön egymáshoz...

MA 12:56

Az új visszatekerés: senki nem marad le a 8020-as irányelvről

Külön említést érdemel, hogy a Supermassive Games fejlesztői végre meghallották a rajongók egyik legnagyobb kívánságát: az Irányelv 8020-ban (Directive 8020) bevezetik a játék közbeni visszatekerés lehetőségét...

MA 12:44

A döbbenetes bitcoin-vagyon, amivel Jack Dorsey cége zsonglőrködik

💸 Jack Dorsey, a Twitter egykori vezére által alapított Block igencsak bespájzolt bitcoint: az év első negyedévében 114 új bitcoint vásárolt, amivel a vállalati kasszában már majdnem 9 000 BTC-t, vagyis körülbelül 264 milliárd forintot tart...

MA 12:34

A túlzásba vitt automatizálás megöli az értékesítést

Külön említést érdemel, hogy az értékesítési csapatok ma minden korábbinál nagyobb nyomás alatt állnak...

MA 12:24

Az MI-láz berobban: a Netcompany új korszakot nyit az INEOS Cyclingnél

Az INEOS Cycling öt évre szóló együttműködést kötött a dán Netcompanyval, hogy forradalmasítsák a profi országúti kerékpározást MI-alapú technológiával...

MA 10:37

Az új Logitech G512 X: a gamer billentyűzet, amire vártunk?

A Logitech G512 X bizonyítja, milyen sokat számítanak az okos tervezési megoldások és az innováció a gamer billentyűzetek piacán...

MA 10:29

A mesterséges intelligencia feltámasztja a halott projekteket

Érdekes felvetés, hogy a hosszú hétvégék után az e-mail-fiókunkba belépve rendre találkozunk olyan projektekkel, amelyek sem előre nem haladtak, sem nem törölték őket...

MA 10:22

Jön az újabb japán kamatemelés? Szárnyal a jen, esik a bitcoin

💰 A japán jegybank keddi döntése nyomán egyre erősebbek a várakozások, hogy már júniusban nőhetnek a hitelfelvételi költségek...

MA 10:14

Az Ondo Finance új dimenzióba repíti a tokenizált részvényeket

Az Ondo Finance forradalmasítja a tokenizált részvényeket és ETF-eket azzal, hogy bevezeti a meghatalmazotti szavazás lehetőségét...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/28

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás lehetővé teszi, hogy könnyedén megtudd, hány nap választ el két dátumot egymástól...

MA 08:57

Az MI-keresők rejtett hibái: veszélyben a vállalati rendszerek

⚠ Úgy tűnik, hogy azok a vállalati fejlesztőcsapatok, amelyek gondosan finomhangolják a RAG (Retrieval-Augmented Generation) beágyazó modelljeiket, ezzel jelentősen, akár 40%-kal is ronthatják a visszakeresés pontosságát...

MA 08:50

Az áttörés: Végre repedés nélkül fagyaszthatók a beültethető szervek

A szervátültetés sokáig versenyt futott az idővel: a donorszervek eltarthatósága szűk keresztmetszetet jelent, gyakran csak órákban mérhető...

MA 08:43

Az XRP mélyrepül: az eladók veszik át az irányítást

📉 Tipikus eset, amikor egy régóta várt támaszpont hirtelen enged el: az XRP éppen most esett 3%-ot, erős forgalom mellett 420 forint (1,40 USD) alá szakadt, és ezzel utat nyitott a további lejtmenetnek...