2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 07:22

Az Apple botránya: lopott videókból tanította MI-jét — állítják YouTuberek

🔥 Három ismert YouTuber – h3h3 Productions, MrShortGameGolf és Golfholics – most közösen beperelték az Apple-t, mert szerintük a vállalat törvénysértően használta fel a videóikat az MI fejlesztéséhez...

MA 07:15

A finn homokakku áttörése fenekestül felforgathatja az energiatárolást

Finnországban egy új típusú akkumulátort tesztelnek, amely a megújuló energia tárolását és villamos energiává történő visszaalakítását ígéri...

MA 07:08

Az MI végre megszabadít a ruhahajtogatástól?

👚 A Generalist nevű cég új mérföldkőhöz ért a robotikában: a GEN-1 nevű MI‑modelljük ma már 99 százalékos megbízhatósággal végzi el a legapróbb, kézügyességet igénylő feladatokat is – ilyenek például a dobozhajtogatás, a telefoncsomagolás vagy a tárgyak szortírozása...

MA 06:50

Az Artemis II új fejezetet nyit az űrtörténelemben

Külön említést érdemel, hogy a NASA Artemis II küldetésének négyfős legénysége minden eddiginél távolabb jutott a Földtől...

MA 06:43

A bálnák rázzák meg a Bitcoint – Jön az újabb pánik?

A Bitcoin árfolyama ismét közelít a 68 000 dolláros (kb. 25,1 millió forint) szinthez, miután sorozatosan képtelen volt 70 000 dollár felett maradni...

MA 06:36

Az Associated Press átáll: az MI és a videó diktál

Az AP, a világ egyik legpatinásabb hírügynöksége, jelentős változások elé néz: az amerikai újságírók egy részének önkéntes távozását ajánlják fel, ezzel gyorsítva az elmozdulást a nyomtatott sajtótól és a hagyományos újságírástól, amely csaknem két évszázadon át volt a fő bevételi forrás...

MA 06:30

Az MI már lekörözi az embert az orvosi kutatásban?

Erre utal többek között az, hogy a legújabb tapasztalatok szerint már nemcsak villámgyors válaszokat kapunk, hanem a nagy nyelvi modellek (LLM-ek), például a ChatGPT vagy a Gemini, képesek rövid idő alatt magas szintű kutatási feladatokat is elvégezni...

MA 06:22

Az új Netflix Playground: ingyenes gyerekbirodalom, amitől leesik az állad

A Netflix most bedobta a következő nagy húzását a gyerekek világában, ráadásul ingyen, ha már előfizető vagy...

MA 06:15

Az Apple visszatámad: új csata az Epic ellen a Legfelsőbb Bíróságon

🛠 Na most kapaszkodj, mert az Apple ismét nekifut, hogy a Legfelsőbb Bíróságon rendezze az évek óta húzódó harcát az Epic Games ellen...

MA 06:05

Történelmi események a mai napon (Április 7.)

Attila hun király 🗡️ feldúlja Metzet, az internet szimbolikus születésnapja 📄 megszületik az RFC 1 közzétételével, és amerikai csapatok elfoglalják Bagdadot 🏙️ – pár nap, ami új irányokat adott a történelemnek...

hétfő 21:56

A fáraók csillogó gyászruhája: a gyöngyhálók titkos története

💎 Ez a látványos, több mint 4500 éves, gyöngyhálóból készült óegyiptomi ruha igazi ritkaság, amely kifejezetten egy nő temetésére készült a piramisok korában...

hétfő 21:34

A zsarolóvírusok orosz királya lebukott: így csaptak le UNKN-re

🔒 A német hatóságok hivatalosan is leleplezték Daniil Makszimovics Scsukint, azt a 31 éves, krími születésű orosz hackert, aki évekig „UNKN” fedőnéven működtette a hírhedt GandCrab- és REvil-zsarolóvírus-bűnbandákat...

hétfő 21:02

A víz alatti élet titka: miért nem fulladunk meg?

Az emberiség elképesztően sokszínű környezethez alkalmazkodott az évezredek során. Bárhol nézünk szét a Földön, megtalálhatók olyan közösségek, amelyek a legextrémebb körülményeket is túlélhetővé tették – sőt, otthonukká formálták...

hétfő 20:57

Az olcsó tárhelynek befellegzett: hová mentse most az adatait?

📤 Ebből következően érdemes megérteni, hogy az adattárolás egyre nagyobb kihívást jelent: a videók felbontása és mérete folyamatosan nő, a projektekhez szükséges fájlok könnyen túllépik a több száz MB-ot, miközben a megbízható, nagy kapacitású és megfizethető fizikai tárolók lassan eltűnnek...

hétfő 20:46

A mesterséges intelligencia megelőzi a katasztrófákat: itt a NeuBird Falcon

🕵 Kezdetben a technológiai ipar egyik legfőbb jelszava az volt, hogy haladj gyorsan, és törj össze dolgokat...

hétfő 20:12

A T‑Mobile lekapcsolja a régi mobilokat – lejárt az idő

⏱ Alig pár napja, hogy a T-Mobile frissítette a hálózatát, és elbúcsúzott néhány régi biztonsági szabványtól, amelyeket a 2017 előtti, régi androidos vagy iPhone-ok használtak...

hétfő 20:02

A MacBook Neo tényleg megváltoztatja a hétköznapokat ennyiért?

💻 Az Apple jó ideje nem dobott piacra új MacBook modellt, így sokan kíváncsian várták a Neo érkezését...

hétfő 19:56

Az MI-háború küszöbén: Altman vészjelzése az emberiségnek

Tipikus eset, amikor a technológia fejlődése villámgyorsan átírja a játékszabályokat: az MI már nemcsak elméleti fenyegetés, hanem a mindennapi gazdaság húzómotorja...

hétfő 19:34

Az internet kora elszabadította a zaklatást: sosem látott esetszám

Az elmúlt tíz évben Angliában és Walesben mintegy ötvenszeresére emelkedett a rendőrség által nyilvántartott zaklatási ügyek száma, tavaly több mint 135 ezer bűncselekményt regisztráltak, szemben a tíz évvel korábbi majdnem 3 ezerrel...

hétfő 19:24

Az új diplomások kálváriája: miért sosem volt ilyen nehéz állást találni?

💼 Az egyetemi diplomát szerző fiatalok idén minden eddiginél szigorúbb munkaerőpiaccal szembesülnek...

hétfő 19:13

Az új Moto Watch: sportóra, vagy csak mutatós kiegészítő?

A Moto Watch első pillantásra komoly versenytársnak tűnik a fitneszórák piacán...

hétfő 19:02

A NEAR berobban, az Avalanche száguld – kriptóőrület hétvégén

Micsoda fordulat a hétvégén! A kriptopiacon mindenki a NEAR Protocolra kapta fel a fejét, mert 8,1%-ot hasított – komolyan, ez már nemcsak véletlenül elszabadult rakéta...

hétfő 18:56

Az Artemis II élőben kerüli meg a Holdat – ilyen még nem volt!

A NASA épp most ír történelmet az Artemis II küldetéssel. Reid Wiseman, Christina Koch, Victor Glover és Jeremy Hansen lesznek azok, akik minden eddigi űrhajósnál messzebb utaznak a Földtől, az Orion űrhajóval...

hétfő 18:45

A magányos bitcoin-bányász, aki egy csapásra meggazdagodott

🤑 Egy magányos bitcoin-bányász szenzációt keltett, amikor mindössze 230 terahash/s számítási kapacitással sikerült validálnia a 943 411-es blokkot...

hétfő 18:23

Az új Walmart 4K-s streaming stick: tényleg megéri?

📺 A Walmart legújabb, 4K-s streaming stickje már csendben megjelent néhány üzlet polcán, így a vásárlók már most is beszerezhetik az UHD-minőséget kínáló eszközt...

hétfő 16:45

A Samsung Ultra villámgyorsan tölt, de az akku csak közepes

⚡ A Samsung legújabb csúcsmobilja, a Galaxy S26 Ultra elsőként kapott 60 wattos vezetékes gyorstöltést, amivel végre felzárkózott a versenytársak szintjéhez...

hétfő 16:34

Az univerzum óriás fekete lyukai éheznek – miért?

🧰 Az elmúlt 10 milliárd évben a világegyetem legnagyobb fekete lyukai feltűnően lassabban növekedtek, mint korábban...

hétfő 16:24

A fényalapú chipek hozzák el az MI következő nagy ugrását?

Az ipart formáló, stratégiai jelentőségű innovációként tör előre a szilícium-fotonika: ez a technológia főként a fejlett MI-, kommunikációs és adatinfrastruktúra alapkövévé válik...

hétfő 16:01

A végső leszámolás az otthoni téves riasztásokkal

A legtöbb otthoni riasztórendszer használója találkozott már az éjszaka közepén megszólaló szirénával vagy ok nélkül működésbe lépő füstérzékelővel...