2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 07:57

Az Nvidia felturbózza a játékokat: itt a DLSS 5, az AI‑csodaszűrő

Elképesztő, mit tud a DLSS 5: a legújabb Nvidia AI-alapú felskálázási technológia nem egyszerűen élesebb képet ad, hanem teljesen új szintre emeli a látványt — ráadásul úgy, hogy közben minden részlet valósághűbbnek hat...

MA 07:50

Az EU-t elárasztja a robotaxi-láz: Bolt és NVIDIA összefog

🚗 Nem hiszem el, de a Bolt összefogott az NVIDIA-val, hogy Európában is berobbanhasson a robotaxi-biznisz...

MA 07:43

Az xAI-botrány: tizenévesek perelik a Grokot szexuális visszaélésért

🔴 Három tennessee-i tinédzser pert indított Kaliforniában az xAI ellen, mert szerintük a Grok nevű MI a fotóikat felhasználva gyermekbántalmazásnak minősülő képeket készített...

MA 07:36

Az új Sony-csoda: extrém képminőség PS5 Pro-n

Képzeld el, hogy a PS5 Pro mostantól még durvább képminőséget hoz ki a kedvenc játékaidból – és nem kell hozzá 4 millió forintos tévé sem!..

MA 07:23

A Samsung új Privacy Displayje tényleg csökkenti a kijelző fényerejét?

💡 A Samsung Galaxy S26 Ultra egyik legizgalmasabb újdonsága a Privacy Display nevű funkció, amely bizonyos nézési szögekből korlátozza a kijelző láthatóságát...

MA 07:15

Az Nvidia friss dobásai: MI-ügynök, lélegzetelállító grafika és Vera CPU

Az Nvidia ismét új szintre emeli a jövő technológiáját. Egyetlen eseményen mutatták be azt az MI-alapú fejlesztést, amely forradalmasíthatja a játékélményt és a professzionális adatközpontokat, ráadásul bemutatták a Vera CPU-t, ami minden eddiginél nagyobb teljesítményt ígér a mesterséges intelligencia korszakában...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Juggly Ball (iPhone/iPad)Ez a fizika alapú ügyességi játék próbára teszi a labdazsonglőr tudásodat...

MA 07:08

Az új Boox Go berobban: ultravékony, világítós E Ink tablet Android 15-tel

A legújabb Boox Go 10.3 Lumi tablet jelentősen bővíti az E Ink eszközök lehetőségeit...

MA 07:01

Az Exchange Online újra letérdelt: se e-mail, se naptár

A Microsoft Exchange Online szolgáltatása komoly leállást szenvedett el, ami miatt rengeteg felhasználó nem tudott hozzáférni sem a postafiókjához, sem a naptárjához...

MA 06:58

Az élet nagy dobása: amikor a növények partra szálltak

Földünk mai képe egészen más lenne, ha néhány apró, kitartó élőlény évmilliárdokkal ezelőtt nem vállalta volna az ismeretlen felfedezését...

MA 06:50

Az Nvidia áttörése alapjaiban formálja át az MI-alapú adattárolást

Felmerül a kérdés: miként orvosolható az a probléma, amikor egy MI-ügynök a feladat közben elveszíti a kontextust, mert a hagyományos adattárolás már nem tudja tartani a tempót a gyorsabb következtetésekkel?..

MA 06:43

Az xAI-t beperelték a Grok miatt: újabb botrány Musknál

💥 Három Tennessee állambeli tinédzser beperelte Elon Musk xAI-ját, akik szerint a vállalat mesterséges intelligenciája, a Grok, szexuális jellegű képeket és videókat készített róluk, amikor még kiskorúak voltak...

MA 06:37

Az Nvidia új csodafegyvere: lélegzetelálló grafika, bizarr arcok

Az Nvidia bemutatta legújabb fejlesztését, a DLSS 5-öt, amely a vállalat szerint korszakváltó áttörést jelent a számítógépes grafika világában...

MA 06:30

Az óriáscég 80 ezer gépét törölték: kitört a káosz, kézi rendelés!

Külön említést érdemel, hogy a múlt héten súlyos kibertámadás érte a Stryker orvostechnológiai vállalatot, amelynek során közel 80 ezer eszköz adatait törölték az éjszaka folyamán – mindezt anélkül, hogy bármilyen rosszindulatú programot bevetettek volna...

MA 06:22

Az áttörés: új injekció tünteti el a rákot

💉 Egy új fejlesztésű immunterápiás eljárás, amelyet közvetlenül a daganatba fecskendeznek, lenyűgöző eredményeket adott egy klinikai vizsgálatban...

MA 06:15

Az Egyesült Arab Emírségek megnyitja a légterét, ég a Közel-Kelet

🌍 Nehéz elhinni, de a Dubaji Nemzetközi Repülőtér közelében hatalmas füstfelhő szállt fel, miután egy dróntámadás eltalált egy üzemanyagraktárt, és nagy tüzet okozott...

MA 06:08

A mesterséges intelligencia a Britannica tartalmait is lenyúlta – jön a nagy perpatvar

Na hát ennyit erről – a legendás Britannica enciklopédia (Encyclopaedia Britannica) és a Merriam–Webster szótárkiadó most nagyon berágtak az OpenAI-ra, mert simán lenyúlták a szerzői jogi tartalmaikat a ChatGPT betanításához...

MA 06:05

Történelmi események a mai napon (Március 17.)

Erős nap a történelemben: császárváltás Rómában, elsöprő népszavazás apartheid ügyben, női miniszterelnök Izraelben, és űrtörténeti mérföldkő...

MA 06:01

Az ötmillió brit cég adatai hónapokig szabadon keringtek

🚧 Pénteken napvilágra került egy súlyos biztonsági rés az Egyesült Királyság cégnyilvántartási rendszerében, amely mintegy ötmillió vállalkozás adatait tette hozzáférhetővé illetéktelenek számára...

hétfő 21:56

Az MI-szuperszámítógép lehet a brit fúziós áttörés kulcsa

⚡ Minden eddiginél nagyobb teljesítményű, MI-alapú szuperszámítógép épül nyáron az oxfordshire-i Culham kutatóközpontban, amely a remények szerint lendületet adhat a brit fúziósenergia-fejlesztésnek...

hétfő 21:45

Az iráni háború felforgatja az olajpiacot – Meddig bírják a gazdaságok?

Fontos kérdés, mennyire tud ellenállni a világgazdaság az olajválságnak, amelyet az iráni háború indított el...

hétfő 21:34

Az amerikai partoknál már pörögnek az új szélerőművek

Az Egyesült Államok keleti partvidékén két új offshore szélfarm is elindult, amelyek jelentősen növelik a régió zöldenergia-ellátását...

hétfő 21:23

A Wing FTP kritikus hibája az állami szervereket fenyegeti

⚠ Az Egyesült Államok kormányzati ügynökségeit sürgősen figyelmeztették, hogy a Wing FTP Server szoftverükben lévő veszélyes sérülékenységet mielőbb javítsák, mivel hackerek már aktívan kihasználják...

hétfő 21:12

A techóriások összefognak: végre együtt csapnak le az online csalókra

A Google, a Microsoft, a LinkedIn, a Meta, az Amazon, az OpenAI, az Adobe és a Match Group most közös frontot alkotnak az online átverők ellen...

hétfő 21:02

Az áttörés: szívgyógyító injekció egereknél és sertéseknél

Egyetlen speciális injekció heteken át képes beindítani a szívizom öngyógyítását – legalábbis egerekben és disznókban...

hétfő 20:56

Az új AirPods Max 2: még jobb zajszűrés, okosabb extrák

🎧 A kaliforniai Apple bemutatta az AirPods Max 2-t, amely jól ismert, fület körülölelő formáját most még jobb aktív zajszűréssel, magasabb hangminőséggel és intelligens újításokkal ötvözi...

hétfő 20:45

Az új Google TV-frissítés véget vet a reklámmentes élménynek?

📺 A Google TV újabb frissítése kisebb fennforgást okozott azok körében, akik szeretik testreszabni az okostévéjük felületét...

hétfő 20:34

Az MI áttörése: Itt a bizonyítások automatizálásának kora?

A matematika világa épp most forradalmasodik: ahogy a mesterséges intelligencia egyre gyorsabban fejlődik, a matematikusok is egyre nehezebben látják előre, milyen szerepük marad a jövőben...

hétfő 20:25

A Yahoo feltámadása: visszatér a web régi kedvence

A Yahoo az elmúlt évtizedek egyik legnagyobb hullámvasútját járta be az internet világában: fénykorából, amikor még az egész világhálót segített feltérképezni, az elhúzódó válságig és a Verizon nevű mobilóriás keblébe olvadásáig sok mindenen keresztülment...