2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

péntek 21:45

A kannabisz 65 felett biztonságos? Öt veszély, amit ismerni kell

👪 Az utóbbi években a kannabiszhasználat rohamosan nőtt az idősebb korosztály körében is: egyre többen fordulnak hozzá krónikus fájdalom, álmatlanság vagy szorongás enyhítésére...

péntek 21:22

Az agy boldogsághormonja titokban gerjesztheti a fülzúgást

😱 Már régóta ismert, hogy a fülzúgás – vagyis az állandó, zavaró csengés, búgás vagy zúgás a fülben – milliók mindennapjait nehezíti meg világszerte...

péntek 21:12

A Googlebook berobban: kilép a Chromebook árnyékából?

Az Apple innovációi után a Google és az Intel is lépett: együtt mutatták be közös notebookjukat, amelyet egyelőre csak Googlebook néven emlegetnek...

péntek 21:01

A Zee TV bárhol a világon: így nézheted VPN-nel

Zee TV-t szeretnél nézni Indián kívül, akár külföldi utazás vagy tartósabb kintlét alatt?..

péntek 20:57

A ConcernedApe új játéka nagyobb, sötétebb és kegyetlenebb

Eric Barone, a Csillagharmat-völgy (Stardew Valley) megalkotója az utóbbi években minden energiáját következő játékára, a Kísértetjárta Csokoládékészítőre (Haunted Chocolatier) fordítja...

péntek 20:45

A nagy tőzsdék vizsgálatot sürgetnek a Hyperliquid manipulációs kockázatai miatt

📊 A Hyperliquid nevű decentralizált derivatív tőzsde egyre nagyobb figyelmet kelt az amerikai pénzügyi óriások, a CME Group és az Intercontinental Exchange (ICE) körében...

péntek 20:33

Az 5%-os hozam visszatért a hosszú amerikai állampapírra, 2007 óta először

💰 Először 19 év után ismét 5%-os hozammal kínáltak 30 éves amerikai államkötvényt, ami jelentős fordulatot hozott a befektetői piacon...

péntek 20:23

A tudósok megfejtették az antarktiszi tengeri jég rejtélyes összeomlását

Egy lényeges szempont, hogy az Antarktisz körüli tengeri jégtakaró szinte példátlan gyorsasággal kezdett eltűnni 2015-től, pedig azt megelőzően évtizedekig stabilnak tűnt...

péntek 19:56

A láthatatlan koleszterinveszély, amelyről minden ötödik ember nem tud

Többek között több mint 20 000 önkéntes adatait elemezték kutatók, és kiderült: számos embernél akkor is fennáll a szív- és érrendszeri betegségek kockázata, ha a hagyományos kezeléseket megfelelően kapják...

péntek 19:45

Az RTX 5090 még drágább lehet: jöhet a százezres drágulás?

Ha valaki mostanában tervezte, hogy új grafikus kártyára vált, valószínűleg jobban teszi, ha még vár: az RTX 5090 eddig sem volt olcsó, de a legújabb hírek szerint az Nvidia további, akár 100 ezer forintos áremelést fontolgat...

péntek 19:34

A kínai tiltás marad: Nvidia MI-chipekre továbbra sincs engedély

Donald Trump, Jensen Huang és több nagyvállalati vezető is Kínába utazott, hogy javítsák az országok közötti kereskedelmi kapcsolatok helyzetét...

péntek 19:23

A Kanye West-koncertet Indiában biztonsági okokból felfüggesztették

Kanye West indiai fellépésére ismét nem kerül sor: a május 23-ra tervezett, az újdelhi Jawaharlal Nehru Stadionban tartandó koncertet a szervezők biztonsági aggályok miatt törölték...

péntek 19:12

Az OpenAI rákapcsol: Távoli hozzáférés a Codexhez iPhone-on, iPaden és Androidon

📱 Érdekes fejlemény, hogy egyre több fejlesztő mostantól a telefonjáról felügyelheti és irányíthatja a kódolási feladatait, bárhol is jár éppen...

péntek 19:02

Az MI-chatbotok felerősítik a nőkkel és lányokkal szembeni erőszakot – sürgős szabályozás kell

Az automatizált csevegőrobotok elárasztották az internetet, átalakítva a nőket és lányokat érő bántalmazás formáit, miközben egészen új, veszélyes módszereket is teremtenek...

péntek 18:45

A B2-vitamin árnyoldala: segítheti a rákos sejtek túlélését

😷 Felmerül a kérdés, vajon minden, ártalmatlannak tartott vitamin valóban csak jótékony hatással van-e a szervezetünkre...

péntek 18:34

A halált is kijátszotta: Emilia Clarke két agyvérzést élt túl

💪 A világhírű színésznő, Emilia Clarke a mai napig hihetetlennek tartja, hogy életben maradt két súlyos agyvérzés után, amelyeket a Trónok harca (Game of Thrones) forgatása alatt szenvedett el...

péntek 17:23

Az olcsó Alienware kemény vádirat a PC-s játékhardver állapotáról

Külön említést érdemel, hogy a 2026-os Alienware 15 megjelenése komoly kérdéseket vet fel a gamer laptopok világában...

péntek 16:45

Az OpenAI perelné az Apple-t: válságban a Siri-szövetség

🔥 Érdemes megérteni, hogy két óriás, az Apple és az OpenAI régóta együtt dolgozik, hogy Siri, az Apple hangasszisztense még okosabb és hasznosabb legyen...

péntek 16:02

Az antarktiszi Don Juan-tó, amely még mínusz ötven fokban sem fagy be

💦 Az Antarktiszon, a McMurdo-szárazvölgyek fagyott vidékén terül el a Don Juan Pond, amely különös tulajdonságairól híres: ebben a mindössze 10 centiméter mély, hat focipályányi tavacskában annyi só, pontosabban kalcium-klorid található, hogy még mínusz 50 Celsius-fokos hidegben sem fagy be a víz...

péntek 15:45

A Wall Street felfigyel a kripto legokosabb MI-fogadására

Nof1 egyik legújabb kezdeményezése, az Alpha Arena egyre nagyobb figyelmet kap a pénzügyi világban...

péntek 15:12

A Dutton Ranch ingyen nézhető – íme a rejtett kiskapu

🤸 Hatalmas várakozás előzi meg a Yellowstone (Yellowstone) sorozat új mellékszálát, a Dutton Ranchot, ami már most az év egyik legkeresettebb streamingtartalma...

péntek 15:01

Az OpenAI megerősítette a TanStack ellátásilánc-támadását, nem szivárogtak felhasználói adatok

Két OpenAI-munkatárs gépét érte támadás a TanStack ellátási láncát érintő Mini Shai-Hulud incidens során, de a vállalat szerint a történtek nem okoztak érdemi fennakadást a működésben...

péntek 14:56

Az MI torzíthatja a pályaválasztást, figyelmeztet a Raspberry Pi-alapító

A technológia és programozás világa egyre kevésbé vonzó a fiatalok számára, mivel a mesterséges intelligencia folyamatosan átveszi a kezdő munkaköröket...

péntek 14:45

Az Artemis II űrhajósai belülről mesélik el a felfoghatatlan napfogyatkozást

Érdekes felvetés, hogy milyen módon változtathatja meg egy űrutazás az ember szemléletét a világról...

péntek 13:34

Az STRC 1,5 milliárd dolláros rekordforgalommal 11 707 bitcoin vételét fedezi

💰 Lényeges, hogy a Strategy által kibocsátott STRC-részvények forgalma minden eddigit felülmúlva elérte az 1,53 milliárd dollárt (kb...

péntek 13:01

Az idei nyár pénztárcabarát futófülhallgatói: kezdőknek, tempóváltáshoz

Kezdő futóként gyakran csapdába esik az ember: túlárazott, csúcskategóriás fülhallgatókat nem akar venni, de a saját lihegése nem elég motiváló társ az edzéshez...

péntek 12:34

A Nothing-vezér kiosztja a Sonyt az Xperia 1 VIII bénázó MI-je miatt

A Sony legújabb zászlóshajó mobilja, az Xperia 1 VIII nagy vihart kavart egy egyszerű közösségi poszttal...

péntek 11:23

A zombi sejtek nyomában: áttörés az öregedés ellen

👽 Az életkor előrehaladtával testünkben egyre több olyan sejt halmozódhat fel, amelyek már leálltak az osztódással, de ahelyett, hogy elpusztulnának, makacsul kitartanak – ezek az úgynevezett „zombi sejtek”, vagyis szeneszcens sejtek...

péntek 10:46

Az Xbox Elite 3 kiszivárgott képei: fura extra, nehéz lesz helytállni

🎮 Érdemes megvizsgálni, mire lehet képes a hamarosan debütáló Xbox Elite 3 kontroller az új piaci viszonyok között...