2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 09:49

A Fehér Ház mindent bedob: új UAP-tanácsadó testület alakul

Az Egyesült Államok kormánya új szintre emeli a földönkívüli élet utáni kutatást: külön tudományos tanácsadó testület segíti az ország vezetőit az azonosítatlan légköri észlelések, vagyis az UAP-ok vizsgálatában...

MA 09:24

A Meta előfizetéshez köti az okosszemüvegek extra funkcióit

A Meta új előfizetési rendszert vezet be az okosszemüvegeihez, amely érinti mind a Ray-Ban- és Oakley‑modelleket, mind a saját márkás eszközöket...

MA 09:14

A mesterséges intelligencia igazi ára: spórolás helyett súlyos mellékhatások?

💸 Egy lényeges szempont, hogy az amerikai kormány jelenlegi hiánya soha nem látott magasságokba emelkedett, miközben egyre élénkebb vita övezi a költségvetési reformok szükségességét...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 7/3

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     FormatX: Video Audio Converter (iPhone/iPad)A FormatX egy sokoldalú, minden az egyben formátum átalakító eszköz, amely egyszerűen és gyorsan alakít át videó-, hang- és képformátumokat...

MA 09:02

Az új ZCode kihívja a Copilotot, a Cursort és a Claude-ot

Egyre látványosabb átrendeződés zajlik a fejlesztői eszközök piacán: Pekingből érkezik egy új szereplő, amely odacsap a veterán nyugati óriások asztalára...

MA 08:49

A Google beszünteti a legendás Nest okoszár árusítását

🔒 A Nest x Yale Lock hosszú időn át az egyik legismertebb okoszár volt a piacon, de most végleg eltűnt a Google Store kínálatából...

MA 08:03

Az MI-szabályozás káosza és a küszöbön álló technológiai forradalom

Az elmúlt hét legnagyobb MI-híre Amerikában az volt, hogy visszavonták az Anthropic Mythos és Fable modelljeire két hete bevezetett exportkorlátozásokat...

MA 07:49

A láthatatlan szálak: így irányítja a világot a Goldman Sachs

💎 Közel 46 ezer alkalmazott dolgozik a világ egyik legnagyobb pénzügyi intézményénél, ahol évente több mint egymillióan pályáznak állásra...

MA 07:37

A Hubble lehetetlen fényt észlelt egy láthatatlan galaxisból

Egy rejtélyes, ősi galaxis, az MXDFz4.4 fényét sikerült észlelni a világegyetem legkorábbi időszakából, ami eddig lehetetlennek tűnt...

MA 07:13

Az űrverseny óriásai: Mikor startol végre a New Glenn?

🚀 Senki sem várta volna, hogy a holdraszállásról álmodó NASA egyik legkomolyabb akadályát saját beszállítói okozzák, mégpedig a Blue Origin csúszásai miatt...

MA 07:01

A Securitize NYSE-debütál: 295 millió dolláros tokenizált részvény Solanán és Avalanche-en

🔥 A digitális vagyonkezelés újabb mérföldkőhöz érkezett: a BlackRock és az ARK Invest által is támogatott Securitize egyszerre lépett be a New York-i tőzsdére, és tokenizálta saját részvényeit...

MA 06:49

Az évszázad legerősebb rengése Venezuelában: 2595 halott, súlyos károk

A Venezuelát múlt héten sújtó földrengések következtében a halálos áldozatok száma 2 595-re nőtt, miközben a mentőalakulatok továbbra is versenyt futnak az idővel a túlélők felkutatásáért...

MA 06:26

Véget ért a hajón kitört hantavírus-járvány – közölte a WHO

🚦 A luxushajón tavasszal felbukkanó hantavírus-járvány végre hivatalosan is lezárult. A fertőzés korábban három ember halálát okozta, és komoly félelmeket keltett a további terjedésével kapcsolatban...

MA 06:06

Történelmi események a mai napon (Július 3.)

Viharos ütközetek, trónra lépések és technikatörténeti mérföldkövek jelölik ezt a napot: a gettysburgi csata tetőpontja, Hugh Capet francia királlyá koronázása és a Mallard gőzmozdony világrekordja egyszerre rajzolják át a történelem térképét...

MA 06:01

A CISA szerint már aktívan támadják a Microsoft SharePoint RCE-hibát

A Microsoft SharePoint-rendszerei újabb komoly biztonsági kockázattal néznek szembe: a legújabb, távoli kódfuttatást lehetővé tévő sérülékenységet már aktívan kihasználják a támadók...

csütörtök 18:31

A pályaközepi kiégés: amikor munka, gyereknevelés és idősgondozás ütközik

Egy hétfő reggel Sarah Davies, egy nagy brit élelmiszergyártó pénzügyi vezetője, szokása szerint felhívta idős édesapját...

csütörtök 18:01

A világ végére tartó út: úszó labor az északi jég fogságában

Jövő hónapban tizenkét fős csapat indul Norvégia sarkköri kisvárosába, Kirkenesbe, hogy megkezdje elképesztő utazását a Föld egyik legkietlenebb, legzordabb vidékére...

csütörtök 17:01

Az amerikai álom újra szárnyal: SpaceX, részvényláz, történelem

🚀 Az Egyesült Államok 250. születésnapját a világ valaha volt legnagyobb tőzsdei kibocsátásával ünnepli...

csütörtök 16:01

Az Nvidia új húzása: számítási kapacitást ad bevételrészesedésért cserébe

💻 Az Nvidia friss partnerségi programja forradalmasítja a startupok és a csipgyártó kapcsolatát: a gyorsan bővülő MI-cégekkel mostantól olyan megállapodásokat köt, amelyekben jövőbeli bevételük egy részéért cserébe számítási kapacitást biztosít...

csütörtök 15:02

Az indiai kormány fékezné a WhatsApp-felhasználónevek bevezetését: tombolhatnak az átverések

A WhatsApp hamarosan lehetővé teszi felhasználónevek használatát, így a felhasználók telefonszám megadása nélkül is felvehetnek új ismerősöket...

csütörtök 14:31

A hordozható óriás, amivel egyszerre négy kijelződ lehet

Egy lényeges szempont, hogy kevés eszköz képes annyira kibővíteni egy laptop lehetőségeit, mint egy extra monitor – vagy egyből három...

csütörtök 11:03

Az ősi DNS megfejtette a Medici fivérek 500 éves halálrejtélyét

🔎 Az olaszországi Medici család két ismert tagjának rejtélyes, 500 évvel ezelőtti halála végre tudományos magyarázatot kapott...

csütörtök 10:50

A hekkerek a cégnél havat lapátoltak, cserébe adminjogot kaptak a hálózatra

Egy átlagos téli napon meglehetősen szokatlan, amikor két vadidegen fiatalember jelentkezik egy irodaház karbantartóinál azzal, hogy szívesen segítenének havat lapátolni – főleg úgy, hogy az őrszoba ajtaja nyitva van, a személyzet épp el van foglalva, és senki sem figyeli igazán, kinek van keresnivalója az épületben...

csütörtök 10:37

Az otthoni akkumulátor-telepítések rekordot döntenek Amerikában az áramár-emelkedés miatt

Az Egyesült Államokban minden eddiginél többen szerelnek fel otthoni akkumulátorokat, hogy tompítsák az egyre emelkedő villamosenergia-költségeket...

csütörtök 10:26

Az éttermek nagy dobása: közvetlen rendelés ChatGPT-ből, alacsony díjakkal, beállítás nélkül

🍔 Egy lényeges szempont, hogy az éttermek számára elérhetővé vált egy radikálisan új lehetőség: mostantól közvetlenül ChatGPT-n és Claude-on keresztül lehet ételt rendelni, köszönhetően a Square friss, egyszerű és alacsony díjas integrációjának...

csütörtök 10:02

A tudósok óriás légzsákot küldenének az űrbe a napviharok ellen – szerintük kivitelezhető

☁ A Nap időszakonként egyre hevesebb viharokat küld felénk, amelyek páratlan fényjelenségeket okoznak az égbolton, ám a látványos északi fény mögött csendben megbújik egy sokkal fenyegetőbb veszély is...

csütörtök 09:49

A SpaceX kézi MI-eszközt tesztel? Musk: teljességgel hamis

🚀 A SpaceX nemcsak rakétákkal és műholdas internettel foglalkozik, hanem állítólag saját fejlesztésű, kézben hordozható MI-eszközzel kísérletezik...

csütörtök 09:37

Az Ethereum intézményi rajtja mögé az egész ökoszisztéma felsorakozik

Az Ethereum körüli világ sosem volt még ilyen pezsgő. A legújabb, nagy horderejű esemény az Ethereum Institutional elindulása, amely a blokklánc-ökoszisztémát új szintre kívánja emelni a pénzügyi szereplők bevonása és az eszközök tokenizálása terén...

csütörtök 09:24

Egy meglepő agyi felfedezés újraírja a mozgászavarok tudományát

🧠 A legújabb idegtudományi vizsgálatok teljesen új fényben tüntetik fel a mozgászavarokat...