2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

vasárnap 17:59

Az alternatív appboltok forradalma: Európa és Japán szabadul az Apple-től

🚀 Az Európai Unióban jelentős változást hozott a Digital Markets Act (DMA): mostantól nemcsak az Apple App Store-on keresztül lehet alkalmazásokat elérni, hanem különböző alternatív appboltok is megnyíltak az iPhone-felhasználók számára...

vasárnap 17:39

Az égi show: hat bolygó táncol a horizonton

🌌 Február 28-án este ritka látványosságot ígér az égbolt: bolygóparádéban gyönyörködhet az, aki tiszta időben, akadálytalan kilátással nyugat felé figyeli a napnyugtát...

vasárnap 17:21

Az eldobható kamerák visszatérnek: Camp Snap Pro vagy Flashback One35 V2?

A digitális gépek olcsóbb szegmense az utóbbi években reneszánszát éli, különösen a fiatalok között...

vasárnap 17:01

A PreCheck mégsem szűnik meg: marad az amerikai gyorssáv

😊 A hétvégén gyorsan változott a helyzet a repülőterek gyorsított biztonsági ellenőrzését kínáló PreCheck szolgáltatás körül: miután az amerikai Belbiztonsági Minisztérium először azt közölte, hogy a részleges kormányzati leállás miatt szüneteltetik a szolgáltatást, vasárnap mégis az üzemelés folytatását jelentették be...

vasárnap 16:40

A csillag, amely nyomtalanul tűnt el – robbanás nélküli fekete lyuk

⭐ Egy távoli csillag galaktikus szomszédunkban, az Androméda-galaxisban néhány éve egyszerűen eltűnt az égboltról – minden látványos robbanás nélkül...

vasárnap 16:20

Az űrverseny valós ára: rakéták mérgezik a levegőt

Az utóbbi években a kereskedelmi űrrepülések robbanásszerű növekedése egyre komolyabb aggodalmakat vet fel: néhány ország és vállalat kvázi szemétlerakóként használja a Föld atmoszféráját...

vasárnap 13:39

Az újabb téli vihar fél országot bénít: ezrével törlik a járatokat

Valóságos káosz uralkodott az amerikai reptereken, miután a légitársaságok több mint 6 ezer járatot töröltek a hétvégén és hétfőn, megelőzve a térségre lecsapó hatalmas hóvihart...

vasárnap 13:20

Az új Xbox-főnök leszögezte: nem kérnek az AI-szemétből

Valóságos földindulás a Microsoftnál! Phil Spencer, a legendás Xbox-vezér és a szintén villámkezű Sarah Bond is dobbantott, a cég pedig tényleg leporolta a vezetőséget: már itt is van Asha Sharma, aki korábban a Meta és az Instacart háza táján is letette a névjegyét...

vasárnap 11:59

A DNS-lottó mítosza: Tényleg becsapnak a genetikai tesztek?

Egy lényeges szempont, hogy a genetikai tesztelés forradalma az utóbbi években anélkül tört be a mindennapjainkba, hogy igazán értenénk, mire is vállalkozunk...

vasárnap 11:39

Az ítélet lesújt a Teslára: 243 millió dollár a halálos Autopilot-balesetért

Komolyan mondom, a Tesla most tényleg ráfaragott: a bíróság nem nézte el a végzetes 2019-es balesetet, amelyben az Autopilot használata mellett meghalt egy ember, és egy másik súlyosan megsérült...

vasárnap 11:20

A kelta vas átka: minden 54. embert fenyeget

A legújabb genetikai kutatások szerint Észak-Írországban és a Külső-Hebridákon élő embereknél a legmagasabb a hemochromatosis – magyarul vaslerakódásos betegség – kockázata...

vasárnap 10:46

Az utolsó titok: miért merevedik meg a holttest?

🕵 Erre utal többek között az is, hogy a halál után az emberi test természetes folyamatokon megy keresztül: lehűl, elsápad, majd elmerevedik, mielőtt megkezdődne a bomlás...

vasárnap 10:01

Az iPhone-ok titokban kémkedhetnek: így rejti el a Predator a felvételeket

Az Intellexa nevű megfigyelőcég által fejlesztett Predator kémprogram képes úgy rögzíteni az iPhone-ok kamerájának és mikrofonjának felvételeit, hogy közben teljesen eltünteti az iOS értesítőjeleket, így a felhasználó semmit sem vesz észre...

vasárnap 09:55

A kanadai vérengzés és az OpenAI: meddig felel a gép?

Az egész világot megrázta, amikor egy 18 éves lány, Jesse Van Rootselaar a kanadai Tumbler Ridge városában nyolc embert ölt meg...

vasárnap 09:47

Az MI-startupok új válsága: két sztármodell a szakadék szélén

🤯 A mesterséges intelligencia forradalom elképesztő startupdömpinget hozott, de mostanra körvonalazódni látszik, hogy két népszerű üzleti modell rendkívül törékeny lábakon áll...

vasárnap 09:37

Az amerikaiak pánikolnak: tényleg nullára zuhanhat a Bitcoin?

💸 Az Egyesült Államokban idén februárban rekordot döntött a bitcoin lenullázódásával kapcsolatos Google-keresések száma...

vasárnap 09:28

Az ősi Asgard-mikrobák már oxigénből éltek?

🌍 Már jóval azelőtt, hogy Földünk légkörében elterjedt volna az oxigén, egyes mikrobák valószínűleg már képesek voltak a gáz használatára...

vasárnap 09:01

Az újabb hiba ismét késlelteti az Artemis II Hold-kilövését

🚀 Alig egy nappal azután, hogy a NASA március 6-át jelölte meg az Artemis II holdmisszió indításának céldátumaként, váratlan problémát észleltek a Space Launch System (SLS) rakéta felső fokozatában...

vasárnap 08:47

A mesterséges intelligenciát utánzó termodinamikai számítógép forradalmasíthatja a képgenerálást

A tudósok új számítógépet alkottak, amely képes képeket előállítani pusztán véletlenszerű adatzajból...

vasárnap 08:29

Az új terv: elkapnánk a közelgő üstököst – de gyorsan kell lépni

🚀 A 3I/ATLAS nevű, csillagközi eredetű üstökös feltűnése régóta izgatja a tudósokat, akik egyszerű átrepülés helyett közelről is szeretnék tanulmányozni ezt a különleges objektumot...

vasárnap 08:20

A mesterséges intelligencia etikája ütközik a Pentagon katonai érdekeivel

🤓 A technológiai vállalatok fejlődése gyakran a hatékonyság és a tisztesség határait feszegeti...

vasárnap 07:55

Az USA új arca: MI-hátszéllel tarol a Tech Corps

Több mint 240 000 amerikai önkénteskedett már a Peace Corps révén világszerte, de most új szintre tolták a jószolgálatot: elindul a Tech Corps, vagyis MI-szakértőkből verbuvált különítmény, akik a világ számos országába viszik az amerikai mesterségesintelligencia-tudást...

vasárnap 07:46

Az amerikai MI-hadsereg: a Tech Corps világszerte bevetésre kész

Készüljetek, mert az USA tényleg szintet lépett az MI-versenyben: mostantól saját Tech Corps-tagjait küldi külföldre, akik elképesztő mesterségesintelligencia-tudásukat vetik be a világ minden táján...

vasárnap 07:37

Az óriáspárna, ami szexivé teszi a téli olimpiai ugrásokat

🎅 A 2026-os milánói–cortinai téli olimpia már most sztárparádét ígér: látványos csavarok, pörgések és tripla trükkök, snowboardosok és freestyle síelők előadásában...

vasárnap 07:28

Az élet nyomában: Miranda rejtett óceánja meglepetést tartogathat az Uránuszon

💧 A Naprendszeren belüli élet keresése újabb izgalmas fordulatot vett: most az Uránusz egyik holdja, Miranda került a középpontba...

vasárnap 07:19

Az arcazonosítás sötét oldala: veszélyesebb, mint hinnéd

👀 Érdekes felvetés, hogy a telefonok arcfelismerő vagy ujjlenyomat-azonosító funkciója, amely egykor sci-finek tűnt, mára szinte mindennapossá vált – ugyanakkor komoly kockázatokat is rejt...

APP
vasárnap 07:11

APPok, Amik Ingyenesek MA, 2/22

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Self Timer (iPhone/iPad)Ez az alkalmazás új lehetőséget kínál a csoportképek és szelfik készítésére...

vasárnap 07:11

Az űrrakéta újabb gondja: mégis visszagurul az Artemis II

🚀 Érdemes megérteni, miért kell a NASA-nak az Artemis II rakétát visszagurítania a szerelőcsarnokba...

vasárnap 07:01

A mesterséges intelligencia, amely forradalmasítja a gyógyszerkutatást

Érdemes megérteni, hogy a londoni székhelyű Isomorphic Labs vadonatúj mesterségesintelligencia-rendszert mutatott be, amely alapjaiban formálhatja át a gyógyszerkutatást...