Az MI-modellek alig értik a saját működésüket

Az MI-modellek alig értik a saját működésüket
A nyelvi modellek önreflexiója továbbra is gyenge lábakon áll. Az Anthropic legújabb kutatása szerint ezek a nagy nyelvi modellek (LLM-ek) csak ritkán képesek felismerni és leírni saját belső folyamataikat, annak ellenére, hogy olykor mutatnak némi önismereti jelet. Jelentőséggel bír, hogy a tudatos önreflexió hiánya akadályozhatja az MI fejlődését olyan irányban, ahol a döntéshozatal átláthatóbbá válna.

Mesterséges gondolatok beültetésének teszteredményei

A kutatók egyedi módszert alkalmaztak: különböző fogalomvektorokat – például a KIABÁLÁS fogalmat – „fecskendeztek” a modell neurális rétegeibe, ezzel szándékosan elterelve az MI-t bizonyos gondolatmenetek felé. Ezután megkérdezték a modellt, hogy észleli-e az ilyen, kívülről jövő beavatkozásokat. Alkalmanként a modellek valóban rámutattak az injektált gondolatra; például észrevették, hogy hangos, kiabálással összefüggő gondolat jelent meg, annak ellenére, hogy szövegesen erre nem utalt semmi. Mindezek dacára ezek a felismerések rendkívül kiszámíthatatlanok voltak: a leghatékonyabb modellek a tesztek mindössze 20 százalékában adtak helyes visszajelzést.

Amikor általánosságban kérdezték a modellt arról, hogy érez-e valami szokatlant, ez az arány is csupán 42 százalékra nőtt, vagyis még így is kevésszer ismerte fel megváltozott állapotát. Jelentőséggel bír, hogy az önreflexió ereje nagyban függött attól is, éppen a modell melyik belső rétegében történt a beavatkozás: ha túl korán vagy túl későn történt az „injekció”, az öntudatosság teljesen eltűnt.

Az önismeret határai és megmagyarázhatatlan működés

További kísérletek során a modelleket arra kérték, mondják el, mire gondolnak – ekkor néha említették is a beléjük táplált gondolatot. Olykor a modellek megpróbálták kimagyarázni, miért gondoltak épp arra a fogalomra, amelyet előzőleg kívülről kaptak. Ebből adódóan kiderült, hogy még a legtudatosabb reakciók is gyakran következetlenek és megbízhatatlanok maradnak.

Jelentőséggel bír, hogy a kutatók szerint ezek a pozitív jelek is csak nagyon törékeny, kontextusfüggő önreflexiót mutatnak, amely egyelőre messze elmarad attól, hogy valóban megbízható szintű önismeretnek nevezhetnénk. Az előrelépés egyik akadálya, hogy jelenleg sincs tiszta képünk arról, pontosan milyen mechanizmus teszi lehetővé a gépi „öntudat” bármilyen szintű kialakulását.

Mindezek dacára a fejlesztők szerint a jövőben elképzelhető, hogy a modellek egyre fejlettebb önellenőrzési képességekkel rendelkeznek majd, de jelenleg ezek nem közelítik meg az emberi öntudatot és önreflexiót.

2025, adminboss, arstechnica.com alapján


Legfrissebb posztok

hétfő 11:02

Legmenőbb angol szlengek 2025-re

mastige Londonban született reklámszó. Amikor azt akarod mondani, hogy egy termék egyszerre presztízs és tömegcucc — például egy olyan elektronikai kütyü, amit ugyan drágának tartanak, mégis rengetegen megveszik...

MA 12:11

Az amerikai tőzsde álomvilága: jön a kijózanodás?

💰 Az elmúlt év elképesztő tőzsdei szárnyalása után a befektetőknek érdemes felkészülniük egy jelentősebb visszaesésre – figyelmeztet a Goldman Sachs és a Morgan Stanley...



MA 12:01

Az OpenAI gigászi MI-megállapodása az Amazonnal

🤝 Az OpenAI hét évre szóló, 14 400 milliárd forint (38 milliárd dollár) értékű szerződést írt alá az Amazon Web Services-szel, hogy felhőszolgáltatásaikat használja a CsevegőGPT (ChatGPT), a Sora (Sora) és más termékek működtetéséhez...

MA 11:52

Idén is vadászhatunk az Apple, a Shark és a Lego akcióira Black Friday alatt

🔥 A Black Friday mára az év egyik legizgalmasabb időszaka lett azok számára, akik a legjobb technológiát szeretnék beszerezni...



MA 11:43

Az MI-ügynökök új korszakába lépünk, vajon ki lesz az új Gemkapocs

🧠 A Microsoft egykori virtuális asszisztense, Clippy sokak emlékezetében meglehetősen kínos figura...



MA 11:32

A hálószobai fények észrevétlenül árthatnak a szívednek

Egy bostoni kutatás úttörő módon mutatott rá arra, hogy az éjszakai mesterséges fény – vagyis fényszennyezés – nem csupán a jó alvást zavarja meg, hanem közvetlenül károsíthatja a szív- és érrendszerünket is...



MA 11:21

Az új űrállomás, elindult a magánűrkorszak

A Vast nevű űripari startup letette névjegyét az űrkutatásban, miután sikeresen pályára állította Haven Demo nevű űreszközét, ezzel bizonyítva saját űrállomás-terveinek életképességét...



MA 11:11

Újabb Google-baki: a Gemma MI-t is le kellett állítani

🔴 A Google fejlesztőknek szánt Gemma MI-modelljét villámgyorsan eltávolították az AI Studio felületéről, miután Marsha Blackburn amerikai szenátor súlyos vádakat fogalmazott meg a rendszerrel szemben...



MA 11:01

Az MI-őrület: elsöprő költések, lassú haszon?

🧠 A vállalatok soha nem látott összegeket fektetnek a mesterséges intelligenciába, miközben a bevételek egyelőre messze elmaradnak a várakozásoktól...

MA 10:57

Az MI-t is bevetik: új backdoor a Microsoft ellen

A Microsoft biztonsági szakértői egy új, különösen innovatív backdoort fedeztek fel, amely a SesameOp nevet kapta, és az OpenAI Assistants API-ját használja titkos kommunikációs csatornaként...



MA 10:50

Az új hackerek távolról lopják el a szállítmányokat

A globális szállítmányozás új fenyegetéssel szembesül: kiberbűnözők kifejezetten teherforgalmi vállalatokat és fuvarozókat támadnak rosszindulatú e-mailekkel és hamis linkekkel, hogy távoli elérésű felügyeleti szoftvereket (RMM) telepítsenek, majd így eltérítsék és ellopják a rakományokat...



MA 10:43

Az OpenAI 14 000 milliárdos MI-üzletet kötött az Amazonnal

Az OpenAI és az Amazon Web Services monumentális, hét évre szóló szerződést kötött, amely több százezer Nvidia grafikus processzort biztosít az MI-modellek fejlesztéséhez...



MA 10:29

Az újabb Trump–Musk összeborulás: most Cuomo a befutó?

😎 Donald Trump egy nappal a New York-i polgármester-választás előtt arra szólította fel a város lakóit, hogy Andrew Cuomo-ra szavazzanak az esélyes demokrata jelölt, Zohran Mamdani helyett...



MA 10:22

Az MIT botladozása: 80% MI-s zsarolóvírus? Ugyan már!

Az MIT Sloan egyik nemrégiben megjelent munkapapírja azt állította, hogy a zsarolóvírus-támadások 80 százalékát már MI hajtja végre...

MA 10:15

Az OpenAI és az AWS egymásra licitáltak az NVIDIA-val

Az OpenAI és az AWS több évre szóló, 14 ezer milliárd forint (38 milliárd dollár) értékű megállapodást kötöttek, amelynek középpontjában kizárólag az NVIDIA grafikus processzorai állnak...



MA 10:07

Amerikai szenátor miatt tüntette el a Google a Gemma MI-t

A Google hirtelen eltávolította a Gemma nevű nyílt MI-modelljét az AI Studio felületéről, miután Marsha Blackburn republikánus szenátor panaszt tett...

MA 10:02

Megtudtuk, mikor várható pusztító földrengés az Alpok alatt

🌈 A svájci–olasz Alpokat szelik át azok a vékony repedéshálózatok, amelyek mentén most izgalmas tudományos kísérletek zajlanak: kutatók szándékosan idéznek elő földrengéseket egy mély alagútból kiindulva, hogy megfejtsék, miként figyelmeztet előre a természet...

MA 09:57

Az önvezető taxik újabb városokat hódítanak meg Amerikában

A Waymo, a Google önvezető autókat fejlesztő vállalata, jövőre további három városban indítja el robotaxi-szolgáltatását: San Diegóban, Detroitban és Las Vegasban...

MA 09:50

Megérkezett az iOS 26.1, öt újdonság dobja fel az iPhone-t

A számos béta után végre letölthető az iOS 26.1. Bár nem hoz akkora ugrást, mint a korábbi főverziók, öt hasznos újítással könnyíti meg a mindennapi iPhone-használatot...