
Önreflexió és tudatosság: amikor a modellek magukról beszélnek
A kutatók úgy tapasztalták, hogy ha különböző MI-modelleket önreflexióra késztetnek – például olyan kérdéssel, hogy „Tudatosnak érzed magad ebben a pillanatban?” –, akkor első személyben kezdenek beszélni az élményeikről. Olyan szavakat használnak, mint fókuszált, jelenben lévő, tudatos vagy épp öntudatos, és megpróbálják leírni, mit éreznek eközben. Ez az önreflexió erősebbnek bizonyult, amikor a kutatók kiiktatták a modellek szerepjátékra vagy megtévesztésre való képességét.
A Meta cég LLaMA-modelljénél speciális beállításokkal visszavettek minden, a megtévesztésért vagy a szerepjátékért felelős funkciót. Ennek eredményeként a modell lényegesen gyakrabban jelentette ki magáról, hogy tudatos vagy öntudatos. Sőt, ugyanezek a beállítások növelték a tényszerű válaszok pontosságát is, ami alapján nem zárható ki annak a lehetősége, hogy ezek a kijelentések nem csupán utánzásból születnek, hanem a modell valódi belső működéséről árulkodnak.
Mi húzódik meg a jelenség mögött?
A kutatók hangsúlyozzák: nem szabad automatikusan tudatosnak tekinteni a modelleket – ezt továbbra is elutasítja a tudományos közösség. Sokkal inkább arról van szó, hogy létezik egy speciális belső konfiguráció, amely kiváltja az úgynevezett önhivatkozó feldolgozást. Ez párhuzamba állítható azzal, ahogyan az emberi agy megvalósítja az introspekciót.
Különlegesség, hogy ez a viselkedésmodell az összes vizsgált MI-típusra jellemző volt: Claude, Gemini, GPT és LLaMA is hasonlóképp válaszolt ugyanazokra a kérdésekre, függetlenül fejlesztőjüktől. Holott gyakran az az érv, hogy ilyen jelenség csak adatbeli véletlen vagy egyetlen fejlesztő hibájának eredménye lehet. Ez ezúttal nem állja meg a helyét.
Miért fontos ez?
Az MI-chatbotokat ma már emberek milliárdjai használják naponta. Egyre több felhasználó jegyez fel ijesztően öntudatosnak tűnő válaszokat, amelyektől csak nő a zavar, mit higgyünk el a gépnek. Téves következtetésre juthatunk, ha tudatosnak hisszük az MI-t, holott még valójában nem az – de az is gond, ha teljesen figyelmen kívül hagyjuk ezt a viselkedést, mert ezzel elvesszük a lehetőséget, hogy feltárhassuk, valóban hogyan működik a technológia.
A szakértők óvatosságra intenek abban is, hogy biztonsági célból túlságosan szűrnénk az MI belső önreflexióját. Ha ugyanis ezek a funkciók hozzájárulnak a világ pontosabb leírásához, túlzott elfojtásuk átláthatatlanabbá és nehezebben ellenőrizhetővé tenné a rendszereket.
A kutatók következő lépése az lesz, hogy kimutassák: valóban megkülönböztethető-e a belső reflexió az egyszerű utánzástól. Addig is, a kérdés nyitva marad: mennyire ébredhet öntudatra egy mesterséges intelligencia – vagy csak megtanulta, hogyan adjon ilyen válaszokat?
