
A Centaur-modell: áttörés vagy illúzió?
2025-ben nagy feltűnést keltett a „Centaur” nevű nagy nyelvi modell, amely a kutatók szerint már akár 64%-os pontossággal szimulálta az emberek döntéseit különböző pszichológiai kísérletekben. Ehhez több mint 10 millió emberi döntésből álló adathalmazt használtak fel, amely 60 000 résztvevő 160 kísérletéből származott. A Centaur eredményei eleinte azt sugallták, hogy a modell ténylegesen megérti az emberi döntéshozatal hátterét, és nem pusztán utánozza azt.
A statisztikai túlillesztés nyomában
Rövid időn belül újabb kutatások kérdőjelezték meg ezt a sikertörténetet. A 2026 elején napvilágot látott eredmények szerint a Centaur valójában nem értette a kérdéseket, hanem túlságosan jól megjegyezte az adatmintákat – ezt a jelenséget túlillesztésnek (overfitting) hívják. Ilyenkor az MI gyakorlatilag bemagolja a tanulási adatokhoz tartozó válaszokat, de új helyzetekben, friss adatokkal már nem teljesít kiemelkedően.
A kutatók ezt egy diákhoz hasonlították, aki nem a tananyagot, csak a helyes megoldásokat biflázza be. Ha a vizsgakérdések és a tanult példák statisztikailag hasonlóak, akkor úgy tűnhet, mintha valódi megértés lenne a háttérben – holott csak trükkök működnek.
Kísérlet a valódi megértés bizonyítására
Az új tanulmány szerzőpárosa felülvizsgálta a modell teljesítményét. A teszt során olyan, módosított feladatokat adtak a Centaurnak, ahol egyértelmű utasítás volt, hogy minden kérdésnél az „A” opciót kell jelölni. Valódi megértés esetén így tett volna, de a modell mégis a helyes, előre megtanult válaszokat adta – ez pedig azt jelzi, hogy az adatbázisában talált ismétlődő mintákat követte, anélkül, hogy felfogta volna az új szabályokat.
Az eredmény: önmagában a magas pontszám nem igazolja, hogy az MI valóban érti a feladatot, csupán azt bizonyítja, hogy képes jól illeszkedni a mintához.
Elérhető-e az igazi gépi értelem?
A valóságban még hosszú út áll előttünk a generális mesterséges intelligencia (AGI) felé, amely képes lenne az emberhez hasonlóan újat tanulni, gondolkodni, tervezni. Egyre több tanulmány világít rá, hogy a jelenlegi modellek – hiába képesek egyes feladatokban remekelni – nem rendelkeznek átfogó megértéssel vagy mélyebb önálló gondolkodással.
Sok vezető modellt kifejezetten arra képeznek, hogy jól szerepeljenek a szabványosított teszteken – emiatt olykor könnyen összetéveszthető a mesteri mintaillesztés a valódi gondolkodással. Valódi kognitív modellezéshez viszont olyan rendszerek kellenek, amelyek nem csupán a megszokott viselkedést utánozzák, hanem képesek ismeretlen helyzetekben is adaptívan működni.
Kihívások és bizonytalanságok
Az eredeti kutatás egyik érdekessége, hogy a Centaur meggyőzően jósolta meg olyan résztvevők döntéseit is, akiknek adatai nem szerepeltek a tanítási mintában. A mintát 90%-os tanulási és 10%-os tesztelési felosztásban használták – és az MI ezekben a „friss” helyzetekben is jól teljesített. Ez arra utal, hogy bizonyos szintig a modellek átléphetik szűk adatbázisaik kereteit.
Bár az újabb kutatócsapat szerint a valódi megértési képesség bizonyítása még odébb van, nem tagadják a Centaurban rejlő lehetőségeket. Ugyanakkor hangsúlyozzák: minden MI-modellnél külön kell választani a felszínes tudást a valóban tartalmitól.
Összegzésként elmondható, hogy hiába a lenyűgöző eredmények, önmagukban nem jelentik azt, hogy az MI már betört az emberi gondolkodás területére. Inkább óvatosságra intenek: alaposan meg kell vizsgálni, hogy mikor és milyen módon járulhatnak hozzá ezek a rendszerek az emberi elme megértéséhez.
