Az emberi gondolkodás áll az MI-forradalom útjában?

Többek között az utóbbi évek mesterséges intelligencia (MI) hullámai mögött álló nagy nyelvi modellek (LLM-ek) néhány ponton messze elmaradnak az emberi logikai gondolkodás szintjétől. Bár a ChatGPT, a Claude vagy a Google Gemini képesek meggyőzően összefűzni szavakat, és látszólag összetett kérdésekre is reagálnak, az eddigi kutatások szerint mindez nem több puszta trükknél: valódi értelem híján hajlamosak logikai hibákra, amikor túl nagy vagy összetett feladatot kapnak.

Mi akadályozza az MI-t?

Az ilyen rendszerek évek óta ugyanazzal az alapvető architektúrával, a transzformerhálózatokkal működnek. Ezek lehetővé teszik, hogy a modellek hihetetlen mennyiségű szöveget dolgozzanak fel ésszerű következtetésekkel, de az információt lépésről lépésre haladva kezelik. Az emberi gondolkodás ezzel szemben képes hosszabb távú tervezésre, összetett, több tényezőt figyelembe vevő problémák megoldására, amire az MI-k önállóan képtelenek. Ilyen helyzetekben az LLM-ek gyakran elveszítik a fonalat, megfeledkeznek kulcsfontosságú tényekről, vagy csak a tanult mintákat ismétlik – végső soron hibás válaszokat adnak.

Sőt, ezek az úgynevezett „gondolkodási hibák” olyan egyszerű helyzetekben is előfordulnak, amikor többszintű tervezésre, több adatforrás összevetésére vagy korábban elhangzott információk folyamatos figyelésére van szükség. Mindhiába minden modern MI „self-attention” mechanizmusa, amely hosszú szövegek során is képes rögzíteni a szavak közötti kapcsolatokat: az algoritmus végső soron csak egy szavankénti jóslás, nem pedig valódi, értelmes következtetés.

Miért trükkös a gépi „gondolkodás”?

Habár sok feladatnál eredményes lehet, ha a felhasználó felszólítja az MI-t, hogy „gondolkodjon lépésről lépésre”, valójában ez csupán a válasz folyamatát imitálja – így az MI magabiztosabb, de nem lesz valóban, emberi értelemben okosabb. Ilyenkor sem zajlik valódi logikai érvelés, hanem a gép csak azt tanulta meg, hogy mit szoktunk ezekre a helyzetekre válaszolni: a „gondolatmenet” (chain-of-thought) trükk tehát csak látszólagos gondolkodás.

Az is gyakori, hogy az MI ismétli önmagát, vagy ugyanarra a kérdésre máshogyan válaszol, csak mert másképp tették fel, illetve akár többször is hibázik ugyanabban a problémában.

Félrevezető tesztek és kiskapuk

A jelenlegi benchmarkok, amelyeket az MI-k képességeinek mérésére alkalmaznak, három fő ponton félrevezetők: az eredmények erősen függenek a kérdés megfogalmazásától, a tesztek újra és újra felhasználásával a modellek megtanulják a jó válaszokat, és végül ezek csak a választ mérik, magát a gondolkodási folyamatot nem. Emiatt gyakran túlértékelik az MI tudását, alábecsülik a hibaszázalékot, különösen a való életben.

Miután a modelleket élesben kezdik alkalmazni, ezek a felhasználások maguk is tesztként működnek, tovább torzítva az eredményeket. Ráadásul a benchmarkok visszaszivárognak a képzési adatokba, így a jövőbeni generációk ezt a visszacsatolást kihasználhatják.

Nincs egyszerű megoldás AGI-ra

Nemcsak a skálázásra vagy az adathalmazok bővítésére van szükség: ha valóban emberi szintű általános mesterséges intelligenciát akarunk, új szemléletmód, új architektúra, nagyobb robusztusság és a világ működésének jobban strukturált modellezése szükséges. A neurális hálózatok és a jelenlegi nagy nyelvi modellek csak az AGI egy részét jelentik – egy digitális elme felépítéséhez ezek önmagukban nem elégségesek.

Mindezt figyelembe véve a jelenlegi MI-k csak szöveget modelleznek rendkívül profin; bár olykor nehéz eldönteni, hogy ember vagy gép adta-e a választ, ennél többet nem tudnak. Emberi szintű gondolkodásra új ötletek, új modellek kellenek.

2026, adminboss, www.livescience.com alapján