Az MI-modellek egyre inkább ugyanúgy látják a világot

Az MI-modellek egyre inkább ugyanúgy látják a világot
Érdemes megvizsgálni, miként érzékeli és dolgozza fel a valóságot az MI az emberi agyhoz hasonlóan. Az emberek képesek felismerni egy kutyát akkor is, ha az teljesen másfajta vagy más környezetben tűnik fel, mert az agy általános, úgynevezett fogalmi reprezentációkat alkot. A mesterséges intelligencia azonban többnyire egyszerűen adathalmazokból tanul, legyenek azok szövegek, képek vagy egzotikusabb típusú információk. De vajon egy nyelvi MI-modell és egy képfeldolgozó MI-modell hasonlóan ragadja meg a „kutya” fogalmát?

Platón árnyékából az adatok barlangjába

A témában dolgozó kutatók évek óta vizsgálják, hogyan „látja” a világot az MI, vagyis milyen belső reprezentációkat alkot egy-egy jelenetről, mondatról vagy képről. Friss kutatások szerint, függetlenül attól, hogy a különböző modelleket milyen adatokkal – szöveggel, képpel – tanították, meglepően hasonló világképet alakítanak ki magukban. Sőt, a modellek fejlődésével ezek az elvont világleírások egyre inkább közelítenek egymáshoz. Az MIT négy kutatója ezt platóni reprezentációs hipotézisnek nevezte el, utalva az ókori gondolkodó híres barlanghasonlatára: az MI-modellek látszólag szűk rálátással, szinte csak árnyképeken keresztül következtetnek a valóságra, de még így is hasonló eredményre jutnak.

A számok univerzuma – hogyan hasonlítanak a modellek?

Az MI-modellek alapját különböző típusú neurális hálózatok adják, amelyek – Püthagorasz gondolata nyomán – végső soron mindent számsorokkal írnak le. Belső reprezentációik konkrétan számsorokként, vektorokként írhatók le, amelyek a neuronok aktivitását rögzítik. Ha két fogalom vektorai hasonlók, közel állnak egymáshoz az MI „térképén”. Egy adott MI-modellen belül például a „kutya” közelében találhatók a „háziállat”, „ugatás” vagy „szőrös” vektorok.

De mi történik, ha különböző modelleknek ugyanazokat a szavakat vagy képeket adjuk bemenetként? Ilyen esetben nem lehet a vektorokat közvetlenül összehasonlítani, de közvetett módon mérhető, hogy a modellek hasonló rendezettségű csoportokat alakítanak-e ki – vagyis például a „kutya”, „macska” és „farkas” egymás közelében koncentrálódnak mindkét modellben.

Ehhez a kutatók módszeresen sorra veszik a fogalmakat, beadják őket a modelleknek, majd megvizsgálják, mennyire egyeznek a keletkező vektorfelhők – ezt a tudomány „hasonlóság-hasonlóságának” is nevezi. Az eredmények szerint a nagyobb, erősebb modellek mindinkább hasonló belső világképet alkotnak, még akkor is, ha különböző forrásból származó adatokból tanulnak.

Konvergens fejlődés: közelítenek a megoldások

2023-ban, amikor berobbant a ChatGPT, különösen nagy lett az érdeklődés e kérdés iránt. A megfigyelések szerint, ahogy növelik a modellek méretét és a tanítóadatok mennyiségét, úgy lesznek egyre jobbak az MI-rendszerek különböző feladatokban – noha nem egyértelmű, hogy mi áll a háttérben. Egyes kutatók szerint ez egyszerűen csak azt jelzi, hogy az MI egyre jobban megtanulja a tanítóadatok speciális mintázatait. Ha viszont különböző forrásokból táplált modellek is ugyanarra kezdik „leképezni” a világot, az már inkább amellett szól, hogy létezhet valamilyen univerzális háttérstruktúra.

Az MIT kutatói, Huh és munkatársai egyetlen adatbázis – a Wikipédia képaláírással ellátott képei – segítségével öt képfeldolgozó és tizenegy nyelvi modellt teszteltek. Minden egyes kísérlettel nőtt az MI-modellek által létrehozott belső világképek hasonlósága. Ezáltal a platóni reprezentációs hipotézis tovább erősödött.


Nem minden arany, ami hasonlít – az ellentábor érvei

Azonban nem minden kutató osztja ezt a nézetet. A kritikák szerint nagymértékben függ a végeredmény attól, milyen adatokkal tesztelik a modelleket, a vektorok mely rétegeit hasonlítják, illetve mely matematikai módszert választják a csoportok összevetésére. Christopher Wolfram, a Chicagói Egyetem kutatója szerint egy kevésbé egységes vagy szokatlan adatkészlettel könnyen eltérő eredmények születhetnének. A Berkeley-i szakértő, Efros pedig úgy véli, az adathalmaz szerkezete eleve előre meghatározza a hasonlóságot – az életben azonban a képek és szövegek gyakran nem tükrözik egyértelműen ugyanazt a tartalmat.

Ennek ellenére – ha még korlátozott mértékben is – úgy tűnik, a különböző MI-modellek közötti fordítás, illetve a multimodális tanulás (például szöveg és kép egyszerre történő feldolgozása) az egyre hasonlóbb belső ábrázolásoknak köszönhetően fejlődhet.

Nincs egyszerű magyarázat – de előre tör az univerzalitás

Nem egyértelmű, de lehetséges, hogy soha nem születik egyetlen, mindent átfogó elmélet arról, hogyan dolgozza fel az MI a valóságot. Egy több százmilliárd paramétert tartalmazó modell nem szorítható egyszerű sémákba. Mégis, a közelmúlt eredményei azt sugallják, hogy az MI-modellek fejlődésével egyre tisztábban rajzolódik ki egyfajta univerzális, gépi „világtérkép”, amely egyszerre több nézőpontból is képes azonos struktúrát felismerni a valóságban.

2025, adminboss, www.quantamagazine.org alapján

Legfrissebb posztok

MA 20:50

A 2026-os égbolt kihagyhatatlan csodái: az év legszebb égi pillanatai

🌝 2026-ban az ég igazán változatos eseményeket tartogat mindenkinek, akit lenyűgöznek az univerzum csodái...

MA 20:34

Az MI-óriásadatközpontokat hamarosan atomenergia hajtja

⚡ A Meta több jelentős atomenergia-megállapodást kötött, hogy elegendő energiát biztosítson az egyre növekvő MI-adatközpontok számára...

MA 20:18

A fény forradalma: soha nem látott energiát nyerünk a Napból

☀️ Ígéretes áttörés előtt állnak a Trinity College Dublin fizikusai: kutatásaik szerint a fény viselkedésének új értelmezése könnyen forradalmasíthatja, hogy mennyi hasznos energiát tudunk kinyerni a napból, lámpákból vagy akár LED-ekből...

MA 20:01

Az Amazon már a Wegovy-féle fogyókúrás gyógyszert is árulja

Az Amazon Pharmacy digitális gyógyszertár szolgáltatásában már elérhető a Novo Nordisk új fogyókúrás tablettája, a Wegovy...

MA 19:49

A közterületi videózás legális – akkor miért visznek el?

📸 Az utcán készített fotók és videók készítése alapjognak minősül az Egyesült Államokban, akkor is, ha rendőröket vagy más hivatalos személyeket ábrázolnak, miközben szolgálati kötelességüket teljesítik...

MA 19:33

Az illinois-i hacker, aki rettegésben tartja a Snapchat-fiókokat

🔒 Egy 26 éves illinois-i férfi, Kyle Svara közel 600 nő Snapchat-fiókját törte fel, hogy bizalmas fotókat lopjon el, amelyeket aztán online árult...

MA 19:18

Az MI nem elidegenít, hanem emberibbé teszi a lelki ellátást

💫 A mentális egészségügy hosszú ideje a személyes kapcsolatokra, bizalomra és gyógyításra épül...

MA 19:01

A power bank, ami kettéválik, hogy bárkivel megoszthasd

A Nimble új Champ Stack 10K power bankja igazi forradalmi megoldás: kettéválasztható, így két ember egyszerre használhatja, mintha egy KitKat-csokit osztanának meg...

MA 18:49

Az Andreessen Horowitz tarol, soha nem látott rekorddal

🥇 Az Andreessen Horowitz 5,4 ezermilliárd forintot (15 milliárd dollárt) vont be, ezzel minden eddiginél nagyobb hangsúlyt fektet az amerikai infrastruktúrára, egészségügyre, védelmi iparra és a saját megfogalmazásuk szerinti American Dynamism-re...

MA 18:34

A gigantikus napfolt rekordot dönt: ezernyi kitörés, titokzatos napvihar

Az áprilisban feltűnt hatalmas napfolt, az AR 13664, extrém geomágneses vihart okozott a Földön 2024 májusában...

MA 18:17

A Tether 50 millió dollárral száll be a Ledn-üzletbe

A Tether, a világ legismertebb dollárhoz kötött stabilcoinját (USDT-t) kibocsátó cég tavaly novemberben titokban 40–50 millió dollárt (kb...

MA 17:51

A fizetős fal sem állítja meg a Grok deepfake-özönt az X-en

📸 Elon Musk közösségi oldala, az X, részlegesen korlátozta a Grok MI-képszerkesztési képességeit, mivel egyre nagyobb felháborodás övezi a platformon készülő szexuális jellegű, beleegyezés nélküli deepfake-ek terjedését felnőttekről és kiskorúakról egyaránt...

MA 16:52

A techforradalom a póráz végén: a legjobb kütyük kedvenceknek

Az ügy súlyát mutatja, hogy az állattartók egyre gyakrabban fordulnak az okoseszközök felé, hogy még jobb ellátást, kényelmet és biztonságot nyújtsanak házi kedvenceiknek...

MA 16:34

Az ezeréves chilei múmia rejtélye: halál a türkizbányában

🏛 Egy 1100 éves, természetesen mumifikálódott férfi maradványai meglepő részleteket tártak fel a chilei El Salvador városka közelében...

MA 16:18

A LEGO, ami okos, mégis láthatatlan: itt a Smart Play

🤓 Felmerül a kérdés, hogy észreveszik-e a gyerekek a technológiát, ha az valóban tökéletesen belesimul az élménybe...

MA 16:03

Az amerikai munkaerőpiac és a vámháború megrengetheti a kriptopiacot

📈 A pénteki nap eseményei könnyen felforgathatják mind a bitcoin, mind a szélesebb kriptopiac árfolyamait...

MA 15:49

Az új-zélandi kakapó végre újra költ

Új-Zéland világszerte egyedülálló, súlyosan veszélyeztetett röpképtelen papagája, a kakapó, négy év után újra költésbe kezdett...

MA 15:35

A humanoid robotok uralták Las Vegast – a sci-fi valóság

Las Vegasban idén a jövő már most láthatóvá vált, amikor az éves CES kiállításon a technológiai cégek bemutatták, hogyan képzelik el az MI-vezérelt fizikai világot...

MA 15:18

Az olcsó akkumulátorok forradalma most robban be?

⚡ Érdemes megvizsgálni, hogy a dél-koreai tudósok újítása révén az eddig drágának tartott szilárdtest-akkumulátorok sorsa gyökeresen megváltozhat...