Az MI-modellek egyre inkább ugyanúgy látják a világot

Az MI-modellek egyre inkább ugyanúgy látják a világot
Érdemes megvizsgálni, miként érzékeli és dolgozza fel a valóságot az MI az emberi agyhoz hasonlóan. Az emberek képesek felismerni egy kutyát akkor is, ha az teljesen másfajta vagy más környezetben tűnik fel, mert az agy általános, úgynevezett fogalmi reprezentációkat alkot. A mesterséges intelligencia azonban többnyire egyszerűen adathalmazokból tanul, legyenek azok szövegek, képek vagy egzotikusabb típusú információk. De vajon egy nyelvi MI-modell és egy képfeldolgozó MI-modell hasonlóan ragadja meg a „kutya” fogalmát?

Platón árnyékából az adatok barlangjába

A témában dolgozó kutatók évek óta vizsgálják, hogyan „látja” a világot az MI, vagyis milyen belső reprezentációkat alkot egy-egy jelenetről, mondatról vagy képről. Friss kutatások szerint, függetlenül attól, hogy a különböző modelleket milyen adatokkal – szöveggel, képpel – tanították, meglepően hasonló világképet alakítanak ki magukban. Sőt, a modellek fejlődésével ezek az elvont világleírások egyre inkább közelítenek egymáshoz. Az MIT négy kutatója ezt platóni reprezentációs hipotézisnek nevezte el, utalva az ókori gondolkodó híres barlanghasonlatára: az MI-modellek látszólag szűk rálátással, szinte csak árnyképeken keresztül következtetnek a valóságra, de még így is hasonló eredményre jutnak.

A számok univerzuma – hogyan hasonlítanak a modellek?

Az MI-modellek alapját különböző típusú neurális hálózatok adják, amelyek – Püthagorasz gondolata nyomán – végső soron mindent számsorokkal írnak le. Belső reprezentációik konkrétan számsorokként, vektorokként írhatók le, amelyek a neuronok aktivitását rögzítik. Ha két fogalom vektorai hasonlók, közel állnak egymáshoz az MI „térképén”. Egy adott MI-modellen belül például a „kutya” közelében találhatók a „háziállat”, „ugatás” vagy „szőrös” vektorok.

De mi történik, ha különböző modelleknek ugyanazokat a szavakat vagy képeket adjuk bemenetként? Ilyen esetben nem lehet a vektorokat közvetlenül összehasonlítani, de közvetett módon mérhető, hogy a modellek hasonló rendezettségű csoportokat alakítanak-e ki – vagyis például a „kutya”, „macska” és „farkas” egymás közelében koncentrálódnak mindkét modellben.

Ehhez a kutatók módszeresen sorra veszik a fogalmakat, beadják őket a modelleknek, majd megvizsgálják, mennyire egyeznek a keletkező vektorfelhők – ezt a tudomány „hasonlóság-hasonlóságának” is nevezi. Az eredmények szerint a nagyobb, erősebb modellek mindinkább hasonló belső világképet alkotnak, még akkor is, ha különböző forrásból származó adatokból tanulnak.

Konvergens fejlődés: közelítenek a megoldások

2023-ban, amikor berobbant a ChatGPT, különösen nagy lett az érdeklődés e kérdés iránt. A megfigyelések szerint, ahogy növelik a modellek méretét és a tanítóadatok mennyiségét, úgy lesznek egyre jobbak az MI-rendszerek különböző feladatokban – noha nem egyértelmű, hogy mi áll a háttérben. Egyes kutatók szerint ez egyszerűen csak azt jelzi, hogy az MI egyre jobban megtanulja a tanítóadatok speciális mintázatait. Ha viszont különböző forrásokból táplált modellek is ugyanarra kezdik „leképezni” a világot, az már inkább amellett szól, hogy létezhet valamilyen univerzális háttérstruktúra.

Az MIT kutatói, Huh és munkatársai egyetlen adatbázis – a Wikipédia képaláírással ellátott képei – segítségével öt képfeldolgozó és tizenegy nyelvi modellt teszteltek. Minden egyes kísérlettel nőtt az MI-modellek által létrehozott belső világképek hasonlósága. Ezáltal a platóni reprezentációs hipotézis tovább erősödött.


Nem minden arany, ami hasonlít – az ellentábor érvei

Azonban nem minden kutató osztja ezt a nézetet. A kritikák szerint nagymértékben függ a végeredmény attól, milyen adatokkal tesztelik a modelleket, a vektorok mely rétegeit hasonlítják, illetve mely matematikai módszert választják a csoportok összevetésére. Christopher Wolfram, a Chicagói Egyetem kutatója szerint egy kevésbé egységes vagy szokatlan adatkészlettel könnyen eltérő eredmények születhetnének. A Berkeley-i szakértő, Efros pedig úgy véli, az adathalmaz szerkezete eleve előre meghatározza a hasonlóságot – az életben azonban a képek és szövegek gyakran nem tükrözik egyértelműen ugyanazt a tartalmat.

Ennek ellenére – ha még korlátozott mértékben is – úgy tűnik, a különböző MI-modellek közötti fordítás, illetve a multimodális tanulás (például szöveg és kép egyszerre történő feldolgozása) az egyre hasonlóbb belső ábrázolásoknak köszönhetően fejlődhet.

Nincs egyszerű magyarázat – de előre tör az univerzalitás

Nem egyértelmű, de lehetséges, hogy soha nem születik egyetlen, mindent átfogó elmélet arról, hogyan dolgozza fel az MI a valóságot. Egy több százmilliárd paramétert tartalmazó modell nem szorítható egyszerű sémákba. Mégis, a közelmúlt eredményei azt sugallják, hogy az MI-modellek fejlődésével egyre tisztábban rajzolódik ki egyfajta univerzális, gépi „világtérkép”, amely egyszerre több nézőpontból is képes azonos struktúrát felismerni a valóságban.

2025, adminboss, www.quantamagazine.org alapján

Legfrissebb posztok

MA 12:18

Az ISS-en kitört egészségügyi vészhelyzet felborítja a NASA terveit

A NASA váratlanul lemondta a Nemzetközi Űrállomás (ISS) egyik űrsétáját, miután az egyik űrhajósnál egészségügyi problémák jelentkeztek...

MA 12:02

Az óceánok forrnak: történelmi melegrekord dőlt meg

2025-ben az óceánok rekordmennyiségű hőt nyeltek el világszerte, ami újabb lökést adott a tengerszint emelkedésének, a heves viharok kialakulásának és a korallzátonyok pusztulásának...

MA 11:50

Az MI már belelát a kórlapodba – tényleg segít?

🔬 Érdemes megvizsgálni, hogy mennyire kerülhet közel az MI a hétköznapi egészségügyhöz...

MA 11:01

Az új Gmail MI összefoglalja a leveleidet, mégsem kémkedik utánad

📧 A Google forradalmi újítást vezet be a Gmailben: megérkezett az MI-postaláda, amely a Gemini segítségével automatikusan összegzi a beérkező e-maileket...

MA 10:51

A Dolby Atmos az autókban is hódít: itt a Pioneer Sphera

Az autóban történő zenehallgatás új szintre lép: a Pioneer Sphera rendszerével immár nemcsak luxusmodellekben, hanem szinte bármelyik járműben élvezhető a Dolby Atmos hangzásvilág...

MA 10:36

A régi Galaxyokra is megérkeznek a Google Play-frissítések, de van csavar

Az elmúlt időszakban több Galaxy-felhasználó panaszkodott arra, hogy készülékükön régóta nem jelentek meg Google Play rendszerfrissítések, és a telefonon elérhető legújabb frissítés is jóval elavultabb volt a kelleténél...

MA 10:22

Az észak-koreai hekkerek veszélyes QR-kódokkal támadják Amerikát

🔑 Észak-koreai állami hekkercsoport, a Kimsuky új módszerrel veszi célba az Egyesült Államokban működő szervezeteket: csaló QR-kódokat használ úgynevezett célzott adathalász-kampányokban...

MA 10:16

Az Amazon MI‑asszisztense titokban vásárol helyetted

🛒 Érdekes kérdés, hogy az Amazon legújabb, MI-vezérelt kísérlete, a Buy for Me (Vásárolj helyettem) funkció miként borzolja a kedélyeket a kisvállalkozók körében...

MA 10:01

A január Amerikában nyár lett: sorra dőlnek a rekordok

🌞 Az Egyesült Államok déli és keleti részeire erős magasnyomású légtömeg hozott soha nem látott januári meleget...

MA 09:57

Az új YouTube-trükk, amivel végre eltűnnek a zavaró Shortsok

Végre könnyebben szűrhetők a YouTube-keresések: mostantól ki lehet kapcsolni a Shorts-videókat, így aki csak hosszú formátumú videókra kíváncsi, nem kell tovább a TikTok-ízű tartalmak között bolyongania...

MA 09:51

A világegyetem legnagyobb rejtélye: tényleg küszöbön a megoldás?

🧠 A tudomány jelenleg úgy gondolja, hogy az univerzum közel 95%-át sötét anyag és sötét energia alkotja, miközben az anyag mindössze 5%-át látjuk, tapintjuk, használjuk nap mint nap...

MA 09:29

Az optimizmusnak vége: menekül a pénz a Bitcoin ETF-ekből

📈 Az év elején a Bitcoin ETF-ek még rekordösszegeket vonzottak, mindössze két nap alatt közel 400 milliárd forintnyi (több mint 1 milliárd dollár) friss tőke áramlott a piacra...

MA 09:22

Valóban lehallgatnak minket az okos kutyák?

A legtöbb gazdi tudja, hogy a kutyája néhány szót gond nélkül felismer: például a „séta” vagy a „vacsora” szót – szinte minden kutyánál biztos találat...

MA 09:14

Az álcázás jövője: polipbőr készül a laborban

A Stanford Egyetem kutatói elképesztő áttörést értek el: programozható, mesterséges bőrt alkottak, amely az álcázás világbajnokainak, a polipoknak a képességeit utánozza...

MA 09:09

Az MI-forradalom berobban: a CES 2026 legizgalmasabb újdonságai

🚀 Las Vegasban idén is dübörög a CES, ahol a világ legnagyobb techcégei mutatták be legújabb fejlesztéseiket...

MA 09:02

A halaknál az ovuláció és a vágy titkos összjátéka

🐟 A medaka hal, más néven japán rizshal, régi ismerős az akvaristák és a biológusok körében...

MA 08:57

A Cyera, az adatbiztonság sztárja, újabb brutális befektetést zsebel be

A New York-i Cyera nevű adatbiztonsági startup újabb elképesztő sikert ért el: mindössze hat hónap alatt az értéke 6 milliárd dollárról majdnem 3300 milliárd forintra, vagyis 9 milliárd dollárra nőtt...

MA 08:50

Az új YouTube-beállítással végre száműzheted a Shortsokat a keresésből

🔍 Végre fellélegezhetnek azok, akik hosszabb YouTube-videókat keresnek, de a legfrissebb keresési eredmények között állandóan rövid Shorts-videókkal találkoznak...

MA 08:44

Az Oli humanoid robot tánca meghódította az internetet

Az Egyesült Államokban, egy üres hotelszobában mutatkozott be az Oli humanoid robot, amelyet a LimX Dynamics fejlesztett...