Mesterséges intelligencia, amely már képes meglepődni a világon

Mesterséges intelligencia, amely már képes meglepődni a világon
Az emberek már csecsemőkorukban felismerik, ha valami ellentmond a fizikai törvényeknek: például egy tárgy, amely hirtelen eltűnik, vagy szilárd testeken halad át, meglepetést okoz. Ezt a képességet, az ún. fizikai intuíciót már néhány modern MI-rendszer is kezdi elsajátítani. A Meta kutatói legújabb, Video Joint Embedding Predictive Architecture (V-JEPA) nevű modelljük segítségével azt vizsgálták, hogyan képes egy MI videók tanulmányozásán keresztül tanulni a világról, sőt – úgymond – „meglepődni” azon, ha valami szembe megy az addig tapasztalt világismeretével.

Absztrakciók szintjén gondolkodik a gép

Az önvezető autók fejlesztői jól tudják, mennyire nehéz egy MI-nek megbízhatóan értelmezni a környezetet. A hagyományos megközelítések, amelyek pixelről pixelre vizsgálják a képeket, gyakran elvesznek a részletekben: például túlságosan fókuszálhatnak a lombkorona mozgására, miközben figyelmen kívül hagyják a valóban fontos információkat, mint például a lámpa színét vagy az autók helyzetét.

Lényeges szempont, hogy a V-JEPA architektúra 2024-ben éppen azért készült, hogy ezt a problémát megoldja. Ahelyett, hogy minden egyes pixelt azonos súllyal kezelne, a rendszer magasabb szintű, úgynevezett látens (rejtett) reprezentációkat hoz létre, amelyekben már csak a lényegi információk maradnak meg. Így például egy henger vonalas ábrázolásából a rendszer csak a magasságot, szélességet, tájolást és helyzetet jegyzi fel számok formájában, nem az egész képet másolja le.

Így működik a V-JEPA rendszer

A V-JEPA három fő komponensből áll: két kódolóból (1-es és 2-es) és egy előrejelzőből. A rendszer a videók egyes képkockáin mindig ugyanazt a pixelkészletet maszkolja, és az így „kitakart” képeket először az 1-es kódoló dolgozza fel, létrehozva a látens reprezentációkat. A teljes, maszkolatlan képeket közben a 2-es kódoló értelmezi hasonló módon. Ezután az előrejelző a maszkolt képekből készült látens reprezentációk alapján megpróbálja megjósolni, mit „gondolt” volna a rendszer a teljes képek esetén.

Ezzel a módszerrel a rendszer olyan sémát tanul ki, amely csak a legszükségesebb információkat tartalmazza az adott feladathoz. Ennek köszönhetően, amikor konkrét célhoz, például akciófelismeréshez vagy jelenetazonosításhoz kell igazítani, már jóval kevesebb ember által címkézett adat szükséges, mintha az elejétől végig kellene megtanítani a rendszert az adott célfeladatra. Ráadásul az alap architektúrát különböző feladatokra is adaptálni lehet.

Az MI már meg tud lepődni

2024 februárjában tesztelték, mennyi „intuitív fizikai tudása” van a modellnek. A teszten, amelyen a videókban bemutatott események fizikai valószínűségét kellett felismerni (például egy tárgy eltűnik-e, amikor elhalad mögötte egy másik), a V-JEPA közel 98%-os pontosságot ért el – szemben a hagyományos, pixelen alapuló modellekkel, amelyek alig voltak jobbak, mint a véletlenszerű találgatás.

Külön érdekesség, hogy a V-JEPA a meglepettség mértékét is számszerűsíteni tudja. A kutatók elemezték, mennyire tér el az MI előrejelzése a valóságtól: ha például egy labda eltűnik egy tereptárgy mögött, majd mégsem jelenik meg újra, az előrejelzési hiba hirtelen nő, ami jól tükrözi a csecsemőkhöz hasonló meglepődést.


Mi hiányzik még az MI-ből?

Ennek ellenére, bár a V-JEPA már egészen közel áll ahhoz, ahogyan az agyunk tanul és modellezi a világot, hiányzik még egy-két lényeges komponens. Ilyen például a bizonytalanság megfelelő kezelése: ha a múltbeli információk alapján nem lehet pontosan megjósolni a jövő eredményeit, a modell ezt nem rögzíti kellő rugalmassággal.

V-JEPA 2: nagyobb tudás, még rövidebb emlékezet

2024 júniusától már a második generáció, a V-JEPA 2 is elérhető: a most 1,2 milliárd paraméteres modell több mint 22 millió videón tanult, sőt, robotikai alkalmazásokban is sikeresen tesztelték – mindössze kb. 60 órányi robotadat birtokában képes volt viszonylag bonyolult feladatokat is megoldani, például tárgyakat manipulálni.

Az újabb, nehezebb, úgynevezett Physion++ (Physion++) teszten azonban a V-JEPA 2 és a többi modell is csak alig haladta meg a véletlen eredményt. Ennek oka lényegében az, hogy a rendszer csak néhány másodperces videókat képes értelmezni és előrejelezni; minden, ami ennél hosszabb, gyorsan feledésbe merül. Így jelenleg még inkább egy aranyhal emlékezőképességére hasonlít, semmint egy emberére.

Összességében elmondható, hogy a V-JEPA áttörést hozott az MI-k fizikai intuíciójának fejlesztésében: a gép immár csodálkozva tekinthet a világra, még ha memóriája egyelőre rövid is marad.

2025, adminboss, www.quantamagazine.org alapján

Legfrissebb posztok

MA 12:34

Az űrállomásról rajtolhat az első űrbéli orvosi mentés

Az amerikai űrügynökség minden eddiginél komolyabb orvosi vészhelyzet elé nézhet: az egyik űrhajós a Nemzetközi Űrállomáson (ISS) váratlanul egészségügyi problémákat tapasztalt, ezért egy előre tervezett űrsétát elhalasztottak, és felmerült, hogy a legénység egy részét előbb kell hazahozni, mint ahogy eredetileg tervezték...

MA 12:02

Vége az álomnak: a Ballie sosem költözik be otthonainkba?

😪 Hat év fejlesztés és ígérgetés után a Samsung Ballie nevű otthoni robotja végleg eltűnt a vásárlók elől, és már csak belső céges projektté silányult...

MA 11:49

Az ifjú galaxisfürt, amely megrengeti a kozmológiai elméleteket

Különösen figyelemre méltó, hogy egy nemzetközi kutatócsoport olyan galaxisfürtöt azonosított, amely a feltételezettnél jóval korábban és jóval magasabb hőmérsékleten jelent meg az univerzumban, mint amit a mai elméletek megengednének...

MA 10:58

A meglepő ok, amiért jéghidegnek érezzük a vizet mentolos fogkrém után

👀 Külön említést érdemel, hogy sokan ismerik a pillanatot, amikor fogmosás után iszunk egy korty vizet, és az hirtelen jéghidegnek tűnik, sőt, a levegővétel is hűsítő élményt nyújt...

MA 10:50

A rendszeres mozgás felérhet a terápiával depresszió ellen

Világszerte több mint 280 millió embert érint a depresszió, amely komoly terhet ró az egészségügyre és az érintettekre...

MA 10:43

A Chase veszi át az Apple hitelkártyáját – jön a váltás

Az Apple Card felhasználók egyelőre nem fognak változást érzékelni, miután az Apple hivatalosan bejelentette, hogy a JPMorgan Chase váltja a Goldman Sachsot a hitelkártya-kibocsátójaként...

MA 10:36

A Ford MI-asszisztense új korszakot nyit az autózásban

Ford bejelentette, hogy hamarosan MI-asszisztenssel és továbbfejlesztett BlueCruise technológiával frissíti szolgáltatásait...

MA 10:29

A természet utolsó menedékei riasztó ütemben tűnnek el

🌳 A világ szárazföldi biodiverzitás szempontjából legfontosabb területeit, az úgynevezett „hotspotokat” egy új kutatás szerint súlyosan terheli az emberi földhasználat...

MA 10:22

A Disney+ belép a függőleges videók korszakába

Idén érkezik a Disney+ újítása: a függőleges videófolyam, amely a TikTok sikerét lovagolja meg...

MA 10:08

Az ultragyors UV-fény átírhatja a kommunikáció és a képalkotás szabályait

Továbbá megemlíthető, hogy a fotonikus technológiák, amelyek az ultraibolya (UV-C) tartományban (100–280 nm) működnek, már most kulcsszerepet játszanak számos területen, a szuperfelbontású mikroszkópiától az optikai kommunikációig...

MA 10:02

A Grok-bot botránya: kiskorúakat ábrázoló szexuális képek a sötét weben

Az internet biztonságáért küzdő szervezetek komoly figyelmeztetést adtak ki: az Elon Musk tulajdonában lévő Grok MI-chatbotot bűnözők használták fel gyermekekről készült szexuális képek létrehozásához...

MA 09:43

A Dell 52 colos, 6K-s óriása letarolja a piacot

A Dell bemutatta az UltraSharp 52 Thunderbolt Hub monitort, amely igazi óriás: 132 cm-es (52 hüvelykes) képátlójával és elképesztő 6K felbontásával jelenleg egyedülálló a világon...

MA 09:36

Az MI a Fordokba költözik – és ez már valóság

🚗 A Ford is beszáll az MI-alapú élményversenybe: 2026-tól a gyártó autóiban személyre szabott digitális asszisztens segíti majd a sofőrt és az utasokat...

MA 09:29

A trónról taszítva: zuhan a ChatGPT népszerűsége

ChatGPT piaci részesedése jelentősen visszaesett, miközben a Google Gemini egyre nagyobb teret hódít a weben...

MA 09:22

Az Apple-gépeken leálltak a Logitech appok – kitört a káosz

A Logitech Options+ és G HUB alkalmazások hirtelen működésképtelenné váltak Macen, miután egy lejárt tanúsítvány blokkolta az indításukat...

MA 09:08

A JPMorgan veszi át az Apple Cardot – végre búcsú a Goldmantól

Az Apple hivatalosan bejelentette, hogy az Apple Card új kibocsátója a JPMorgan Chase lesz...

MA 09:01

Az OpenAI nem használja fel egészségügyi adataidat MI-képzéshez

💉 Az OpenAI elindítja a ChatGPT Health nevű új funkciót, amely kizárólag egészségügyi beszélgetésekre készült, és biztonságos, privát teret kínál a felhasználóknak...

MA 08:57

A kínai MI új ragadozója berobban a hongkongi tőzsdére

📈 Kína vezető MI-fejlesztője, a Zhipu részvényei sikeresen debütáltak a hongkongi tőzsdén, miután 558 millió dolláros (207 milliárd forint) IPO-jával elsőként a kínai „MI-tigrisek” közül vált nyilvános részvénytársasággá...

MA 08:43

Az OpenAI már az egészségügyi adataidra is szemet vetett

Az OpenAI új lehetőséget mutatott be: hamarosan feltöltheted egészségügyi adataidat a ChatGPT-be, azaz megoszthatod vele orvosi leleteidet, vizsgálati eredményeidet vagy a fitneszalkalmazásokból származó információkat...