Mesterséges intelligencia, amely már képes meglepődni a világon

Mesterséges intelligencia, amely már képes meglepődni a világon
Az emberek már csecsemőkorukban felismerik, ha valami ellentmond a fizikai törvényeknek: például egy tárgy, amely hirtelen eltűnik, vagy szilárd testeken halad át, meglepetést okoz. Ezt a képességet, az ún. fizikai intuíciót már néhány modern MI-rendszer is kezdi elsajátítani. A Meta kutatói legújabb, Video Joint Embedding Predictive Architecture (V-JEPA) nevű modelljük segítségével azt vizsgálták, hogyan képes egy MI videók tanulmányozásán keresztül tanulni a világról, sőt – úgymond – „meglepődni” azon, ha valami szembe megy az addig tapasztalt világismeretével.

Absztrakciók szintjén gondolkodik a gép

Az önvezető autók fejlesztői jól tudják, mennyire nehéz egy MI-nek megbízhatóan értelmezni a környezetet. A hagyományos megközelítések, amelyek pixelről pixelre vizsgálják a képeket, gyakran elvesznek a részletekben: például túlságosan fókuszálhatnak a lombkorona mozgására, miközben figyelmen kívül hagyják a valóban fontos információkat, mint például a lámpa színét vagy az autók helyzetét.

Lényeges szempont, hogy a V-JEPA architektúra 2024-ben éppen azért készült, hogy ezt a problémát megoldja. Ahelyett, hogy minden egyes pixelt azonos súllyal kezelne, a rendszer magasabb szintű, úgynevezett látens (rejtett) reprezentációkat hoz létre, amelyekben már csak a lényegi információk maradnak meg. Így például egy henger vonalas ábrázolásából a rendszer csak a magasságot, szélességet, tájolást és helyzetet jegyzi fel számok formájában, nem az egész képet másolja le.

Így működik a V-JEPA rendszer

A V-JEPA három fő komponensből áll: két kódolóból (1-es és 2-es) és egy előrejelzőből. A rendszer a videók egyes képkockáin mindig ugyanazt a pixelkészletet maszkolja, és az így „kitakart” képeket először az 1-es kódoló dolgozza fel, létrehozva a látens reprezentációkat. A teljes, maszkolatlan képeket közben a 2-es kódoló értelmezi hasonló módon. Ezután az előrejelző a maszkolt képekből készült látens reprezentációk alapján megpróbálja megjósolni, mit „gondolt” volna a rendszer a teljes képek esetén.

Ezzel a módszerrel a rendszer olyan sémát tanul ki, amely csak a legszükségesebb információkat tartalmazza az adott feladathoz. Ennek köszönhetően, amikor konkrét célhoz, például akciófelismeréshez vagy jelenetazonosításhoz kell igazítani, már jóval kevesebb ember által címkézett adat szükséges, mintha az elejétől végig kellene megtanítani a rendszert az adott célfeladatra. Ráadásul az alap architektúrát különböző feladatokra is adaptálni lehet.

Az MI már meg tud lepődni

2024 februárjában tesztelték, mennyi „intuitív fizikai tudása” van a modellnek. A teszten, amelyen a videókban bemutatott események fizikai valószínűségét kellett felismerni (például egy tárgy eltűnik-e, amikor elhalad mögötte egy másik), a V-JEPA közel 98%-os pontosságot ért el – szemben a hagyományos, pixelen alapuló modellekkel, amelyek alig voltak jobbak, mint a véletlenszerű találgatás.

Külön érdekesség, hogy a V-JEPA a meglepettség mértékét is számszerűsíteni tudja. A kutatók elemezték, mennyire tér el az MI előrejelzése a valóságtól: ha például egy labda eltűnik egy tereptárgy mögött, majd mégsem jelenik meg újra, az előrejelzési hiba hirtelen nő, ami jól tükrözi a csecsemőkhöz hasonló meglepődést.


Mi hiányzik még az MI-ből?

Ennek ellenére, bár a V-JEPA már egészen közel áll ahhoz, ahogyan az agyunk tanul és modellezi a világot, hiányzik még egy-két lényeges komponens. Ilyen például a bizonytalanság megfelelő kezelése: ha a múltbeli információk alapján nem lehet pontosan megjósolni a jövő eredményeit, a modell ezt nem rögzíti kellő rugalmassággal.

V-JEPA 2: nagyobb tudás, még rövidebb emlékezet

2024 júniusától már a második generáció, a V-JEPA 2 is elérhető: a most 1,2 milliárd paraméteres modell több mint 22 millió videón tanult, sőt, robotikai alkalmazásokban is sikeresen tesztelték – mindössze kb. 60 órányi robotadat birtokában képes volt viszonylag bonyolult feladatokat is megoldani, például tárgyakat manipulálni.

Az újabb, nehezebb, úgynevezett Physion++ (Physion++) teszten azonban a V-JEPA 2 és a többi modell is csak alig haladta meg a véletlen eredményt. Ennek oka lényegében az, hogy a rendszer csak néhány másodperces videókat képes értelmezni és előrejelezni; minden, ami ennél hosszabb, gyorsan feledésbe merül. Így jelenleg még inkább egy aranyhal emlékezőképességére hasonlít, semmint egy emberére.

Összességében elmondható, hogy a V-JEPA áttörést hozott az MI-k fizikai intuíciójának fejlesztésében: a gép immár csodálkozva tekinthet a világra, még ha memóriája egyelőre rövid is marad.

2025, adminboss, www.quantamagazine.org alapján


Legfrissebb posztok

Az MI-böngésző, amely titokban ellopja az e-mailjeidet
MA 10:10

Az MI-böngésző, amely titokban ellopja az e-mailjeidet

Egy új, CometJacking nevű támadási módszer lehetővé teszi, hogy támadók a Perplexity nevű MI-alapú Comet böngészőn keresztül rejtett parancsokat juttassanak célba, így hozzáférhessenek érzékeny adatokat tartalmazó szolgáltatásokhoz, például...

Az első görög farkaskutya-szörnyeteg megérkezett
MA 10:01

Az első görög farkaskutya-szörnyeteg megérkezett

🐶 Észak-Görögországban először azonosítottak genetikai bizonyítékkal rendelkező farkas és kutya keveréket. A Callisto nevű természetvédelmi szervezet kutatásai során Thesszaloniki közelében találták a hibrid egyedet, amelynek DNS-elemzése kimutatta, hogy az...

MA 09:54

A Gmail újabb kényelmi funkciókat vezet be

A Google bejelentette, hogy megszünteti a Gmailify-t és a POP-támogatást, ezzel számos felhasználót terelve át az IMAP használatára. Azoknak, akik eddig más e-mail fiókot csatoltak a Gmailhez ezen...

Mindenki megőrül a Targetben, Taylor Swift új albuma mindent visz
MA 09:29

Mindenki megőrül a Targetben, Taylor Swift új albuma mindent visz

🎭 Az utóbbi időszakban a Target kiskereskedelmi óriás nehézségek közepette próbálja megtartani ügyfeleit. Jelentősége van annak, hogy Taylor Swift legújabb albuma, az Az előadó élete (The Life of a...

Az egyik ügyfélszolgálati partner miatt szivárogtak ki Discord-adataid
MA 09:19

Az egyik ügyfélszolgálati partner miatt szivárogtak ki Discord-adataid

A Discord egyik külső ügyfélszolgálati partnere adatvédelmi incidens áldozata lett, aminek következtében illetéktelenek hozzáfértek néhány felhasználó adatához. Az érintettek azok, akik az utóbbi időben a Discord ügyfélszolgálatával vagy...

APPok, Amik Ingyenesek MA, 10/4
APP
MA 09:11

APPok, Amik Ingyenesek MA, 10/4

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Invoice Manager (iPhone/iPad)Az Invoice AI egy átfogó, mobilról is elérhető üzleti menedzsment platform. Lehetővé teszi korlátlan...

Az MI-chipgyártó Cerebras hirtelen visszalép az IPO-tól
MA 09:10

Az MI-chipgyártó Cerebras hirtelen visszalép az IPO-tól

💡 Az MI processzorgyártó Cerebras Systems bejelentette, hogy visszavonja tőzsdére lépési terveit. Mindez alig több mint egy évvel azután történt, hogy hivatalosan is benyújtotta az ehhez szükséges dokumentumokat. A...

MA 09:04

Égnek áll az űripar, robbant a rakéta, tombol a politika

Az idei év utolsó negyedébe léptünk az űrkutatásban is, ahol továbbra is pörögnek az események – többek között robbanó rakéták, jelentős európai tervek, kemény politikai viták és hatalmas...

MA 08:45

Az új Google-szabály: fizethetünk az androidos fejlesztésért

Ahogy közeledik az időpont, amikor a Google még szigorúbban ellenőrzi, hogy milyen alkalmazások futhatnak Androidon, egyre több részlet kerül napvilágra a fejlesztői regisztrációs folyamatról. Bár a hivatalos tájékoztatás...