2025. 10. 04., 07:47

Mesterséges intelligencia, amely már képes meglepődni a világon

Mesterséges intelligencia, amely már képes meglepődni a világon
Az emberek már csecsemőkorukban felismerik, ha valami ellentmond a fizikai törvényeknek: például egy tárgy, amely hirtelen eltűnik, vagy szilárd testeken halad át, meglepetést okoz. Ezt a képességet, az ún. fizikai intuíciót már néhány modern MI-rendszer is kezdi elsajátítani. A Meta kutatói legújabb, Video Joint Embedding Predictive Architecture (V-JEPA) nevű modelljük segítségével azt vizsgálták, hogyan képes egy MI videók tanulmányozásán keresztül tanulni a világról, sőt – úgymond – „meglepődni” azon, ha valami szembe megy az addig tapasztalt világismeretével.

Absztrakciók szintjén gondolkodik a gép

Az önvezető autók fejlesztői jól tudják, mennyire nehéz egy MI-nek megbízhatóan értelmezni a környezetet. A hagyományos megközelítések, amelyek pixelről pixelre vizsgálják a képeket, gyakran elvesznek a részletekben: például túlságosan fókuszálhatnak a lombkorona mozgására, miközben figyelmen kívül hagyják a valóban fontos információkat, mint például a lámpa színét vagy az autók helyzetét.

Lényeges szempont, hogy a V-JEPA architektúra 2024-ben éppen azért készült, hogy ezt a problémát megoldja. Ahelyett, hogy minden egyes pixelt azonos súllyal kezelne, a rendszer magasabb szintű, úgynevezett látens (rejtett) reprezentációkat hoz létre, amelyekben már csak a lényegi információk maradnak meg. Így például egy henger vonalas ábrázolásából a rendszer csak a magasságot, szélességet, tájolást és helyzetet jegyzi fel számok formájában, nem az egész képet másolja le.

Így működik a V-JEPA rendszer

A V-JEPA három fő komponensből áll: két kódolóból (1-es és 2-es) és egy előrejelzőből. A rendszer a videók egyes képkockáin mindig ugyanazt a pixelkészletet maszkolja, és az így „kitakart” képeket először az 1-es kódoló dolgozza fel, létrehozva a látens reprezentációkat. A teljes, maszkolatlan képeket közben a 2-es kódoló értelmezi hasonló módon. Ezután az előrejelző a maszkolt képekből készült látens reprezentációk alapján megpróbálja megjósolni, mit „gondolt” volna a rendszer a teljes képek esetén.

Ezzel a módszerrel a rendszer olyan sémát tanul ki, amely csak a legszükségesebb információkat tartalmazza az adott feladathoz. Ennek köszönhetően, amikor konkrét célhoz, például akciófelismeréshez vagy jelenetazonosításhoz kell igazítani, már jóval kevesebb ember által címkézett adat szükséges, mintha az elejétől végig kellene megtanítani a rendszert az adott célfeladatra. Ráadásul az alap architektúrát különböző feladatokra is adaptálni lehet.

Az MI már meg tud lepődni

2024 februárjában tesztelték, mennyi „intuitív fizikai tudása” van a modellnek. A teszten, amelyen a videókban bemutatott események fizikai valószínűségét kellett felismerni (például egy tárgy eltűnik-e, amikor elhalad mögötte egy másik), a V-JEPA közel 98%-os pontosságot ért el – szemben a hagyományos, pixelen alapuló modellekkel, amelyek alig voltak jobbak, mint a véletlenszerű találgatás.

Külön érdekesség, hogy a V-JEPA a meglepettség mértékét is számszerűsíteni tudja. A kutatók elemezték, mennyire tér el az MI előrejelzése a valóságtól: ha például egy labda eltűnik egy tereptárgy mögött, majd mégsem jelenik meg újra, az előrejelzési hiba hirtelen nő, ami jól tükrözi a csecsemőkhöz hasonló meglepődést.


Mi hiányzik még az MI-ből?

Ennek ellenére, bár a V-JEPA már egészen közel áll ahhoz, ahogyan az agyunk tanul és modellezi a világot, hiányzik még egy-két lényeges komponens. Ilyen például a bizonytalanság megfelelő kezelése: ha a múltbeli információk alapján nem lehet pontosan megjósolni a jövő eredményeit, a modell ezt nem rögzíti kellő rugalmassággal.

V-JEPA 2: nagyobb tudás, még rövidebb emlékezet

2024 júniusától már a második generáció, a V-JEPA 2 is elérhető: a most 1,2 milliárd paraméteres modell több mint 22 millió videón tanult, sőt, robotikai alkalmazásokban is sikeresen tesztelték – mindössze kb. 60 órányi robotadat birtokában képes volt viszonylag bonyolult feladatokat is megoldani, például tárgyakat manipulálni.

Az újabb, nehezebb, úgynevezett Physion++ (Physion++) teszten azonban a V-JEPA 2 és a többi modell is csak alig haladta meg a véletlen eredményt. Ennek oka lényegében az, hogy a rendszer csak néhány másodperces videókat képes értelmezni és előrejelezni; minden, ami ennél hosszabb, gyorsan feledésbe merül. Így jelenleg még inkább egy aranyhal emlékezőképességére hasonlít, semmint egy emberére.

Összességében elmondható, hogy a V-JEPA áttörést hozott az MI-k fizikai intuíciójának fejlesztésében: a gép immár csodálkozva tekinthet a világra, még ha memóriája egyelőre rövid is marad.

2025, adminboss, www.quantamagazine.org alapján

Legfrissebb posztok

MA 19:34

Az európai repterek három héten belül kerozin nélkül maradhatnak

✈ Az európai repülőterek súlyos üzemanyaghiánnyal nézhetnek szembe három héten belül, ami jelentősen megzavarná a nyári utazási szezont és komoly károkat okozna a gazdaságnak...

MA 19:25

A szupravezetés hihetetlen visszatérése extrém mágneses térben

💥 Egy különleges fém, az urán-ditellurid (UTe2) egészen új oldalát mutatta meg a fizikusoknak, amikor nemrégiben váratlanul visszatért benne a szupravezetés szinte rekorderősségű mágneses terekben – pedig normál esetben ilyen körülmények között már rég megszűnne...

MA 19:02

Az emberi küzdelemnek vége a kibervédelemben?

Erre utal többek között az, hogy a legkomolyabb biztonsági rések egyre gyorsabban kerülnek a támadók kezébe, mint ahogy a védekezés képes lenne lépést tartani velük...

MA 18:56

Az MI-láz rekordbevételt hozott a TSMC-nek

A tajvani TSMC idei első negyedéves árbevétele elképesztő, 35%-os növekedést mutatott a januártól márciusig tartó időszakban, köszönhetően az MI-chipek iránti világméretű kereslet folyamatos emelkedésének...

MA 18:45

A legsebezhetőbbek az androidos kriptovaluta-alkalmazások

Mintegy 50 millió Androidos készülék volt veszélyben egy súlyos biztonsági hiba miatt, amelyet a Microsoft szakértői az EngageLab SDK-ban azonosítottak...

MA 18:34

Az Artemis II űrhajósai végre vízre szállnak – így nézheted a Netflixen

Az Orion űrhajó hősei, Victor Glover, Reid Wiseman, Christina Koch és Jeremy Hansen már hazafelé tartanak, és hamarosan a Csendes-óceánon hajtanak végre vízreszállást...

MA 18:23

A CPUID feltörése veszélybe sodorta a népszerű PC‑mérőket

⚠ Milliók által használt diagnosztikai programokat tettek használhatatlanná hackerek, akik a népszerű CPU-Z és HWMonitor hivatalos letöltési linkjeit módosították...

MA 17:35

Az otthoni sétapad tényleg csodaszer? Két modellt teszteltem

Az utóbbi években a sétapadok, más néven íróasztal alá helyezhető futópadok igazi wellness-sztárrá váltak...

MA 17:23

Az FBI iPhone-értesítésekből rakta össze a törölt Signal-üzeneteket

Ez a jelenség jól illusztrálható azzal, hogy a texasi ICE Prairieland Detention Facility-nél történt rongálás és petárdázás ügyében a hatóságok váratlan módszerrel jutottak hozzá kulcsfontosságú bizonyítékokhoz...

MA 17:02

Amikor a szülő tehetetlen: a Discord-támadások kegyetlen valósága

🙁 Brady Frey számára egy teljesen átlagos napnak indult, amikor egyszer csak kiderült, hogy tinédzser lánya Discord-fiókját feltörték...

MA 16:33

Az első baktériumdob: hallgasd, melyik kórokozó fertőzött meg!

🎵 Képzeld el, hogy nem mikroszkóppal lesed a bacikat, hanem meghallgatod őket!..

MA 16:23

Dél-Koreában alanyi jogon jár az alapszintű mobilnet

Dél-Korea úttörő lépést tett: mostantól minden mobil-előfizető számára elérhető az alapszintű internet-hozzáférés...

MA 16:12

Az Amazon aranyat érő MI-chipjein máris betelt a kapacitás

Egy lényeges szempont, hogy az Amazon vezetője, Andy Jassy friss éves levelében számos meglepő újdonsággal szolgált a felhőóriás háza tájáról...

MA 16:01

Az ősi versek felfedik a Nap titkos dühkitöréseit

🌞 Egy lényeges szempont, hogy évezredekkel ezelőtt a korabeli költők, például a japán nemes Fujiwara no Sadaie, olyan látványos égi jelenségeket jegyeztek fel, mint az északi fény...

MA 15:56

A semmiből születő részecskék: nem sci-fi, hanem valóság

Na most kapaszkodj, mert a tudósoknak végre sikerült kifaggatni az abszolút semmit, és kiderült: a tökéletes vákuum sem üres igazán...

MA 15:45

Az Amazon májusban lekapcsolja a régi Kindle-olvasókat

📖 Az Amazon bejelentette, hogy május 20-tól megszünteti a 2012 előtt megjelent Kindle e-könyv-olvasók támogatását...

MA 15:23

Az Anthropic ügynökei már helyetted is dolgozhatnak

Érdemes tudni, hogy a Claude fejlesztője, az Anthropic új szolgáltatást kínál azoknak a vállalkozásoknak, amelyek szeretnék automatizálni a napi feladatokat...

MA 15:12

Az iPhone már magától óv? Így aktiváld a biztonsági frissítést

Jó, hogy végre nem kell minden apróbb iOS-frissítésre ráizgulni – az Apple mostantól magától is dolgozik a háttérben!..

MA 15:02

Az asztali PC a végén jár? A Framework már temeti

A Framework április 21-én nagyszabású, Next Gen névre keresztelt eseményt tart, ennek apropóján a cég alapítója, Nirav Patel saját blogposztban fejtette ki a személyi számítógépek jövőjéről alkotott véleményét...

MA 14:56

Az új ChatGPT Pro komolyan megszorongatja a Claude-ot

OpenAI most végre bevezette a 36 500 forintos (100 dolláros) ChatGPT Pro csomagot – na, erre várt mindenki, akit eddig sokkolt a legdrágább előfizetés ára...

MA 14:45

Az új bérátirányítási csalás már a magyar dolgozókat is fenyegeti

Egyre aggasztóbb módszerrel csapnak le a bűnözők a kanadai dolgozók fizetésére...

MA 14:34

Az Alibaba lerántja a leplet titokzatos MI-videógenerátoráról

A kínai Alibaba technológiai óriásvállalat hivatalosan is bejelentette, hogy hozzá tartozik a HappyHorse-1...

MA 14:23

Az űrkutatás új sztárja: a Dragonfly feltárja a Titán titkait

🚀 Az emberiség történetében aligha akad olyan bátor vállalkozás, mint amikor egy nukleáris meghajtású oktokoptert küldenek a Naprendszer legtitokzatosabb holdjára, a Titánra...

MA 14:02

Az áttörés: a β-thalassaemiában is végre célt ér a génszerkesztés

A génszerkesztés évtizedek óta nagy reményeket kelt a gyógyászatban, de hosszú utat kellett megtenni, mire eljutottunk oda, hogy embereken is alkalmazni lehessen...

MA 13:34

Az XRP valóban felkészültebb a kvantumfenyegetésre, mint a Bitcoin?

Az elmúlt időszakban egyre többet hallani arról, hogy a kvantumszámítógépek mekkora fenyegetést jelenthetnek a blokklánc-technológiára és a kriptoeszközökre...

MA 13:12

A 8-as kijárat: Többről szól, mint a rettegés

🚶 Egy zavart fiatal japán férfi siet végig a vakítóan fényes, szürreális folyosón, elkeseredetten számolva az ajtókat, szellőzőket és szekrényeket...

MA 13:02

Az új Google-noteszek tényleg kiváltják az emlékezetünket?

Az új Google Gemini alkalmazás végre olyan funkcióval bővült, amire sokan vártak: bevezették a noteszeket, amelyek egyszerre tárolnak beszélgetéseket, fájlokat és hosszabb távú projekteket...

MA 12:46

Az MI már a vérképből is diagnosztizál – de mennyit ér?

A laboreredmények megérkezése előtti várakozás hetei komoly feszültséget jelentenek sokaknak. És mire végre kézhez kapjuk a labornyelven írt vérvizsgálati leletünket, gyakran nem is értjük, hogy pontosan mi mit jelent benne...

MA 12:23

Az egyik legnépszerűbb WordPress-bővítményt vírusterjesztésre fogták be

Számos WordPress- és Joomla-oldalt veszélyeztet a népszerű Smart Slider 3 bővítményt ért legutóbbi támadás...