A mesterséges intelligencia, amely már a jövőt is látja

A WorldVLA egy új generációs MI-modell, amely nemcsak képeket és nyelvet, hanem emberi cselekvéseket is képes értelmezni és előállítani. Az új rendszer az úgynevezett Vízió–Nyelv–Akció (Vision-Language-Action, VLA) modell és a világmodell ötvözésével egyetlen keretrendszerben működik. Képes előrejelezni a jövőbeli képeket úgy, hogy figyelembe veszi a mozgásokat és a képi tartalmat is. Így jobban érti a környezet fizikai szabályait, és ennek köszönhetően pontosabban tud akciókat generálni.

A világmodell és az akciómodell közös ereje

A WorldVLA nem csupán a világmodellek vagy az önálló akciómodellek funkcióit valósítja meg: a kettő összehangolásával jelentősen jobb teljesítményt ér el. Az akciómodell az aktuális képi információk alapján dönti el a következő lépést, miközben segíti a világmodell vizuális generálását. Az együttműködés révén hatékonyabbá válik a jövőbeli események előrejelzése és az akciók tervezése.

Új figyelemmaszk az előrejelzési hibák ellen

Megfigyelhető, hogy az akciómodellek hajlamosak romlani, amikor maguk által generált cselekvéssorozatokat hoznak létre: a korábbi lépések hibái átterjednek a következőkre. Ennek orvoslására a kutatók figyelemmaszkoló stratégiát vezettek be, amely a pillanatnyi akció generálásakor szelektíven elrejti a korábbi mozdulatokat. Ennek köszönhetően jelentősen javult a cselekvéssorozat pontossága, különösen az úgynevezett akcióblokk-generálási feladatban.

2025, adrienne, arxiv.org alapján


Legfrissebb posztok

MA 22:59

Az EU először vesz állami kontroll alá kínai chipgyártót

A holland kormány példátlan lépésre szánta el magát: átvette az irányítást a Kínához köthető Nexperia félvezetőgyártó felett, hogy védje az európai chipellátást az egyre élesedő globális kereskedelmi feszültségek közepette...

Lesz-e beépített kamera az AirPods Próban?
MA 22:30

Lesz-e beépített kamera az AirPods Próban?

Az Apple következő nagy dobása a kamerával felszerelt AirPods lehet, amely először a várva várt AirPods Pro 4-ben debütálhat...

MA 22:01

Grafénforradalom, most tényleg eljött az áttörés ideje?

Kereken húsz év telt el azóta, hogy a grafént először előállították a Manchesteri Egyetemen...

Az Apple AirTag csomag most nevetségesen olcsó
MA 22:01

Az Apple AirTag csomag most nevetségesen olcsó

Október 13-án az Apple AirTag 4-es csomagja 23 900 forintért kapható az Amazonon, ami több mint 10 000 forint megtakarítást jelent az eredeti árhoz képest...

Ősi mikrobák miatt szabadul fel rengeteg szén-dioxid az olvadó talajból
MA 21:31

Ősi mikrobák miatt szabadul fel rengeteg szén-dioxid az olvadó talajból

Évezredeken át pihenő mikroorganizmusok ébredhetnek fel az olvadó permafrosztból, ami lavinaszerűen gyorsíthatja fel a klímaváltozást...

A tádzsik gleccser titkai: miért nem olvad el?
MA 21:01

A tádzsik gleccser titkai: miért nem olvad el?

Tádzsikisztán keleti részén, a Kon-Chukurbashi jégsapkán, 5800 méter magasan különös csoda történik: míg Grönland, az Alpok és a Himalája gleccserei szemmel láthatóan olvadnak, itt a jég stabil marad, sőt, néhol még hízott is az elmúlt évtizedekben...

Amerika és Kína vámháborúja ismét felforgatja a tőzsdéket
MA 20:59

Amerika és Kína vámháborúja ismét felforgatja a tőzsdéket

Nem hagyható figyelmen kívül, hogy az elmúlt hónapokban Kína tőzsdéi látványos emelkedést produkáltak...

Új iPadek és MacBookok érkezhetnek, az Apple M5-tel készül
MA 20:30

Új iPadek és MacBookok érkezhetnek, az Apple M5-tel készül

Szeptemberben már több jelentős Apple-termék is debütált, most pedig ismét izzik a levegő a technológiai szektorban: hamarosan három vadonatúj Apple-újdonság érkezhet, amelyek mindegyike az új M5 chipet kapja meg...

Az eső percek alatt vitte el a mexikói otthonokat és életeket
MA 20:01

Az eső percek alatt vitte el a mexikói otthonokat és életeket

🌧 A mexikói hegyvidéki településeken tomboló özönvíz néhány perc alatt gyakorlatilag elsöpörte a lakóházakat és családokat...