A mesterséges intelligencia, amely már a jövőt is látja

A WorldVLA egy új generációs MI-modell, amely nemcsak képeket és nyelvet, hanem emberi cselekvéseket is képes értelmezni és előállítani. Az új rendszer az úgynevezett Vízió–Nyelv–Akció (Vision-Language-Action, VLA) modell és a világmodell ötvözésével egyetlen keretrendszerben működik. Képes előrejelezni a jövőbeli képeket úgy, hogy figyelembe veszi a mozgásokat és a képi tartalmat is. Így jobban érti a környezet fizikai szabályait, és ennek köszönhetően pontosabban tud akciókat generálni.

A világmodell és az akciómodell közös ereje

A WorldVLA nem csupán a világmodellek vagy az önálló akciómodellek funkcióit valósítja meg: a kettő összehangolásával jelentősen jobb teljesítményt ér el. Az akciómodell az aktuális képi információk alapján dönti el a következő lépést, miközben segíti a világmodell vizuális generálását. Az együttműködés révén hatékonyabbá válik a jövőbeli események előrejelzése és az akciók tervezése.

Új figyelemmaszk az előrejelzési hibák ellen

Megfigyelhető, hogy az akciómodellek hajlamosak romlani, amikor maguk által generált cselekvéssorozatokat hoznak létre: a korábbi lépések hibái átterjednek a következőkre. Ennek orvoslására a kutatók figyelemmaszkoló stratégiát vezettek be, amely a pillanatnyi akció generálásakor szelektíven elrejti a korábbi mozdulatokat. Ennek köszönhetően jelentősen javult a cselekvéssorozat pontossága, különösen az úgynevezett akcióblokk-generálási feladatban.

2025, adrienne, arxiv.org alapján



Legfrissebb posztok