A világmodell és az akciómodell közös ereje
A WorldVLA nem csupán a világmodellek vagy az önálló akciómodellek funkcióit valósítja meg: a kettő összehangolásával jelentősen jobb teljesítményt ér el. Az akciómodell az aktuális képi információk alapján dönti el a következő lépést, miközben segíti a világmodell vizuális generálását. Az együttműködés révén hatékonyabbá válik a jövőbeli események előrejelzése és az akciók tervezése.
Új figyelemmaszk az előrejelzési hibák ellen
Megfigyelhető, hogy az akciómodellek hajlamosak romlani, amikor maguk által generált cselekvéssorozatokat hoznak létre: a korábbi lépések hibái átterjednek a következőkre. Ennek orvoslására a kutatók figyelemmaszkoló stratégiát vezettek be, amely a pillanatnyi akció generálásakor szelektíven elrejti a korábbi mozdulatokat. Ennek köszönhetően jelentősen javult a cselekvéssorozat pontossága, különösen az úgynevezett akcióblokk-generálási feladatban.