A mesterséges intelligencia, amely már a jövőt is látja

A WorldVLA egy új generációs MI-modell, amely nemcsak képeket és nyelvet, hanem emberi cselekvéseket is képes értelmezni és előállítani. Az új rendszer az úgynevezett Vízió–Nyelv–Akció (Vision-Language-Action, VLA) modell és a világmodell ötvözésével egyetlen keretrendszerben működik. Képes előrejelezni a jövőbeli képeket úgy, hogy figyelembe veszi a mozgásokat és a képi tartalmat is. Így jobban érti a környezet fizikai szabályait, és ennek köszönhetően pontosabban tud akciókat generálni.

A világmodell és az akciómodell közös ereje

A WorldVLA nem csupán a világmodellek vagy az önálló akciómodellek funkcióit valósítja meg: a kettő összehangolásával jelentősen jobb teljesítményt ér el. Az akciómodell az aktuális képi információk alapján dönti el a következő lépést, miközben segíti a világmodell vizuális generálását. Az együttműködés révén hatékonyabbá válik a jövőbeli események előrejelzése és az akciók tervezése.

Új figyelemmaszk az előrejelzési hibák ellen

Megfigyelhető, hogy az akciómodellek hajlamosak romlani, amikor maguk által generált cselekvéssorozatokat hoznak létre: a korábbi lépések hibái átterjednek a következőkre. Ennek orvoslására a kutatók figyelemmaszkoló stratégiát vezettek be, amely a pillanatnyi akció generálásakor szelektíven elrejti a korábbi mozdulatokat. Ennek köszönhetően jelentősen javult a cselekvéssorozat pontossága, különösen az úgynevezett akcióblokk-generálási feladatban.

2025, adrienne, arxiv.org alapján


Legfrissebb posztok

Az Apple beszól Musk-nak: nincs kivételezés az MI-appoknál

MA 19:01

Az Apple beszól Musk-nak: nincs kivételezés az MI-appoknál

😉 Az Apple visszautasította Elon Musk vádjait, miszerint az App Store hátrányos helyzetbe hozza az OpenAI versenytársait. Musk szerint az Apple gyakorlatilag lehetetlenné teszi, hogy bármely más MI-cég –...

Az amerikai MI-hadjárat: 450 céget zsaroltak meg milliárdokért

MA 18:51

Az amerikai MI-hadjárat: 450 céget zsaroltak meg milliárdokért

2022 óta két hírhedt zsarolóvírus-csoport, a BlackSuit és elődje, a Royal, összesen legalább 450 ismert amerikai szervezetet támadott meg, köztük egészségügyi, oktatási, közbiztonsági, energiaipari és állami intézményeket. A...

Az okosszemüvegek hódítanak, a Meta az élen, a Xiaomi feltör

MA 18:26

Az okosszemüvegek hódítanak, a Meta az élen, a Xiaomi feltör

👓 2025 első felében az okosszemüvegek globális piaca igazi robbanást élt át: az eladások éves összevetésben 110%-kal nőttek, minden korábbi rekordot megdöntve. A növekedés élén a Ray-Ban Meta Okosszemüveg...

A Windows frissítés most tönkreteszi az SSD-det?

MA 18:01

A Windows frissítés most tönkreteszi az SSD-det?

⚠ Az utóbbi Windows 11 24H2 frissítések adatvesztést és meghajtóhibát okozhatnak bizonyos SSD- és HDD-típusokon még a legfrissebb rendszereken is. Egy japán számítógép-építő szakértő tapasztalata szerint a Phison NAND...

Veszélyes garnélák a Walmart polcain, aggódhatunk a radioaktivitás miatt

MA 17:26

Veszélyes garnélák a Walmart polcain, aggódhatunk a radioaktivitás miatt

Az amerikai Élelmiszer- és Gyógyszerügyi Hivatal (FDA) óvintézkedéseket vezetett be, miután Indonéziából származó fagyasztott garnélaráknál radioaktív szennyezettség gyanúja merült fel. Egy Los Angelesbe, Houstonba, Savannah-ba és Miamiba irányuló...

Az AWS egymilliárd dolláros felhőkedvezményt ad a kormánynak

MA 17:01

Az AWS egymilliárd dolláros felhőkedvezményt ad a kormánynak

Az amerikai kormány és az Amazon Web Services (AWS) új, gigantikus megállapodást kötött: az AWS 1 milliárd dollárnyi (kb. 366 milliárd forint) kreditet ad a kormányzati ügynökségeknek, hogy...

Hogyan változtatják meg a csetbotok a tinik mindennapjait

MA 16:53

Hogyan változtatják meg a csetbotok a tinik mindennapjait

💬 Az utóbbi időben egyre több fiatal talál társalgási lehetőséget MI csetbotokkal, amelyek gyakran a valódi baráti beszélgetéseket is háttérbe szorítják. Ezek a csetbotok képesek emberhez hasonló párbeszédet folytatni,...

Újabb botrány, a Microsoft MI-je szabad utat ad a kiberbűnözőknek

MA 16:26

Újabb botrány, a Microsoft MI-je szabad utat ad a kiberbűnözőknek

A Microsoft legújabb MI-alapú védelmi rendszere, a Project Ire mesterséges intelligenciát vet be a rosszindulatú kód felismerésére emberi beavatkozás nélkül. A fejlesztés célja, hogy felgyorsítsa és automatizálja a...

Az X-37B titokzatos útja, GPS nélkül navigál mesterséges intelligenciával

MA 15:52

Az X-37B titokzatos útja, GPS nélkül navigál mesterséges intelligenciával

2025. augusztus 21-én indul útnak az amerikai X-37B űrrepülőgép, amelynek küldetését sok titok övezi, de néhány részlet mégis napvilágot látott, például az MI-alapú kvantum­navigációs technológia tesztelése. Az X-37B...