A Runway áttörése: percekig tartó koherencia az MI-ben

A Runway bemutatta GWM-1 névre keresztelt, első világmodelljét, amely jelentős lépés a vállalat részéről, eddig ugyanis leginkább videógenerálásban jeleskedett. Az MI-fejlesztés új szakaszába lép: a hangsúly egyre inkább a kifinomultságon van, nem csupán a méreten. A GWM-1 fejlesztésével a Runway is beszállt abba a versenybe, ahol az MI-alapok megteremtése a cél.

Három az egyben: az új GWM-1 modellek

A GWM-1 egy összefoglaló név, amely három autoregressziós modellt takar. Ezek mindegyike a Runway Gen-4.5 szövegből videót előállító modelljén alapszik, majd speciális, témaspecifikus adatokkal továbbképezték őket különböző felhasználási területekre. A modellekkel teljes virtuális világokat lehet definiálni, szabályokkal és fizikai elvekkel, de akár valós idejű cselekvéseket vagy változásokat is be lehet állítani, például kameramozgást vagy környezeti módosításokat. Különösen fontos kiemelni, hogy ezek a modellek képesek több percen át koherensen, logikus összefüggésben fenntartani az eseményeket, ami nagy előrelépés.

Alkalmazási lehetőségek: játékoktól a robotokig

A lehetséges felhasználási területek között megtalálható a játékipari fejlesztők számára az előzetes vizualizáció, a VR-környezetek generálása vagy épp oktatási célú történelmi helyszínek feltérképezése. Egy másik fontos felhasználás, hogy ezek a világmodellek MI-ügynökök – például robotok – képzésére is alkalmasak. Ilyen eset például a GWM Robotics részmodell alkalmazása, amellyel mesterségesen generált adatokkal egészíthető ki a már meglévő robotikai adathalmaz, legyen szó új tárgyakról, feladatokról vagy környezetekről.

Az MI-modellek lehetővé teszik olyan tréninghelyzetek létrehozását is, amelyeket nehéz volna a valóságban biztonságosan megismételni, például extrém időjárási körülmények között. Emellett a vezérlési stratégiák szimulációját is elősegítik, mielőtt élesben tesztelnék azokat. A cég Python SDK-t is fejlesztett, amely külön kérésre már elérhető.

Avatárok, platform, technikai ugrás

A harmadik modell, a GWM Avatars, a generatív videót és beszédet ötvözi: természetes mozgású, emberhez hasonló avatárokat generál, amelyek beszélgetés közben is hitelesen mimikáznak. Ezek alkalmasak hosszabb interakciókra is, minőségromlás nélkül – ha ez valóban megvalósul, az igazi mérföldkő. Ez a funkció a jövőben válik elérhetővé a webalkalmazásban és az API-n keresztül is.

A Runway célja, hogy sokféle feladatra alkalmas, multifunkciós modelleket hozzon létre, amelyek képesek eltérő környezetek, ügynökök és alkalmazások szimulálására. Bár világszimulációk már régóta léteznek, az ilyen általános célú megközelítés viszonylag új törekvés – sokan ezt az általános mesterséges intelligencia (Artificial General Intelligence, AGI) felé vezető útnak vélik, bár erre nincs egyértelmű bizonyíték.

Éles verseny: van esélye a Runway-nek?

A Runway szándékosan nem használta az AGI-megközelítést, szemben például a DeepMinddal. Ugyanakkor a cég alapítója, Cristobal Valenzuela úgy tekint a GWM-1-re, mint egy fontos lépésre az univerzális szimuláció felé – ez viszont egyelőre még rendkívül tág fogalom, amelynek nincs egységes meghatározása.

Összességében elmondható, hogy a Runway új irányba indult: a világmodellek piacán immár olyan nagy techcégekkel kell versengenie, amelyeknek sokkal nagyobb erőforrásaik vannak. Bár videógenerálásban korábban egyedülálló előnyre tett szert, most sokkal keményebb terepen kell helytállnia, például a robotikában vagy az élettudományokban, ahol már kialakult a piac, és egyre több a befektetés.

Új funkciók és partnerségek

A vállalat nemrégiben jelentette be, hogy a Gen-4.5 videógeneráló modelljét továbbfejlesztette natív hanggal, hangmódosítással és többjelenetes videószerkesztéssel. Emellett stratégiai megállapodást kötött a CoreWeave felhőszolgáltatóval, amelynek keretében a Runway a jövőben a CoreWeave NVIDIA GB300 NVL72 szerverparkját használja MI-modellek betanítására és üzemeltetésére.

2025, adminboss, arstechnica.com alapján

Share on Social Media