
Hang és mozgás: nagy lépés az MI-videókban
A fejlesztés mérföldkő az MI-alapú videógyártásban: a Sora 2 először képes egyszerre valósághű beszédet, háttérzajt és hangeffektusokat generálni. Fontos, hogy mindezt egyetlen MI-modell teszi lehetővé: például egy fényképrealisztikus Sam Altmant (az OpenAI vezérét) képes életre kelteni, akár egy világító gombakert vagy egy kacsa-verseny kellős közepén, némileg gépies, de élethű hangon szólaltatva meg. A Google májusban mutatott be először hasonló képességeket, néhány napja az Alibaba is beszállt az audiovideós modellversenybe, de most az OpenAI is megérkezett a „hangos” piacra.
Mindezek mellett a Sora 2 nem csupán a hanggal újít: a fizikai realizmus terén is szintet lépett. Az OpenAI szerint a modell már képes például olimpiai tornagyakorlatokat, tripla Axel ugrásokat is helyesen ábrázolni, a gravitációval és tömeggel összhangban. Korábbi MI-videóknál előfordult, hogy ha egy kosárlabdázó dobott, a labda egyszerűen odateleportált a kosárhoz. Mostantól, ha mellédob, a labda szabályosan lepattan a palánkról, ahogy a valóságban is.
Illúzió vagy valódi értelem?
Felmerül a kérdés: tényleg érti az MI a fizikai törvényeket? A válasz árnyaltabb. A Sora 2 is alapvetően példák alapján, mintázatfelismeréssel dolgozik, nem valódi „megértéssel”: sok tanítóvideó és okos háttér-algoritmus révén azonban olyan meggyőző illúziót tud kelteni, hogy a legtöbb helyzetben valóban a valósághű ábrázolás látszatát kelti. Következésképpen, bár továbbra sem „érti” a fizikát, egyre hitelesebb szimulációkat produkál.
Kéznél az app, ingyenes lehetőség és Cameo funkció
Az OpenAI új iOS appja már elérhető az USA-ban és Kanadában, meghívásos rendszerben, hamarosan azonban több országban is megnyílik. Az indulásnál ingyenes, viszonylag nagyvonalú használati keret mellett lehet videókat készíteni, remixeket gyártani vagy mások MI-videóit böngészni. Ha valaki „cameózni” szeretne, elég csak egyszer rögzíteni a saját képét és hangját – ezekből a modell akárhányszor beépítheti a Sora által alkotott jelenetekbe.
A ChatGPT Pro előfizetők az alapmodellnél fejlettebb, nagyobb minőségű Sora 2 Pro-t is kipróbálhatják. Fejlesztők számára hamarosan API-n keresztül is elérhető lesz a rendszer, a régi Sora-modellek és korábbi alkotások továbbra is elérhetők maradnak.
Súlyos kihívások: deepfake, visszaélés, biztonság
Már most nyilvánvaló, hogy ez az alkalmazás számos erkölcsi és jogi kérdést vet fel. A deepfake videók készítése ugyanis rengeteg visszaélési lehetőséget rejt magában: az elmúlt hónapokban már több, nem az OpenAI-hoz kötődő botrány is volt ebből, amelyek súlyos károkat okoztak.
Az OpenAI ezért kiemelt védelmi rétegeket épített a Cameo-funkció köré: például a felhasználók teljes kontrollt kapnak a feltöltött képmásuk felett, bármikor visszavonhatják az engedélyt vagy törölhetik a saját Cameo-videóikat, beleértve a mások által készített verziókat is. Tinédzsereknél alapból napi limit, szigorúbb engedélyek és automatikusan működő biztonsági rendszerek vannak érvényben, emellett valódi moderátorok is figyelik a visszaélések lehetőségét.
Újragondolt közösségi alkalmazás, kevesebb függőséggel
Az új Sora-appban nem az a cél, hogy minél több időt töltsünk az üzenőfalon: a fejlesztők kifejezetten arra optimalizálták, hogy inkább alkossunk, ne csak fogyasszunk. Fontos kiemelni, hogy a mai közösségi médiák túlságosan stimuláló, függőséget okozó algoritmusai helyett itt egy teljesen új ajánlórendszer működik, amelyet természetes nyelvi utasításokkal lehet beállítani; nincs hagyományos lájk- vagy kommentalapú manipuláció. Ez egy bevallottan új irány, amellyel az OpenAI szándéka szerint megpróbálja elkerülni a közösségi média legkárosabb hatásait.
Végül: az MI-alapú tartalomgyártás forradalma most már tényleg elérte a hétköznapi felhasználókat is — és a Sora 2 komoly lépés ebbe az irányba, de óvatos használatot igényel mindenkitől.