Az Alibaba nagy dobása: új MI-modell forradalmasíthatja a videózást

A kínai technológiai óriás, az Alibaba Cloud 2 milliárd jüant (kb. 110 milliárd forintot) fektetett a ShengShu nevű startupba, amely a Vidu elnevezésű MI-alapú videógeneráló eszköz fejlesztéséért felelős. Ezzel a befektetéssel az Alibaba olyan területekre lép, ahol a fókusz már nem a szövegalapú MI-modelleken, hanem a való világ minél élethűbb leképezésén van. A ShengShu fejlesztéseihez a Baidu Ventures és a TAL Education is csatlakozott, tovább erősítve az MI-mezőny átalakulását Kínában.

Videóalapú MI: új irányok és alkalmazási területek

A ShengShu célja, hogy olyan átfogó világmodellt építsen, amely többféle adatforrást – például képet, hangot, tapintási információkat – használ fel. Ezáltal az MI a fizikai világot jóval természetesebben tudja modellezni, mint a jelenlegi nagy nyelvi modellek. A fejlesztések olyan szektorokat érintenek, mint például az autonóm járművek vagy a robotika, ahol különösen fontos, hogy az MI érzékelje és megértse a környezetet.

Nem elhanyagolható tényező, hogy a cég legújabb MI-modellje, a Vidu Q3 Pro, már a top 10-ben szerepel a szöveg és képek alapján automatikusan videót generáló rendszerek között. A ShengShu partnerséget épít ki vezető robotikai cégekkel is, így a technológia emberszerű robotok fejlesztésében is alkalmazható lesz, ipari és otthoni környezetben egyaránt.

Verseny az MI-világmodellek piacán

Az Alibaba egyre nagyobb hangsúlyt fektet a világmodelleken alapuló MI-fejlesztésekre, a szöveges modellektől elmozdulva. A cég és a Baidu Ventures nemrég befektetett a Tripo AI-ba is, amely fotókból készít 3D modelleket, és korábban 60 millió dollárt (kb. 21 milliárd forintot) fektetett a PixVerse-be, amely szintén MI-alapú videógenerátorokat fejleszt. Az Alibaba saját, nyílt forráskódú MI-modellekkel és videógenerátorokkal is piacra lépett.

Végső soron az MI-nek a humán intelligencia utánzásához három képességre van szüksége: a következtetésre (reasoning), a fizikai világ megértésére és a folyamatos tanulásra. Míg a tanulási rész még fejlesztés alatt áll, az LLM-alapú chatbotok már létrehozták a tudásalapot. Ezáltal a világmodellek jelenthetik az MI következő nagy előrelépését.

2026, adrienne, www.cnbc.com alapján