
Videóalapú MI: új irányok és alkalmazási területek
A ShengShu célja, hogy olyan átfogó világmodellt építsen, amely többféle adatforrást – például képet, hangot, tapintási információkat – használ fel. Ezáltal az MI a fizikai világot jóval természetesebben tudja modellezni, mint a jelenlegi nagy nyelvi modellek. A fejlesztések olyan szektorokat érintenek, mint például az autonóm járművek vagy a robotika, ahol különösen fontos, hogy az MI érzékelje és megértse a környezetet.
Nem elhanyagolható tényező, hogy a cég legújabb MI-modellje, a Vidu Q3 Pro, már a top 10-ben szerepel a szöveg és képek alapján automatikusan videót generáló rendszerek között. A ShengShu partnerséget épít ki vezető robotikai cégekkel is, így a technológia emberszerű robotok fejlesztésében is alkalmazható lesz, ipari és otthoni környezetben egyaránt.
Verseny az MI-világmodellek piacán
Az Alibaba egyre nagyobb hangsúlyt fektet a világmodelleken alapuló MI-fejlesztésekre, a szöveges modellektől elmozdulva. A cég és a Baidu Ventures nemrég befektetett a Tripo AI-ba is, amely fotókból készít 3D modelleket, és korábban 60 millió dollárt (kb. 21 milliárd forintot) fektetett a PixVerse-be, amely szintén MI-alapú videógenerátorokat fejleszt. Az Alibaba saját, nyílt forráskódú MI-modellekkel és videógenerátorokkal is piacra lépett.
Végső soron az MI-nek a humán intelligencia utánzásához három képességre van szüksége: a következtetésre (reasoning), a fizikai világ megértésére és a folyamatos tanulásra. Míg a tanulási rész még fejlesztés alatt áll, az LLM-alapú chatbotok már létrehozták a tudásalapot. Ezáltal a világmodellek jelenthetik az MI következő nagy előrelépését.
