Az MI-s videómodellek még tanulgatják, hogyan legyenek élethűek

Az MI-s videómodellek még tanulgatják, hogyan legyenek élethűek
Az elmúlt hónapokban hatalmas fejlődést láthattunk a generatív MI-videómodellek terén, ám továbbra is kérdéses: mennyire képesek ezek a modellek valóban megérteni és utánozni a valós világ működését? A Google DeepMind kutatói tudományos precizitással vizsgálták meg a legújabb Veo 3 videómodellt, hogy milyen mértékben képes a világról tanulni pusztán adatok és videók alapján, illetve mennyire tud új, eddig nem látott feladatokat megoldani.

Fényes sikerek, sötét kudarcok

Érdemes kiemelni, hogy a Veo 3 modell számos tesztfeladaton meglepően jól teljesített: képes volt például robotkéz-mozdulatokat, tárgyak dobását és elkapását, homályos vagy zajos képek helyreállítását, bonyolult képek kitöltését, illetve élek felismerését végrehajtani. Ezeken a feladatokon rendre 12 próbálkozásból 12-szer jó eredményt mutatott.

Ennek ellenére bőven akadnak hiányosságok is. Ha például egy adott betűt kellett volna kiemelni egy rácson, az esetek 75%-ában hibázott. Egy Bunsen-égő lángjának és papír elégésének szimulációjánál is kilencszer elbukott a 12 próbából. Labirintusmegoldásban tízszer, buborékszámozásnál tizenegyszer vallott kudarcot.

A kutatók érdekes mércét alkalmaznak: számukra az is siker, ha egy 12 próbából álló teszten legalább egyszer sikerrel jár a modell. Teljes kudarcnak pedig azt tekintették, ahol mind a 12 alkalommal elbukott – ez 62 feladat közül 16-szor fordult elő.

Sikerek háttere és a fejlődési ütem

Gyakorlati szempontból ezek az adatok elgondolkodtatók: egy önvezető autónál vagy robotnál nem nagyon fér bele, ha tízből nyolcszor hibázik. Az MI-iparban azonban gyakori az optimista hozzáállás, így olyan eredményeket is sikerként értékelnek, ahol a modell csak minden tizenkettedik alkalommal teljesít.

Ennek ellenére a mérnökök mégis bizakodók: a Veo 3 számos feladatban látványosan felülmúlta elődjét, a Veo 2-t. Például a horizontális mintázatok felismerésénél a sikerarány 0%-ról 72%-ra nőtt, az élfelismerés, tárgykivágás vagy labirintusmegoldás terén is mérhetően javult.

Külön említendő, hogy a szakemberek szerint a fejlődés gyors, és hamarosan a videómodellek is egyfajta univerzális MI-alapmodellé válhatnak, ahogy azt a nagy nyelvi modelleknél (LLM) már láttuk.

A következő mérföldkő még várat magára

Mindazonáltal a következtetés világos: bár az MI-videómodellek látványosak, a mai eredmények alapján egyáltalán nem mondható, hogy stabilan és megbízhatóan értelmeznék vagy modelleznék a valóság szabályszerűségeit. Az ok-okozati összefüggések felismerése vagy a feladatok egyenletes, hibamentes végrehajtása még várat magára, így továbbra is bőven van teendő, mire ezek a rendszerek valóban megbízhatóan tükrözik majd világunk működését.

2025, adminboss, arstechnica.com alapján

  • Te szerinted mennyi hibát szabad megengedni egy ilyen rendszernek?
  • Te mit éreznél, ha rád is hatással lenne egy MI modell hibája?
  • Szerinted etikus lenne fontos döntéseket kizárólag egy ilyen MI-re bízni?


Legfrissebb posztok

csütörtök 12:25

A 6 legbénább szexuális célzás a marketing történelemben

A szex használata a reklámban egyidős annak létrejöttével. Ezer százalék, hogy az első reklámban ami az első kereket reklámozta, rögtön kettőt raktak egymás mellé, hogy egy pár cickóra hasonlítson...

kedd 14:10

Egy könyvvel az ellenség szívéhez – Franklin megdöbbentő módszere

Egy nap eszébe jutott valami merész és szokatlan. Tudta, hogy ellenfelének könyvtárában számos ritka és értékes kötet található, melyekre nagy becsben tartott, és az is köztudott volt, hogy igazi büszkesége egyik különleges könyv volt, amelyet csak kevesen olvashattak...

MA 12:01

Nincs bizonyíték az acetaminofen és az autizmus kapcsolatára

Az utóbbi években egyre többen aggódtak amiatt, hogy a terhesség alatti acetaminofen (közismert nevén paracetamol; angolul Tylenol) használata növelheti a gyermekeknél az autizmus vagy az ADHD kialakulásának kockázatát...

MA 11:53

Feltárták Peru egyik legrejtélyesebb piacának titkát

Peru déli részén, a Pisco-völgy szélén évtizedek óta rejtélyes látvány fogadja az odalátogatót: Monte Sierpe, vagyis a „Lyuksor”, több mint 5000 tökéletesen sorba rendezett gödröt vonultat fel a kopár domboldalon...

MA 11:42

Az MI-cégek sorra kiszivárogtatják titkos API-kulcsaikat

🔒 A Wiz felhőbiztonsági vállalat figyelmeztet: a legnagyobb MI-cégek sem kezelik jobban a saját titkaikat, mint bármely más szoftverfejlesztő...

MA 11:31

Újabb áremelés a Paramount Plusnál: vége az ingyenes próbának is

💸 2026 elején ismét drágul a Paramount Plus: az Essential csomag havi díja 2 950 forintról 3 300 forintra, a reklámmentes Premium csomagé pedig 4 800 forintról 5 150 forintra nő...

MA 11:22

Az anyanyelv hatással van arra, hogyan olvasunk

📖 Az olvasás egész életünkön át elkísér, a sikeres beilleszkedés pedig gyakran múlik azon, mennyire tudunk gördülékenyen olvasni egy új ország nyelvén...

MA 11:11

Az MI végre beköltözik a Google TV Streamerbe

🤖 A Google újabb szintre emeli a Google TV Streamer élményét: mostantól a Gemini nevű MI-asszisztens is elérhető rajta...

MA 11:01

Az igazi hackerkirály kitálal: így működik a kiberbűnözés

A kibervilág egyik legnagyobb bűnözője, Vjacseszlav „Tank” Pencsukov most börtönből meséli el, hogyan szerveződtek a modern hekkercsoportok, és milyen hibák vezettek a lebukásához...

MA 10:58

Az MI agyában a memorizálás és a gondolkodás másként működik

💡 Amikor a mérnökök hatalmas nyelvi modelleket, például a GPT-5-öt fejlesztenek, két látványosan eltérő képesség bukkan fel: a memorizálás, vagyis a már látott szövegek pontos visszamondása – ilyenek például idézetek vagy regényrészletek –, és az érvelés, azaz amikor a modell új helyzetekben próbál elvont összefüggések alapján megoldani problémákat...

MA 10:51

A Neutron rakéta bemutatását 2026-ra halasztják

🚀 A Rocket Lab közepes teherbírású Neutron rakétájának első indítását ismét elhalasztották; a vállalat tervei szerint legkorábban 2026 nyarán kezdődhetnek meg a próbarepülések...

MA 10:44

Észak-koreai hackerek egy gombnyomással törölhetik az Androidodat

🕵 Az utóbbi hetekben Észak-Korea hírhedt APT37-es hackercsoportja új módszerrel támad dél-koreai célpontokat: a Google Eszközkereső (Find My Device) szolgáltatást használják arra, hogy Android-készülékeket távolról töröljenek, ellehetetlenítve az áldozatok hozzáférését adataikhoz...

MA 10:37

A Gemini asszisztens lassan indul, a Google Home még zűrzavaros

💡 A Google okosotthonos eszközein új szakasz kezdődött: a lassan elérhetővé váló Gemini hangasszisztens átveszi az irányítást a Google Home hangszórói és kijelzői felett...

MA 10:30

Izraeli MI-avatárok tarolnak, a Kaltura ismét nagyot lépett

A New York-i székhelyű, MI-alapú videoplatformjairól ismert Kaltura idén közel 10 milliárd forintért (27 millió USD, kb...

MA 10:23

Kanada elvesztette a kanyarómentes státuszát: újra terjed a járvány

😷 Kanada hivatalosan elvesztette a kanyarómentes státuszát, miután a 2024-ben kezdődött, hosszan tartó járvány megszakítás nélkül terjed az országban...

MA 10:16

Az intersztelláris üstökös nem földönkívüli, mégis izgalmasabb

Az űrkutatás világában fel-fellángolnak a találgatások, amikor egy új égi jelenség tűnik fel, és az idegenek témája szinte mindig előkerül...

MA 09:57

Kanada elveszítette a kanyarómentességet, újra itt a járvány

😷 Kanada 1998-ban még teljesen felszámolta a kanyarót, most azonban a rendkívül fertőző vírus ismét endémiásnak számít az országban...

MA 09:51

Homerek özöne lepi el Springfieldet, új Fortnite-őrület söpör végig

😂 Több mint egy hét telt el azóta, hogy Springfield beköltözött a Fortnite-ba, és máris őrületes újdonságok érkeznek...

MA 09:43

Az új MI-s Google Home, káosz vagy valódi okosotthon?

A Google új, MI-alapú Gemini hangasszisztensét fokozatosan vezetik be az okoskijelzőkre és okoshangszórókra, de a felhasználói tapasztalatok alapján egyelőre rengeteg a zavar és a hiányosság...