2026. 03. 05., 09:57

A MI-képzés forradalma: fele annyi lépés, kétszeres eredmény

A MI-képzés forradalma: fele annyi lépés, kétszeres eredmény
A generatív MI-modellek képzése eddig egyfajta külső mestertől függött: a Stable Diffusion vagy a FLUX modellek a szöveges vagy képi tartalom megértéséhez külső, „lefagyasztott” kódolókat – például CLIP-et vagy DINOv2-t – használtak. Ez a módszer azonban elérte a határait: hiába növelték a modellek méretét, az eredmények már nem javultak érdemben, mert a külső tanár nem tudott tovább fejlődni.

Öntanítás: a külső „mesterek” ideje lejár

Ugyanekkor a német Black Forest Labs egy teljesen új megközelítést vezetett be. A Self-Flow nevű technika egy önfelügyelt, úgynevezett flow matching keretrendszer, amely lehetővé teszi, hogy maga a modell egyszerre tanuljon meg reprezentációt alkotni és képi és hangi tartalmakat generálni, mindenféle külső felügyelet nélkül. Az újítás kulcsa a Dual-Timestep Scheduling mechanizmus: ettől egyetlen modell kiemelkedő eredményt produkálhat képen, videón és hangon is, miközben megszabadul a külső tanároktól.

Ötletes „információs aszimmetria”

A hagyományos MI-generálás során a modell zajból hoz létre képet vagy videót. Ebben a folyamatban azonban nincs meg a motiváció, hogy ténylegesen megértse a tartalmat: csak az alapján dönt, hogy a végső kép miként néz ki. Korábban ezt a hiányosságot próbálták ellensúlyozni az úgynevezett külső diszkriminatív modellekkel. Ám ezek sem működnek minden esetben: más célt követnek, és többnyire nem általánosíthatók át például audio- vagy robotikai alkalmazásokra.

A Self-Flow újdonsága, hogy mesterséges információs különbséget teremt. Különböző helyeken eltérő mértékben zajosítja az inputadatokat: a tanulónak (a modell aktuális állapotának) egy nagyon eltorzított adatot mutat, míg a tanár (a modell Exponential Moving Average verziója) egy tisztább variánssal dolgozik. Így a tanulónak nemcsak a végső eredményt kell előállítania, hanem ki kell találnia azt is, hogy mit tehetne, ha „tisztábban látna”. Ez az önmagától való tanulás mély, belső szemantikai megértést eredményez a rendszerben.

Kétszer gyorsabb tanítás, valódi multimodalitás

A Self-Flow gyakorlati előnyei kifejezetten látványosak. Az új technika átlagosan 2,8-szer gyorsabban konvergál a REPA eljáráshoz képest (utóbbi mostanában ipari sztenderdnek számít). Miközben a legtöbb módszer hamar eléri a teljesítményplafont, a Self-Flow a számítási kapacitás növelésével tovább fejlődik.

Ha a tanítási lépéseket nézzük: a „hagyományos” MI nem kevesebb mint 7 millió lépést igényel, hogy elfogadható szintet érjen el. A REPA ezt 400 ezerre csökkentette, ami 17-szeres gyorsulást jelent. A Self-Flow még innen is előrelép: azonos eredményt már 143 ezer tanítási lépésből kihozza – vagyis közel 50-szer kevesebb erőforrást igényel.


Látványos eredmények három fronton

A technológiát egy 4 milliárd paraméteres multimodális modellen tesztelték, amelyet 200 millió képen, 6 millió videón és 2 millió hangtartalom-páron képeztek. Három fő területen látható áttörés:

– Tipográfia és szöveg: Az eddig MI által előállított képeken a szöveg mindig torz vagy értelmezhetetlen volt. A Self-Flow-val már összetett, olvasható feliratokat is gond nélkül generált a rendszer – egy neonfelirat például tökéletesen írta ki, hogy FLUX is multimodal.
– Időbeli konzisztencia: Videóban eltűnnek a korábbi modellekre jellemző „hallucinációk”, például a mozgó végtagok nem válnak semmivé.
– Szinergia hang és kép között: A natív reprezentáció lehetővé teszi, hogy a rendszer egyetlen utasítás alapján szinkronizált audiovizuális tartalmat generáljon. Ez eddig a külső kódolók miatt nem volt megbízható.

A mérőszámok szerint is jobb az eredmény: képi (Image FID) átlag: 3,61 (szemben a REPA 3,92-jével), videós (FVD): 47,81 (REPA: 49,59), hangos (FAD): 145,65 (az alapérték: 148,87).

Az MI útja a valóság modellezéséig

Ez volt az a pillanat, amikor minden megváltozott: a laboratóriumi eredmények mellett a kutatók egy 675 millió paraméteres változatot robotikai adathalmazon (RT-1) is finomhangoltak. Az új modell összetett, több lépéses feladatokat is magabiztosan hajtott végre a SIMPLER szimulátorban: ott, ahol a hagyományos MI gyakran kudarcot vallott („nyisd ki a fiókot, tedd bele a tárgyat” jellegű feladatoknál), a Self-Flow stabil sikerrátával dolgozott. Ez része annak a trendnek, hogy nemcsak „szép képeket” akarunk generálni, hanem olyan rendszereket fejleszteni, amelyek a fizika és a logika szabályait is megértik.

Gyakorlati megvalósítás és szabad felhasználás

Aki maga is utánajárna, most már GitHubon elérhető az ImageNet 256×256 generálásához szükséges SelfFlowPerTokenDiT architektúra (SiT-XL/2 alapján). Az implementáció tokenenkénti időlépésre kondicionál, vagyis minden bemeneti egység egyedi zajosítási fázist kap. A tanítás BFloat16 precízióval és AdamW optimalizálóval futott, a stabilitást a gradiensek levágásával biztosították.

A kutatás egyelőre előnézeti fázisban van, de máris elérhető mind a forráskód, mind a kutatási portál. Az FLUX modellcsalád sikeressége alapján a Self-Flow várhatóan hamarosan megjelenik API-ban és nyílt súlyfájlok formájában is.

Vállalati előny, új MI-korszak

Az önálló reprezentációtanulás óriási előny, mert megszabadít a nehézkes külső modellektől (pl. a DINOv2 használatától), így egyszerűsödik a fejlesztői környezet. Nincs több külön licenckezelés, nincsenek „idegen” szemantikai torzulások: az MI a céged, szakterületed saját adataiból tanul.

A Self-Flow megjelenésével az egyedi MI-fejlesztés sokkal költséghatékonyabbá vált. Már nemcsak azok járnak jól, akik nulláról fejlesztenek óriási modelleket: a finomhangolás is gyorsabb, kevesebb számítási erőforrást igényel. Így minden vállalat könnyebben építhet réspiaci megoldásokat, akár egészen speciális szakterületekre – legyen az ipari szenzoradat vagy éppen orvosi képalkotás.

A végső előny: eddig a vállalati MI-infrastruktúra sok, bonyolult, egymástól független rendszer Frankensteinje volt, gyakran harmadik féltől licencelt kóddal. A Self-Flow egységesíti a reprezentációt és a generálást. Ha nő az adatmennyiség, a modell teljesítménye is megbízhatóan skálázódik – és végre tényleg érdemes lesz hosszú távon befektetni az MI-alapú automatizálásba is.

2025, adminboss, venturebeat.com alapján

Legfrissebb posztok

kedd 20:45

A Wall Street figyelmeztet: az emberi piac nem bírja a gépsebességű kereskedést

Wall Street és a kriptovilág vezetői egyre komolyabb kihívást látnak abban, hogy a modern pénzügyi piacok az emberi tempó helyett már éjjel-nappal gépek által vezérelt, automatizált rendszerekre támaszkodnak...

kedd 20:35

A Kaptár rendezője szerint Leon Kennedy hetvenévesen is visszatérhet

👷 Leon Kennedy visszatérése az A kaptár: Rekviem (Resident Evil: Requiem) ben minden rajongó számára örömteli pillanat volt...

kedd 20:23

Az illat, amely egy csapásra a középkorba ránt

🚬 Van, aki szívesen költene 70 ezer forintot egy olyan parfümre, amely egy sárban dagonyázó középkori főhős világát idézi meg?..

kedd 20:12

Az Edge szándékosan olvashatóan tárol jelszavakat – aranybánya közös gépeken

Érdemes megvizsgálni, hogy a Microsoft Edge böngészőjében tárolt jelszavak meglepően egyszerűen, olvasható formában jelenhetnek meg a számítógép memóriájában...

kedd 20:01

A Bank of America szerint többet kellene kérni a GTA 6-ért

A Grand Theft Auto-rajongók mostanában két nagy kérdésen pörögnek: vajon csúszik-e a GTA 6 megjelenése, és mennyibe fog kerülni a játék?..

kedd 19:56

A Solana felpörög, itt a Jito saját tárcás JTX-e

⚡ A Jito Labs egy vadonatúj, önőrizetű, tárcaalapú kereskedési platformot indított a Solana-hálózaton, amely villámgyors kereskedést és profi eszközöket kínál...

kedd 19:46

Az iráni háború drágít: egy eldugott kaliforniai megyében 7 dollár a benzin

Kaliforniában olyan üzemanyagárak tarolják le a benzinkutakat, amire az országban máshol sincs példa: egy távoli, vidéki megyében már 7 dollár (kb...

kedd 19:35

Az MI elbocsát, a Kongresszus tétlen – ki fog segíteni?

Amerikában egyre nő a bizonytalanság a munkahelyek jövőjét illetően, hiszen a mesterséges intelligencia térhódítása már nemcsak elméleti kérdés...

kedd 19:23

Az Arsenal–Atlético BL-elődöntő visszavágó: hol nézhető, beharangozó

A londoni Emirates Stadionban ma este minden adott egy igazi futballünnephez: az Arsenal rendkívül közel került a Premier League trófeájához, így a szurkolók körében igazi karneváli hangulat uralkodik...

kedd 19:12

Az Amazon e-mail szolgáltatásával elszabadult a tömeges adathalászat

Érdekes felvetés, hogy az Amazon egyik fontos szolgáltatása, a Simple Email Service a totális átverések célpontjává vált...

kedd 18:56

A Microsoft szerint a Windows 11 frissítések most furcsák, de rendben vannak

Az utóbbi hónapokban a Windows 11 felhasználók többsége meglepődve tapasztalhatta, hogy a szokásos havi frissítések nem egy, hanem akár két-három újraindítást is igényelnek...

kedd 18:45

A Coinbase a Centrifuge-re támaszkodik, részesedést is szerez

A Coinbase stratégiai partnerséget kötött a Centrifuge céggel, amely ezentúl a kriptoplatform alapértelmezett tokenizációs infrastruktúrája lesz...

kedd 18:34

A kriptó igazi értéke a szabályozáson kívül van – állítja Arthur Hayes

A Bitcoin valódi ereje abban rejlik, hogy teljesen kívül áll a pénzügyi szabályozásokon...

kedd 18:24

A búcsú és az új tulajdonosok: Letterman nekimegy a CBS-nek

👋 Míg az új tulajdonosok szemében a pénz a fő szempont, Letterman személyes és keserédes emlékeket idéz, és bírálja a csatorna döntéseit...

kedd 17:13

Az új Spotify-trükkök: zseniális ötletek és totális mellényúlások

Az elmúlt hetekben számos fejlesztéssel rukkolt elő a Spotify, de a platform láthatóan még mindig nem lassít, hiszen hamarosan két új funkcióval bővülhet a kínálat...

kedd 17:01

A Bitcoin fittyet hány a bizonytalanságokra: újra felfelé tör

💰 Fontos kérdés, hogy mennyire viseli meg a Bitcoin árfolyamát a világgazdasági bizonytalanság és az amerikai jegybanki kamatpolitika váratlan fordulata...

kedd 16:56

Az új Resident Evilben tényleg újjászületnek a vérfagyasztó zombik?

Az új Resident Evil: Requiem egyik legnagyobb vonzereje Leon Kennedy, ám a zombik is szinte ugyanilyen erővel vonzzák a rajongókat...

kedd 16:45

Az egyszemű óriás Matt Damonnal: a legek Odüsszeiája

Hadd ordítsam már bele a levegőbe, hogy Matt Damon ezúttal tényleg mindent belead!..

kedd 16:23

Az Airwrap túl drága? Íme a legjobb feleáras alternatívák

💰 A hajformázás világát teljesen felforgatta az Airwrap megjelenése: a forró hengerek helyett irányított légárammal formázta a hajat, így kímélve azt...

kedd 16:12

Az Andreessen Horowitz 800 milliárddal száll be a kriptóba

💸 Az Andreessen Horowitz (a16z) 2,2 milliárd dolláros, vagyis közel 800 milliárd forintos új kriptoalapot indított, hogy a következő tíz évben minden szakaszban segítse a blokklánc-startupokat...

kedd 16:02

A mesterséges intelligencia tényleg elveszi a fiatalok munkáját?

Az MIT kutatója, Andrew McAfee szerint súlyos hiba lenne a kezdő munkaköröket teljesen automatizálni MI-vel...

kedd 15:56

Az MI felforgatja a kriptovilágot: leépítésbe kezd a Coinbase

Érdekes fejlemény, hogy a kriptovaluta-ipar egyik legnagyobb szereplője jelentős létszámleépítéssel reagál a piaci kihívásokra és a mesterséges intelligencia térnyerésére...

kedd 15:45

Az OpenAI majdnem Freeman lett – Muskot a Half‑Life ihlette

Az OpenAI egyik korai, kevéssé ismert fejezete most újabb részletekkel bővült: Elon Musk komolyan fontolgatta, hogy a vállalat neve Freeman legyen, utalva a Felezési idő (Half-Life) videojáték tudós főhősére...

kedd 15:12

Az Nvidia Kína nélkül: stratégiai mesterhúzás vagy óriási öngól?

Az Nvidia teljesen elveszítette jelenlétét a kínai MI-chip­piacon, miután az amerikai exportkorlátozások életbe léptek...

kedd 15:01

Az angol óriásbank újabb milliárdos dobása a kriptófronton

💰 Érdekes felvetés, hogy a hagyományos pénzügyi óriások egyre magabiztosabban lépnek be a kriptopiacra...

kedd 14:56

Az év krimiszenzációja: összeérhetnek a Paradise-sorozatok?

Többek között évtizedek óta nem látott crossover-őrületre készülnek a BBC sikerszériái, és a Beyond Paradise negyedik évadának szereplői már teljes erőbedobással támogatják az ötletet...

kedd 14:45

A Bullish az Equiniti felvásárlásával új pénzügyi infrastruktúrát épít

💰 Jól illusztrálja a trendet, hogy a nagyobb kriptoplatformok már nem csupán a digitális pénzek cseréjére koncentrálnak, hanem egyre inkább a hagyományos tőzsdei háttérinfrastruktúra teljes körű átalakítására is...

kedd 14:24

Az eltűnt kanadai Emoji-tó nyomában: sosem látott katasztrófa

💧 Kanada egyik leglátványosabb tava, a Quebec tartományban található Lac Rouge, különös módon, néhány nap leforgása alatt teljesen eltűnt...

kedd 13:56

Az Apple Wallet tényleg hamarosan kiváltja a plasztikkártyákat?

💳 A közelgő iOS-frissítések számos hasznos újítást hoznak az iPhone-felhasználók mindennapjaiba. Az iOS 26...