
Öntanítás: a külső „mesterek” ideje lejár
Ugyanekkor a német Black Forest Labs egy teljesen új megközelítést vezetett be. A Self-Flow nevű technika egy önfelügyelt, úgynevezett flow matching keretrendszer, amely lehetővé teszi, hogy maga a modell egyszerre tanuljon meg reprezentációt alkotni és képi és hangi tartalmakat generálni, mindenféle külső felügyelet nélkül. Az újítás kulcsa a Dual-Timestep Scheduling mechanizmus: ettől egyetlen modell kiemelkedő eredményt produkálhat képen, videón és hangon is, miközben megszabadul a külső tanároktól.
Ötletes „információs aszimmetria”
A hagyományos MI-generálás során a modell zajból hoz létre képet vagy videót. Ebben a folyamatban azonban nincs meg a motiváció, hogy ténylegesen megértse a tartalmat: csak az alapján dönt, hogy a végső kép miként néz ki. Korábban ezt a hiányosságot próbálták ellensúlyozni az úgynevezett külső diszkriminatív modellekkel. Ám ezek sem működnek minden esetben: más célt követnek, és többnyire nem általánosíthatók át például audio- vagy robotikai alkalmazásokra.
A Self-Flow újdonsága, hogy mesterséges információs különbséget teremt. Különböző helyeken eltérő mértékben zajosítja az inputadatokat: a tanulónak (a modell aktuális állapotának) egy nagyon eltorzított adatot mutat, míg a tanár (a modell Exponential Moving Average verziója) egy tisztább variánssal dolgozik. Így a tanulónak nemcsak a végső eredményt kell előállítania, hanem ki kell találnia azt is, hogy mit tehetne, ha „tisztábban látna”. Ez az önmagától való tanulás mély, belső szemantikai megértést eredményez a rendszerben.
Kétszer gyorsabb tanítás, valódi multimodalitás
A Self-Flow gyakorlati előnyei kifejezetten látványosak. Az új technika átlagosan 2,8-szer gyorsabban konvergál a REPA eljáráshoz képest (utóbbi mostanában ipari sztenderdnek számít). Miközben a legtöbb módszer hamar eléri a teljesítményplafont, a Self-Flow a számítási kapacitás növelésével tovább fejlődik.
Ha a tanítási lépéseket nézzük: a „hagyományos” MI nem kevesebb mint 7 millió lépést igényel, hogy elfogadható szintet érjen el. A REPA ezt 400 ezerre csökkentette, ami 17-szeres gyorsulást jelent. A Self-Flow még innen is előrelép: azonos eredményt már 143 ezer tanítási lépésből kihozza – vagyis közel 50-szer kevesebb erőforrást igényel.
Látványos eredmények három fronton
A technológiát egy 4 milliárd paraméteres multimodális modellen tesztelték, amelyet 200 millió képen, 6 millió videón és 2 millió hangtartalom-páron képeztek. Három fő területen látható áttörés:
– Tipográfia és szöveg: Az eddig MI által előállított képeken a szöveg mindig torz vagy értelmezhetetlen volt. A Self-Flow-val már összetett, olvasható feliratokat is gond nélkül generált a rendszer – egy neonfelirat például tökéletesen írta ki, hogy FLUX is multimodal.
– Időbeli konzisztencia: Videóban eltűnnek a korábbi modellekre jellemző „hallucinációk”, például a mozgó végtagok nem válnak semmivé.
– Szinergia hang és kép között: A natív reprezentáció lehetővé teszi, hogy a rendszer egyetlen utasítás alapján szinkronizált audiovizuális tartalmat generáljon. Ez eddig a külső kódolók miatt nem volt megbízható.
A mérőszámok szerint is jobb az eredmény: képi (Image FID) átlag: 3,61 (szemben a REPA 3,92-jével), videós (FVD): 47,81 (REPA: 49,59), hangos (FAD): 145,65 (az alapérték: 148,87).
Az MI útja a valóság modellezéséig
Ez volt az a pillanat, amikor minden megváltozott: a laboratóriumi eredmények mellett a kutatók egy 675 millió paraméteres változatot robotikai adathalmazon (RT-1) is finomhangoltak. Az új modell összetett, több lépéses feladatokat is magabiztosan hajtott végre a SIMPLER szimulátorban: ott, ahol a hagyományos MI gyakran kudarcot vallott („nyisd ki a fiókot, tedd bele a tárgyat” jellegű feladatoknál), a Self-Flow stabil sikerrátával dolgozott. Ez része annak a trendnek, hogy nemcsak „szép képeket” akarunk generálni, hanem olyan rendszereket fejleszteni, amelyek a fizika és a logika szabályait is megértik.
Gyakorlati megvalósítás és szabad felhasználás
Aki maga is utánajárna, most már GitHubon elérhető az ImageNet 256×256 generálásához szükséges SelfFlowPerTokenDiT architektúra (SiT-XL/2 alapján). Az implementáció tokenenkénti időlépésre kondicionál, vagyis minden bemeneti egység egyedi zajosítási fázist kap. A tanítás BFloat16 precízióval és AdamW optimalizálóval futott, a stabilitást a gradiensek levágásával biztosították.
A kutatás egyelőre előnézeti fázisban van, de máris elérhető mind a forráskód, mind a kutatási portál. Az FLUX modellcsalád sikeressége alapján a Self-Flow várhatóan hamarosan megjelenik API-ban és nyílt súlyfájlok formájában is.
Vállalati előny, új MI-korszak
Az önálló reprezentációtanulás óriási előny, mert megszabadít a nehézkes külső modellektől (pl. a DINOv2 használatától), így egyszerűsödik a fejlesztői környezet. Nincs több külön licenckezelés, nincsenek „idegen” szemantikai torzulások: az MI a céged, szakterületed saját adataiból tanul.
A Self-Flow megjelenésével az egyedi MI-fejlesztés sokkal költséghatékonyabbá vált. Már nemcsak azok járnak jól, akik nulláról fejlesztenek óriási modelleket: a finomhangolás is gyorsabb, kevesebb számítási erőforrást igényel. Így minden vállalat könnyebben építhet réspiaci megoldásokat, akár egészen speciális szakterületekre – legyen az ipari szenzoradat vagy éppen orvosi képalkotás.
A végső előny: eddig a vállalati MI-infrastruktúra sok, bonyolult, egymástól független rendszer Frankensteinje volt, gyakran harmadik féltől licencelt kóddal. A Self-Flow egységesíti a reprezentációt és a generálást. Ha nő az adatmennyiség, a modell teljesítménye is megbízhatóan skálázódik – és végre tényleg érdemes lesz hosszú távon befektetni az MI-alapú automatizálásba is.
