2026. 03. 05., 09:57

A MI-képzés forradalma: fele annyi lépés, kétszeres eredmény

A MI-képzés forradalma: fele annyi lépés, kétszeres eredmény
A generatív MI-modellek képzése eddig egyfajta külső mestertől függött: a Stable Diffusion vagy a FLUX modellek a szöveges vagy képi tartalom megértéséhez külső, „lefagyasztott” kódolókat – például CLIP-et vagy DINOv2-t – használtak. Ez a módszer azonban elérte a határait: hiába növelték a modellek méretét, az eredmények már nem javultak érdemben, mert a külső tanár nem tudott tovább fejlődni.

Öntanítás: a külső „mesterek” ideje lejár

Ugyanekkor a német Black Forest Labs egy teljesen új megközelítést vezetett be. A Self-Flow nevű technika egy önfelügyelt, úgynevezett flow matching keretrendszer, amely lehetővé teszi, hogy maga a modell egyszerre tanuljon meg reprezentációt alkotni és képi és hangi tartalmakat generálni, mindenféle külső felügyelet nélkül. Az újítás kulcsa a Dual-Timestep Scheduling mechanizmus: ettől egyetlen modell kiemelkedő eredményt produkálhat képen, videón és hangon is, miközben megszabadul a külső tanároktól.

Ötletes „információs aszimmetria”

A hagyományos MI-generálás során a modell zajból hoz létre képet vagy videót. Ebben a folyamatban azonban nincs meg a motiváció, hogy ténylegesen megértse a tartalmat: csak az alapján dönt, hogy a végső kép miként néz ki. Korábban ezt a hiányosságot próbálták ellensúlyozni az úgynevezett külső diszkriminatív modellekkel. Ám ezek sem működnek minden esetben: más célt követnek, és többnyire nem általánosíthatók át például audio- vagy robotikai alkalmazásokra.

A Self-Flow újdonsága, hogy mesterséges információs különbséget teremt. Különböző helyeken eltérő mértékben zajosítja az inputadatokat: a tanulónak (a modell aktuális állapotának) egy nagyon eltorzított adatot mutat, míg a tanár (a modell Exponential Moving Average verziója) egy tisztább variánssal dolgozik. Így a tanulónak nemcsak a végső eredményt kell előállítania, hanem ki kell találnia azt is, hogy mit tehetne, ha „tisztábban látna”. Ez az önmagától való tanulás mély, belső szemantikai megértést eredményez a rendszerben.

Kétszer gyorsabb tanítás, valódi multimodalitás

A Self-Flow gyakorlati előnyei kifejezetten látványosak. Az új technika átlagosan 2,8-szer gyorsabban konvergál a REPA eljáráshoz képest (utóbbi mostanában ipari sztenderdnek számít). Miközben a legtöbb módszer hamar eléri a teljesítményplafont, a Self-Flow a számítási kapacitás növelésével tovább fejlődik.

Ha a tanítási lépéseket nézzük: a „hagyományos” MI nem kevesebb mint 7 millió lépést igényel, hogy elfogadható szintet érjen el. A REPA ezt 400 ezerre csökkentette, ami 17-szeres gyorsulást jelent. A Self-Flow még innen is előrelép: azonos eredményt már 143 ezer tanítási lépésből kihozza – vagyis közel 50-szer kevesebb erőforrást igényel.


Látványos eredmények három fronton

A technológiát egy 4 milliárd paraméteres multimodális modellen tesztelték, amelyet 200 millió képen, 6 millió videón és 2 millió hangtartalom-páron képeztek. Három fő területen látható áttörés:

– Tipográfia és szöveg: Az eddig MI által előállított képeken a szöveg mindig torz vagy értelmezhetetlen volt. A Self-Flow-val már összetett, olvasható feliratokat is gond nélkül generált a rendszer – egy neonfelirat például tökéletesen írta ki, hogy FLUX is multimodal.
– Időbeli konzisztencia: Videóban eltűnnek a korábbi modellekre jellemző „hallucinációk”, például a mozgó végtagok nem válnak semmivé.
– Szinergia hang és kép között: A natív reprezentáció lehetővé teszi, hogy a rendszer egyetlen utasítás alapján szinkronizált audiovizuális tartalmat generáljon. Ez eddig a külső kódolók miatt nem volt megbízható.

A mérőszámok szerint is jobb az eredmény: képi (Image FID) átlag: 3,61 (szemben a REPA 3,92-jével), videós (FVD): 47,81 (REPA: 49,59), hangos (FAD): 145,65 (az alapérték: 148,87).

Az MI útja a valóság modellezéséig

Ez volt az a pillanat, amikor minden megváltozott: a laboratóriumi eredmények mellett a kutatók egy 675 millió paraméteres változatot robotikai adathalmazon (RT-1) is finomhangoltak. Az új modell összetett, több lépéses feladatokat is magabiztosan hajtott végre a SIMPLER szimulátorban: ott, ahol a hagyományos MI gyakran kudarcot vallott („nyisd ki a fiókot, tedd bele a tárgyat” jellegű feladatoknál), a Self-Flow stabil sikerrátával dolgozott. Ez része annak a trendnek, hogy nemcsak „szép képeket” akarunk generálni, hanem olyan rendszereket fejleszteni, amelyek a fizika és a logika szabályait is megértik.

Gyakorlati megvalósítás és szabad felhasználás

Aki maga is utánajárna, most már GitHubon elérhető az ImageNet 256×256 generálásához szükséges SelfFlowPerTokenDiT architektúra (SiT-XL/2 alapján). Az implementáció tokenenkénti időlépésre kondicionál, vagyis minden bemeneti egység egyedi zajosítási fázist kap. A tanítás BFloat16 precízióval és AdamW optimalizálóval futott, a stabilitást a gradiensek levágásával biztosították.

A kutatás egyelőre előnézeti fázisban van, de máris elérhető mind a forráskód, mind a kutatási portál. Az FLUX modellcsalád sikeressége alapján a Self-Flow várhatóan hamarosan megjelenik API-ban és nyílt súlyfájlok formájában is.

Vállalati előny, új MI-korszak

Az önálló reprezentációtanulás óriási előny, mert megszabadít a nehézkes külső modellektől (pl. a DINOv2 használatától), így egyszerűsödik a fejlesztői környezet. Nincs több külön licenckezelés, nincsenek „idegen” szemantikai torzulások: az MI a céged, szakterületed saját adataiból tanul.

A Self-Flow megjelenésével az egyedi MI-fejlesztés sokkal költséghatékonyabbá vált. Már nemcsak azok járnak jól, akik nulláról fejlesztenek óriási modelleket: a finomhangolás is gyorsabb, kevesebb számítási erőforrást igényel. Így minden vállalat könnyebben építhet réspiaci megoldásokat, akár egészen speciális szakterületekre – legyen az ipari szenzoradat vagy éppen orvosi képalkotás.

A végső előny: eddig a vállalati MI-infrastruktúra sok, bonyolult, egymástól független rendszer Frankensteinje volt, gyakran harmadik féltől licencelt kóddal. A Self-Flow egységesíti a reprezentációt és a generálást. Ha nő az adatmennyiség, a modell teljesítménye is megbízhatóan skálázódik – és végre tényleg érdemes lesz hosszú távon befektetni az MI-alapú automatizálásba is.

2025, adminboss, venturebeat.com alapján

Legfrissebb posztok

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad) FormatX: Video Audio Converter (iPhone/iPad) CrestWall – 4K Wallpapers (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Lively Letters – Phonics (iPhone/iPad) Monthly Dystopia (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) War Mongrels (iPhone/iPad) ContactVault Pro (iPhone/iPad) Planetary Hours + Widget (iPhone/iPad) Risp:...

APP
szerda 09:11

APPok, Amik Ingyenesek MA, 6/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Planetary Hours + Widget (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) Monthly Dystopia (iPhone/iPad) War Mongrels (iPhone/iPad) ContactVault Pro (iPhone/iPad) FormatX: Video Audio Converter (iPhone/iPad) ImgRef (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) CrestWall – 4K Wallpapers...

kedd 19:34

A Wharton szerint később ürülhet ki a TB-kassza

A pennsylvaniai Wharton Egyetem új kutatása szerint a társadalombiztosítás nyugdíjalapja a vártnál később apadhat el...

kedd 19:23

A Star Wars-legenda Mark Hamill kulcsszerepben a Twisted Metalban

🤓 Mark Hamill, akit a Csillagok háborúja (Star Wars) világából Luke Skywalkerként őrzünk emlékezetünkben, csatlakozik a Csavart fém (Twisted Metal) sorozat harmadik évadához...

kedd 19:12

A Firefox 152 megújul: jön a JPEG XL, új beállítások

A Firefox böngésző legfrissebb, 152-es verziója több fontos fejlesztést hoz. A leglátványosabb változás a teljesen átalakított beállítási felület, amely átláthatóbbá és egyszerűbben kezelhetővé teszi a böngésző személyre szabását...

kedd 19:02

Az első nukleáris óra elindult – jön az ötödik kölcsönhatás?

⚡ Tipikus eset, amikor egy évtizedeken át lehetetlennek hitt ötlet hirtelen valósággá válik...

kedd 18:57

Az új Pókember-film sztárjai: a Galaxy Z Flip 7 és Fold 7

🚀 A Samsung legújabb büszkeségei, a Galaxy Z Flip 7 és a Galaxy Z Fold 7 komoly szerepet kaptak a Pókember: Vadonatúj nap (Spider-Man: Brand New Day) című filmben...

kedd 18:45

Az ultramély kutatás: Sakana AI 100 oldalas jelentést készít 8 óra alatt

🔬 Tokióban egy új MI-alapú vállalkozás, a Sakana AI dobta piacra a Marlint, első kereskedelmi termékét, amely forradalmasíthatja a vállalati kutatási jelentéseket...

kedd 18:24

Az új Ebola-járvány mekkora veszélyt jelent?

A Kongói Demokratikus Köztársaságot sújtó új Ebola-járvány már a harmadik legnagyobbnak számít a világon...

kedd 18:02

A CISA figyelmeztet: újabb cPanel-bővítmény-hibát aktívan kihasználnak

Az amerikai kiberbiztonsági hivatal, a CISA háromnapos határidőt adott az állami szerveknek, hogy frissítsék a LiteSpeed cPanel felhasználói bővítményét, miután ismertté vált egy aktívan kihasznált sérülékenység, amellyel a szervereket támadják...

kedd 17:11

A Hold-méretű, száguldó ütköző, amely felforgatta a Vénusz forgását

Ami először apróságnak tűnt, mára a Vénusz egyik legnagyobb rejtélyévé vált: a bolygó rendkívül lassú, ráadásul ellentétes irányú tengely körüli forgása...

kedd 17:01

A zsarolóbandák a Microsoft Teams reléivel álcázzák forgalmukat

Érdemes megvizsgálni, milyen kifinomult módszereket alkalmaznak a bűnözők, amikor eltüntetik rosszindulatú forgalmukat a védekezésre berendezkedett rendszerek elől...

kedd 16:55

Az okos medál, ami jelzi, meddig napozhatsz leégés nélkül

A legtöbb viselhető kütyü a lépéseidet, a pulzusodat vagy a véroxigénszintedet méri, de most érkezett egy olyan eszköz, ami teljesen másra fókuszál: a bőröd egészségére és a napsugárzás követésére...

kedd 16:45

Hány elemi részecske létezik valójában?

😰 Fontos kérdés, hogy hányféle elemi részecske létezik valójában. A fizikában ez nem is olyan egyszerű, mint amilyennek elsőre tűnhet...

kedd 16:12

A Threads már havi félmilliárd felhasználónál jár

Felmerül a kérdés, hogy mi állhat a Meta új szöveges közösségi hálójának hatalmas népszerűsége mögött...

kedd 15:56

A nő, aki Elon Musk mellett óriássá tette a SpaceXet

🚀 Gwynne Shotwell nevét a nagyközönség ritkán hallja, pedig nélküle elképzelhetetlen volna a SpaceX hihetetlen felemelkedése...

kedd 15:45

Az Nvidia 25 milliárd dolláros kötvénykibocsátással turbózza az MI-versenyt

Megemlíthető, hogy az Nvidia, a világ egyik vezető chipgyártója, öt év után először ismét jelentős kötvénykibocsátásra készül: több mint 25 milliárd dollár (kb...

kedd 15:25

A Samsung S95H OLED: lenyűgöző, de nem a várt Frame TV

Minden évben hatalmas felhajtás övezi a legújabb televíziókat, és mostanra a Samsung S95H OLED igazi különlegességnek számít ebben a mezőnyben...

kedd 15:01

A SprySOCKS új Windows-változata kormányzati rendszereket támad világszerte

A SprySOCKS néven ismert kártékony szoftver elsőként Linux rendszereken tűnt fel, de a közelmúltban megjelentek Windows-változatai is, amelyek kormányzati szervezeteket céloznak több országban, köztük Tajvanban, Thaiföldön, Pakisztánban és Hondurasban...

kedd 14:44

A Gmail AI-összegzései már mindenkinél futnak – így kapcsolod ki

Többek között már nem kell magadnak elolvasnod az e-maileket: a Gemini ezentúl átnézi őket helyetted – akár akarod, akár nem...

kedd 13:57

A 2026-os Razer Blade 18 letarolja a mezőnyt – ha meg tudod fizetni

🚀 A Razer Blade 18 (2026) ismét új szintre emeli, mit jelent egy valódi gamer laptop...

kedd 13:34

A Fortinet FortiSandbox kritikus sebezhetőségeit már aktívan kihasználják

⚠ Felmerül a kérdés, mennyire vagyunk biztonságban, ha még a legnagyobb kiberbiztonsági cégek termékei is súlyos hibákat rejtenek...

kedd 13:23

Az új COVID-oltások továbbra is óvják a szívet, kutatás szerint

Bár a legtöbb amerikai már nem igényli a szezonális COVID-19-oltásokat, a legújabb vakcinák továbbra is jelentős védelmet nyújtanak a szív- és érrendszeri megbetegedések ellen, különösen a 75 év felettieknek és a krónikus betegségben szenvedőknek...

kedd 13:01

Az iRhythm közölte: hackerek ellopták a betegek adatait

🔒 A digitális egészségügyi szolgáltató iRhythm Holdings súlyos adatlopást jelentett be, miután hackerek érzékeny személyes és egészségügyi adatokat tulajdonítottak el a cég által használt külső üzleti alkalmazásokból...

kedd 12:46

Az Atacama közepe a hittnél 20 millió évvel korábban száradt ki

🌍 Chile északi részén, a Föld egyik legszárazabb területén húzódik az Atacama-sivatag, amely évente átlagosan kevesebb mint 5 milliméter csapadékot kap...

kedd 12:34

Az Xbox Game Studios vezetője és stábfőnöke távozik – jön a reset?

Lényeges szempont, hogy a vezetői szintű távozások megrázhatják az egész játékipart, különösen akkor, ha azokat komoly változások előzik meg...

kedd 12:24

Az amerikaiak miért utálják egyre jobban az MI-adatközpontokat?

Az idei év elején egy hatalmas, hat darab, egyenként 21 méter magas épületből álló adatközpont terveit ejtették Észak-Karolinában, miután a fejlesztőt szigorodó szabályok és a helyi lakosság tiltakozása miatt visszalépésre kényszerítették...