MA 09:57

A MI-képzés forradalma: fele annyi lépés, kétszeres eredmény

A MI-képzés forradalma: fele annyi lépés, kétszeres eredmény
A generatív MI-modellek képzése eddig egyfajta külső mestertől függött: a Stable Diffusion vagy a FLUX modellek a szöveges vagy képi tartalom megértéséhez külső, „lefagyasztott” kódolókat – például CLIP-et vagy DINOv2-t – használtak. Ez a módszer azonban elérte a határait: hiába növelték a modellek méretét, az eredmények már nem javultak érdemben, mert a külső tanár nem tudott tovább fejlődni.

Öntanítás: a külső „mesterek” ideje lejár

Ugyanekkor a német Black Forest Labs egy teljesen új megközelítést vezetett be. A Self-Flow nevű technika egy önfelügyelt, úgynevezett flow matching keretrendszer, amely lehetővé teszi, hogy maga a modell egyszerre tanuljon meg reprezentációt alkotni és képi és hangi tartalmakat generálni, mindenféle külső felügyelet nélkül. Az újítás kulcsa a Dual-Timestep Scheduling mechanizmus: ettől egyetlen modell kiemelkedő eredményt produkálhat képen, videón és hangon is, miközben megszabadul a külső tanároktól.

Ötletes „információs aszimmetria”

A hagyományos MI-generálás során a modell zajból hoz létre képet vagy videót. Ebben a folyamatban azonban nincs meg a motiváció, hogy ténylegesen megértse a tartalmat: csak az alapján dönt, hogy a végső kép miként néz ki. Korábban ezt a hiányosságot próbálták ellensúlyozni az úgynevezett külső diszkriminatív modellekkel. Ám ezek sem működnek minden esetben: más célt követnek, és többnyire nem általánosíthatók át például audio- vagy robotikai alkalmazásokra.

A Self-Flow újdonsága, hogy mesterséges információs különbséget teremt. Különböző helyeken eltérő mértékben zajosítja az inputadatokat: a tanulónak (a modell aktuális állapotának) egy nagyon eltorzított adatot mutat, míg a tanár (a modell Exponential Moving Average verziója) egy tisztább variánssal dolgozik. Így a tanulónak nemcsak a végső eredményt kell előállítania, hanem ki kell találnia azt is, hogy mit tehetne, ha „tisztábban látna”. Ez az önmagától való tanulás mély, belső szemantikai megértést eredményez a rendszerben.

Kétszer gyorsabb tanítás, valódi multimodalitás

A Self-Flow gyakorlati előnyei kifejezetten látványosak. Az új technika átlagosan 2,8-szer gyorsabban konvergál a REPA eljáráshoz képest (utóbbi mostanában ipari sztenderdnek számít). Miközben a legtöbb módszer hamar eléri a teljesítményplafont, a Self-Flow a számítási kapacitás növelésével tovább fejlődik.

Ha a tanítási lépéseket nézzük: a „hagyományos” MI nem kevesebb mint 7 millió lépést igényel, hogy elfogadható szintet érjen el. A REPA ezt 400 ezerre csökkentette, ami 17-szeres gyorsulást jelent. A Self-Flow még innen is előrelép: azonos eredményt már 143 ezer tanítási lépésből kihozza – vagyis közel 50-szer kevesebb erőforrást igényel.


Látványos eredmények három fronton

A technológiát egy 4 milliárd paraméteres multimodális modellen tesztelték, amelyet 200 millió képen, 6 millió videón és 2 millió hangtartalom-páron képeztek. Három fő területen látható áttörés:

– Tipográfia és szöveg: Az eddig MI által előállított képeken a szöveg mindig torz vagy értelmezhetetlen volt. A Self-Flow-val már összetett, olvasható feliratokat is gond nélkül generált a rendszer – egy neonfelirat például tökéletesen írta ki, hogy FLUX is multimodal.
– Időbeli konzisztencia: Videóban eltűnnek a korábbi modellekre jellemző „hallucinációk”, például a mozgó végtagok nem válnak semmivé.
– Szinergia hang és kép között: A natív reprezentáció lehetővé teszi, hogy a rendszer egyetlen utasítás alapján szinkronizált audiovizuális tartalmat generáljon. Ez eddig a külső kódolók miatt nem volt megbízható.

A mérőszámok szerint is jobb az eredmény: képi (Image FID) átlag: 3,61 (szemben a REPA 3,92-jével), videós (FVD): 47,81 (REPA: 49,59), hangos (FAD): 145,65 (az alapérték: 148,87).

Az MI útja a valóság modellezéséig

Ez volt az a pillanat, amikor minden megváltozott: a laboratóriumi eredmények mellett a kutatók egy 675 millió paraméteres változatot robotikai adathalmazon (RT-1) is finomhangoltak. Az új modell összetett, több lépéses feladatokat is magabiztosan hajtott végre a SIMPLER szimulátorban: ott, ahol a hagyományos MI gyakran kudarcot vallott („nyisd ki a fiókot, tedd bele a tárgyat” jellegű feladatoknál), a Self-Flow stabil sikerrátával dolgozott. Ez része annak a trendnek, hogy nemcsak „szép képeket” akarunk generálni, hanem olyan rendszereket fejleszteni, amelyek a fizika és a logika szabályait is megértik.

Gyakorlati megvalósítás és szabad felhasználás

Aki maga is utánajárna, most már GitHubon elérhető az ImageNet 256×256 generálásához szükséges SelfFlowPerTokenDiT architektúra (SiT-XL/2 alapján). Az implementáció tokenenkénti időlépésre kondicionál, vagyis minden bemeneti egység egyedi zajosítási fázist kap. A tanítás BFloat16 precízióval és AdamW optimalizálóval futott, a stabilitást a gradiensek levágásával biztosították.

A kutatás egyelőre előnézeti fázisban van, de máris elérhető mind a forráskód, mind a kutatási portál. Az FLUX modellcsalád sikeressége alapján a Self-Flow várhatóan hamarosan megjelenik API-ban és nyílt súlyfájlok formájában is.

Vállalati előny, új MI-korszak

Az önálló reprezentációtanulás óriási előny, mert megszabadít a nehézkes külső modellektől (pl. a DINOv2 használatától), így egyszerűsödik a fejlesztői környezet. Nincs több külön licenckezelés, nincsenek „idegen” szemantikai torzulások: az MI a céged, szakterületed saját adataiból tanul.

A Self-Flow megjelenésével az egyedi MI-fejlesztés sokkal költséghatékonyabbá vált. Már nemcsak azok járnak jól, akik nulláról fejlesztenek óriási modelleket: a finomhangolás is gyorsabb, kevesebb számítási erőforrást igényel. Így minden vállalat könnyebben építhet réspiaci megoldásokat, akár egészen speciális szakterületekre – legyen az ipari szenzoradat vagy éppen orvosi képalkotás.

A végső előny: eddig a vállalati MI-infrastruktúra sok, bonyolult, egymástól független rendszer Frankensteinje volt, gyakran harmadik féltől licencelt kóddal. A Self-Flow egységesíti a reprezentációt és a generálást. Ha nő az adatmennyiség, a modell teljesítménye is megbízhatóan skálázódik – és végre tényleg érdemes lesz hosszú távon befektetni az MI-alapú automatizálásba is.

2025, adminboss, venturebeat.com alapján

Legfrissebb posztok

MA 12:03

A világegyetem legfényesebb jelzőfénye most ránk céloz

💡 A tudomány ismét elképesztő felfedezést tett: egy gigantikus űrlézert, azaz úgynevezett megamasert sikerült észlelni, amely 8 milliárd fényévnyi távolságból sugároz felénk...

MA 11:59

Az Epic diadala: olcsóbb és nyitottabb lett a Play Áruház

🎉 A Google jelentős változtatásokat vezet be a Play Áruházban, miután éveken át jogi csatát vívott az Epic Games-szel, a Fortnite fejlesztőjével...

MA 11:02

Az MI-orvos megszületett, de könnyű rászedni

🩺 Az Egyesült Államokban egyre többször vonnak be MI-rendszereket az egészségügybe, azonban egy friss vizsgálat aggasztó eredményekre jutott...

MA 10:55

Az áttörés küszöbén: génterápia ad reményt Dravet-betegeknek

Dravet-szindróma esetén már néhány éves korban sűrű, gyakran életveszélyes epilepsziás rohamok jelennek meg, miközben a gyerekek szellemi fejlődése is lelassul...

MA 10:49

A Google Gemini sötét oldala: halálos küldetések MI-vezérléssel

Egy floridai férfi azután vetett véget az életének, hogy a Google Gemini chatbot előbb arra biztatta, ártatlanokat öljön meg, majd öngyilkossági visszaszámlálást indított el a beszélgetésben...

MA 10:37

A szárnyaló kriptopiac fittyet hány a háborús félelmekre

Jól illusztrálja ezt, hogy a legfontosabb kriptodevizák – köztük az ether, a solana és az xrp – hirtelen nagyot ugrottak, miközben a globális részvénypiacok is felpattantak, a befektetők pedig mérsékelték a háborús kockázatoktól való félelmüket...

MA 10:29

Az Apple szakít a régi nevekkel – jön az új chipkorszak

Az Apple processzorai körül zajló egyik meglepő változás, hogy átnevezték a különböző típusú CPU-magokat...

MA 10:19

Az OLED-rajongók álma: LG 2026-os tévéi horroráron

Végre kiderültek az LG 2026-os OLED tévéinek árai, de még mielőtt örömkönnyeket hullatnál a boldogságtól, jön a feketeleves...

MA 10:03

Az absztrakt matematika lehet a világ megmentésének kulcsa?

🧠 A matematika évszázadok óta inspirál, elegáns struktúrákat és tiszta logikát kínál...

MA 09:46

Az otthonod élőben: jön a Google MI-alapú kameranézete

A Google Gemini for Home eddig csak a már rögzített biztonsági kamerafelvételekhez fért hozzá...

MA 09:38

Az elhízás elleni szerek meglepően védhetnek a függőségtől

A legújabb kutatások szerint a GLP-1 típusú, cukorbetegség elleni és fogyást elősegítő gyógyszerek, például az Ozempic vagy a Wegovy, nemcsak testsúlycsökkentésre alkalmasak, hanem jelentős védelmet is nyújthatnak különféle szenvedélybetegségek kialakulása ellen...

MA 09:28

A Google NotebookLM mozifilmes szintre emeli az AI‑videókat

Most őszintén, észrevetted már, hogy az unalmas oktatóvideók teljesen átalakulnak? A Google Ultra‑előfizetők számára már ma elérhető egy vadiúj funkció: a filmszerű áttekintő videók (Cinematic Video Overviews)...

MA 09:20

A Bing teríti a fertőzött OpenClaw-telepítőket

Az OpenClaw nevű MI-ügynök azért is veszélyes, mert képes szinte bármilyen feladatot automatizálni – de most egy újabb kockázat jelent meg: hamis telepítők lepték el az internetet, amelyek kártékony programokat terjesztenek...

MA 09:10

A bosszantó Windows 10 helyreállítási hiba végre a múlté!

👍 Megint érkezett egy frissítés a Windowsra, de most tényleg jól jártunk: végre helyrehozták azt a borzalmas hibát, ami miatt hónapok óta nem volt elérhető a Windows 10 helyreállítási környezete (Recovery Environment, WinRE)...

MA 09:01

Az AWS leállt: pánik tört ki a Közel-Kelet techvilágában

Dróntámadások és rakétacsapások súlyos károkat okoztak az AWS adatközpontjaiban az Egyesült Arab Emírségekben és Bahreinben, megbénítva a felhőszolgáltatásokat...

MA 08:55

Az igazság órája: Zuckerberg mentegeti a Metát

🕑 Mark Zuckerberg előre rögzített tanúvallomásában felelt a Meta gyermekvédelmi perének esküdtszéke előtt Új-Mexikóban...

MA 08:47

A Pentagon és az MI-óriások új fronton csapnak össze

🗡 Felmerül a kérdés, hogy mennyire tud együttműködni a technológiai szektor a hadsereggel, ha a nemzetbiztonság és a mesterséges intelligencia fejlődése összeütközik...

MA 08:37

Az óriáspapagájok bébiboomja: bogyóünnep Új-Zélandon

🦜 A világ legnagyobb és legfurcsább papagájai, a kākāpōk történelmi szaporodási rohamot produkáltak Új-Zéland erdeiben, hála az elmúlt évtizedek legnagyobb rimu bogyótermésének...

MA 08:28

Az eddigieknél is durvább a tengerszint-emelkedés – észre sem vettük?

🌊 A tengerparti élet olyan, mint egy csillogó Insta-feed: mindenki odaköltözne, ha tehetné...

MA 08:21

Az MI forradalma a genomikában: megérkezett az Evo 2 óriásmodell

A bakteriális genetika után most a teljes élővilág genetikai térképéhez nyúlt hozzá az Evo 2, egy mindenki számára hozzáférhető, óriási MI-alapú genommodell...

MA 08:01

A Google megnyirbálja a 30%-os alkalmazásbolt-jutalékot

A világ legnagyobb Android-alkalmazásboltja, a Google Play, jelentős változáson megy át: a fejlesztők által fizetett jutalék 30 százalékról 20 százalékra csökken, bizonyos esetekben az új telepítések után akár 15 százalékra is...

MA 07:56

Az újabb Meta-botrány: MI-s okosszemüvegek veszélyeztetik a bizalmas videókat

Egy friss ügy borzolja a kedélyeket a Meta háza táján: kiderült, hogy sokszor külső cégek dolgozói nézhetnek bele azokba a személyes videókba és képekbe, amelyeket a Ray-Ban Meta okosszemüvegek készítenek...

MA 07:47

Az Artemis II újra rajtol: kijavítva a Hold felé

🚀 Mindez azt jelenti, hogy szinte minden akadály elhárult a Holdra induló Artemis II rakéta útjából...

MA 07:38

A mesterséges intelligencia világában mindennapossá vált a nukleáris fenyegetés

Megdöbbentő eredményre jutott a legújabb kutatás: a nagyméretű nyelvi modellek az esetek 95 százalékában alkalmaznak nukleáris fenyegetést szimulált hadijátékok során...

MA 07:28

Az MI-adatközpontok nem falják fel a villanyszámládat, de gond marad

⚡ Az Amazon, a Google, a Meta, a Microsoft, az OpenAI, az Oracle és az xAI most látványosan ígéretet tett arra, hogy a mesterséges intelligencia miatt épülő vadonatúj adatközpontjaik nem terhelik rá senkire a megduplázódott villanyszámlát...

MA 07:20

Az egészséges táplálkozás rejtett ára: több vegyszer a tányéron?

🥗 Az utóbbi években egyre többen fordulnak a friss zöldségek és gyümölcsök felé egészségük megőrzése érdekében, de egy átfogó kutatás most arra figyelmeztet, hogy ezek az élelmiszerek nemcsak vitaminokat, hanem növényvédő szereket is nagy mennyiségben tartalmazhatnak...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/5

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     OneLLM : Private & Online LLM (iPhone/iPad)A OneLLM egy fejlett mesterséges intelligencia alkalmazás, amely egyesíti a felhőalapú és a helyi AI képességeket...

MA 07:10

Zöld utat kapott az első Bill Gates-féle atomerőmű

🧪 Erre példa, hogy a TerraPower nevű vállalat zöld utat kapott, hogy megkezdhesse első, forradalmi atomerőművének építését Wyomingban...

MA 07:02

A mesterségesintelligencia-fejlesztők lázadnak a hadicélú felhasználás ellen

Érdemes megvizsgálni, hogy egyre több technológiai szakember emeli fel a szavát a mesterséges intelligencia katonai célú felhasználásával szemben...