
Új generációs szövegalkotás
A DiffusionGemma nem bonyolódik bele a hagyományos, tokenenkénti, balról jobbra haladó dekódolásba. Ehelyett 256 véletlenszerű helykitöltő elemmel indít, amelyeket párhuzamosan, lépésről lépésre finomít. Minden iteráció során a modell felméri, mely pozíciókban a legbiztosabb, ezeket rögzíti, míg a bizonytalanokat ismételten vizsgálja – egészen addig, amíg elég pozíció stabilizálódik ahhoz, hogy a maradékot is magabiztosan meg lehessen jósolni.
Bár a DiffusionGemma sebességben kiemelkedő, a Google maga is hangsúlyozza: ahol a legmagasabb minőség a cél, ott a standard Gemma 4 még mindig megelőzi.
Az önjavítás és a kétirányú figyelem előnyei
A DiffusionGemma képessége, hogy a korábbi hibás választásokat újragondolja, nagy előnyt ad. Az autoregresszív modellek beleragadnak a hibába, mert a következő elemek már az előzőre épülnek, ám itt az alacsony magabiztosságú pontok átírhatók a következő körben. Emellett a blokkon belül mindegyik pozíció figyel minden másikra – így a jövőbeli szavak kontextusa is befolyásolja az aktuális döntéseket. Struktúrájából fakadóan különösen jól teljesít olyan feladatoknál, ahol szigorú megkötések vagy előre-hátra ható kontextus szükséges. Az MI-t például Sudoku-feladványokhoz hangolva, különösebb tanítás nélkül 0%-os sikerarányról 80%-os találati arányra ugrott, és látványosan gyorsabb lett: 48 lépés helyett 12 is elég volt a helyes megoldáshoz.
Fejlesztési részletek
A DiffusionGemma 26 milliárd paraméterből áll, azonban csak 3,8 milliárdot aktivál futás közben. Kvantált formában mindössze 18 GB VRAM kell hozzá, így még az otthoni RTX 4090 és 5090 videokártyákon is futhat. Mind a Google, mind az NVIDIA gondoskodott a vállalati szintű Hopper- és Blackwell-szerverek optimalizálásáról, NVFP4 kernellel. Az integrációhoz a vLLM platformba átdolgozták a figyelmi logikát is, mert a DiffusionGemma váltogatja az ok-okozati és kétirányú figyelmet az egyes lépések között. Ehhez új, általánosítható ModelState interfészt is fejlesztettek.
Gyors, de nem mindenhol
A DiffusionGemma előnyei leginkább akkor érvényesülnek, ha egyetlen felhasználó dolgozik dedikált GPU-n, vagy alacsony a lekérdezés párhuzamossága. Ilyen körülmények között az FP8 verzió egy NVIDIA H100-on akár 1008, egy H200-on 1288 szót is generál másodpercenként – ami 5–6-szoros gyorsulást jelent a standard autoregresszív modellekhez képest. Nagyszámú, szerverközpontú felhasználásnál azonban az előny visszafogott, hiszen ott az MI már most is maximálisan kihasználja az erőforrásokat.
Különbségek és kompromisszumok
Külső szemmel nézve a DiffusionGemma legizgalmasabb újdonsága, hogy áttörte az eddigi méretkorlátozásokat: 26 milliárd paraméter, natív vLLM-integráció, általános célú, instrukcióra hangolt működés. Szemben a spekulatív dekódolással – ahol egy kisebb nyers modell előre találgat, majd az eredetitől igazolást kap – a DiffusionGemma nem csupán dekódolási trükk, hanem újfajta alkotás. Lényeges kompromisszum, hogy összminőségben a standard Gemma 4 még megelőzi, de strukturált, kontextusérzékeny MI-feladatoknál, például kód-kiegészítés vagy sablongyártás során kiemelkedően teljesít.
Új távlatok vállalati felhasználásban
A DiffusionGemma már most is elérhető OpenAI-kompatibilis vLLM-végpontokon, különösebb módosítás nélkül. Most először van választási lehetőség: kisebb késleltetés érhető el dedikált hardverrel, minőségromlás nélkül, a helyi vagy kevés felhasználós rendszerekben. Strukturált szöveggenerálásnál a kétirányú figyelem hatalmas előnyt jelenthet – GIS-szoftvertől a kódgenerálásig. A történet tanulsága egyértelmű: a DiffusionGemma nem mindenkinek való, de ahol nyer, ott igazán nagyot nyer.
