
Négy modell, két kategória: a felhőtől a mobilig
A Gemma 4 két fő vonalat képvisel négy modellel. A „workstation” csoportban egy 31 milliárd paraméteres sűrű modell és egy 26 milliárd paraméteres, aktív szakértőkkel dolgozó „Mixture-of-Experts” építésű modell található. Mindkettő támogatja a szöveg- és képbemenetet, sőt, 256 ezer tokenes kontextusablakot is kezel. Az „edge” irányban két kisebb változat, az E2B és E4B érhető el, amelyeket okostelefonokra, beágyazott eszközökre és laptopokra optimalizáltak, és támogatják a szöveg-, kép- és hangfeldolgozást is, 128 ezer tokenig.
A modellek neveiben az „E” az „effective parameters”-t jelzi: például az E2B ténylegesen 2,3 milliárd paramétert mozgat, bár összességében 5,1 milliárd paramétere van, mivel minden dekóderréteg saját beágyazási táblával dolgozik a Google saját fejlesztésű Per-Layer Embeddings technológiájával. Ez a megoldás a lemezen sok helyet foglal, de futásidőben kevés erőforrást igényel.
Az „A” betű a 26B A4B modellben „active parameters”-t jelent: a 25,2 milliárd összparaméterből egyszerre csak 3,8 milliárd dolgozik, így a modell számítási igénye egy 4B kategóriás modellhez mérhető, miközben a tudása közelít a 26B szinthez.
Külön figyelmet érdemel, hogy a MoE-architektúrával spórolhatunk
A 26B A4B modell különleges felépítésének köszönhetően a futtatás költségei drasztikusan csökkenthetők. Míg más nagy MoE-modellek néhány hatalmas szakértőt alkalmaznak, a Gemma 128 kicsi szakértőt, amelyek közül tokenenként 8-at (plusz egy univerzálisan aktív szakértőt) használ. Ez lehetővé teszi, hogy a 26B méretű modellekhez mérhető teljesítményt érjünk el, de a számításigénye egy 4B modellével egyezik meg.
Ugyanígy mindkét workstation-modell hibrid figyelmet alkalmaz: a helyi, csúszóablakos figyelmet ötvözi a teljes globális figyelemmel, ahol az utolsó réteg mindig globális. Így érhető el a 256 ezres kontextusablak, miközben a memóriahasználat kordában marad – ez kulcsfontosságú a hosszú dokumentumok, kódok vagy többlépcsős ügynökbeszélgetések feldolgozásánál.
Multimodalitás az alapoktól: látás, hang és funkcióhívás natívan
A korábbi nyílt modellekben a multimodalitás mindig utólagos toldozás-foldozás volt. Az új Gemma 4 viszont már az architektúra szintjén natív módon kezeli a látást, a hangot és a funkcióhívásokat.
A négy modell mindegyike támogatja a változó képarányú vizuális inputot, rugalmas vizuális tokenköltségvetéssel (70–1 120 token képenként). Ezzel szemben a Gemma 3 még nehézkesen boldogult OCR-rel és dokumentumértelmezéssel. Most alacsony tokenkeret mellett egyszerű címkézés és képaláírás, magasabb keretnél dokumentumszkennelés, OCR vagy részletes képelemzés is lehetséges. Natívan kezeli a többképes és videóbemenetet, így egyszerre több dokumentum vagy képernyőkép összefüggéseit is értelmezheti a modell.
Az edge modellek önálló hangfeldolgozással is bírnak: automatikus beszédfelismerés és beszédfordítás valósul meg az eszközön, a hangkódoló méretét 681 millióról 305 millió paraméterre csökkentették, a frameidő 160 ms-ról 40 ms-ra rövidült, így gyorsabb az átírás. Az egészségügyben, helyszíni munkavégzés során vagy többnyelvű ügyfélszolgálaton így minden helyben, egyetlen modellen futhat.
Minden modell natívan tud funkciókat hívni, vagyis külső eszközökkel, API-kkal strukturáltan tud együttműködni több lépésen át. Ennek köszönhetően kevesebb promptmérnöki munkára van szükség, üzleti szinten lényegesen egyszerűbbé válik egyedi MI-alapú ügynökök létrehozása.
Meggyőző benchmarkok és valódi előrelépés
A Gemma 4 mérései látványosan jobbak az előző generáció eredményeinél. A 31B-es sűrű modell 89,2%-ot ért el AIME 2026 matematikai teszten, 80%-ot a LiveCodeBench V6-on, Codeforces Elo-n 2 150 pontot hozott – régen ez csak zárt modellektől volt elvárható. Látásban a MMMU Pro 76,9%, a MATH-Vision 85,6% eredményre képes.
A 26B MoE A4B modell csak hajszállal marad el: AIME-on 88,3%, LiveCodeBench-en 77,1%, a GPQA Diamond tudományos teszten 82,3%. Az edge modellek az E4B-vel 42,5% (AIME) és 52% (LiveCodeBench), az E2B-vel 37,5% és 44% pontot szereztek – mindezt mindössze egy T4 GPU-n vagy kisebb eszközökön.
Fontos, hogy a Gemma 4 nemcsak egyetlen mutatóban jó: kombinálja az erős érvelést, a szöveg-, kép- és hangterületen natív multimodalitást, a funkcióhívást, a 256 ezer tokenes kontextust és a szabad felhasználást – mindezt úgy, hogy bármilyen platformra elérhető, a telefontól a felhőig.
Mire figyelnek a vállalati felhasználók?
A Google mind a betanított alapmodelleket, mind a feladatspecifikus változatokat elérhetővé tette, utóbbiak kulcsfontosságúak, ha valaki a saját szakterületére szeretne finomhangolni. Korábban a Gemma-alapmodellek jó kiindulópontnak bizonyultak, az Apache 2.0 licenc pedig most már egyértelműen lehetővé teszi a kereskedelmi forgalomba helyezhető, továbbképzett modelleket.
Külön figyelmet érdemel, hogy a Google Cloudon elérhető szervermentes futtatás RTX Pro 6000 GPU-n jelentős költségcsökkentést hozhat: csak a tényleges használat után kell fizetni, nem terheli a céget a folyamatos GPU-költség.
A Google szerint a Gemma 4 család itt még nem ér véget, várhatóan további méretekben is érkeznek modellek. Ami most elérhető, az már most meghatározó: workstation-szintű problémamegoldás és edge-re optimalizált multimodalitás egy családon belül, átlátható jogi és technikai feltételekkel. A vállalati MI-piac végre tényleg egyenlő pályán versenyezhet – hosszas jogi egyeztetés nélkül.
