Az MI új korszaka: a ZAYA1-8B, a takarékos áttörés

Ebből következően érdemes megérteni, hogy a mesterséges intelligencia világában az óriási, egyre nagyobb modellek mellett egyre nagyobb figyelmet kapnak azok a fejlesztések, amelyek a kisebb, hatékonyabb és széles körben elérhető megoldásokra építenek. A legújabb ilyen modell egy Palo Altó-i startup, a Zyphra fejlesztése: a ZAYA1-8B, amely mindössze 8,4 milliárd paraméterből áll, ám ebből egyszerre csak 760 millió aktív, miközben teljesítményében felveszi a versenyt olyan óriásokkal, mint a GPT-5-High vagy a DeepSeek-V3.2. Jelentősége abban rejlik, hogy kizárólag AMD Instinct MI300 GPU-kon képezték, ezzel komoly konkurenciát állítva az Nvidia dominanciájának az MI-fejlesztés területén. A ZAYA1-8B nyílt forráskódú, kifejezetten rugalmas Apache 2.0 licenc alatt szabadon alakítható, átalakítható és akár kereskedelmi célokra is felhasználható.

Miben különleges a ZAYA1-8B?

A Zyphra ZAYA1-8B fejlesztését a “teljes stack-innováció” filozófiája határozza meg. A modell alapját a vállalat saját, MoE++ (Mixture of Experts Plus Plus) architektúrája adja, amely három jelentős újítást kínál a klasszikus Transformer-modellekhez képest:

Az első a Compressed Convolutional Attention (CCA), amely a kontextusablakok bővülésével is képes megtartani a memóriatakarékosságot; akár nyolcszoros csökkenést is elér a KV-cache méretében, leegyszerűsítve a hosszú gondolatsorok kezelését.

A második újítás a ZAYA1 MLP Router: míg a legtöbb Mixture of Experts modell lineáris routerrel működik, itt egy több rétegből álló MLP-dizájn dönt a megfelelő szakértőkről, ehhez pedig stabilitást ad egy klasszikus, szabályozáselméleti ihletésű bias-kiegyenlítő rendszer.

A harmadik újdonság a Learned Residual Scaling, amely irányítja az információáramlás mélységét a 40 rétegen keresztül, megelőzve a gradiens-eltűnést és -robbanást minimális számítási költséggel.

Újszerű gondolkodás – már a betanításon belül

A ZAYA1-8B-nél már az előtanítás során hangsúlyt kapott a logikai következtetés. A hosszú láncolt gondolkodást (“chain-of-thought”, CoT) egy ún. Answer-Preserving (AP) Trimming technikával sikerült megtartani: a túl hosszú problémamegoldó gondolatmenetek közepét kivágják, de a felvezetést és a megoldást meghagyják, így a modell a problémák és a válaszok viszonyát memóriakorlátok mellett is képes megtanulni.

Az igazi áttörést azonban a Markovian RSA eljárás jelenti. Ez a módszer lehetővé teszi a “mélyebb gondolkodást” anélkül, hogy a modell elveszne a zajos, túl hosszú kontextusokban. Több, párhuzamos következtetési szálat generál, majd ezek végeit összegzi, így a ZAYA1-8B szinte végtelen idejű gondolkodásra képes – akár 4 ezer tokennyi “tartalékból” is, miközben nem pazarolja el az erőforrásokat.

Valós teljesítmény: kicsi, de rendkívül erős

A modell kivételesen jó eredményeket ért el harmadik felek által szervezett teszteken, például az AIME ’25 matematikai próbán 91,9%-os pontszámmal majdnem utoléri a lényegesen nagyobb rendszereket. Programozási és logikai feladatokban is kiemelkedő: a LiveCodeBench-en 69,2%-kal magabiztosan veri például a DeepSeek-R1-0528-at, és matematikai teszteken is túlteljesít más modelleket.

Az apró paraméterszám lehetővé teszi, hogy helyben, akár mobileszközökön vagy helyi szervereken is alkalmazható legyen, amivel cégek költséget és adatbiztonsági kockázatot is csökkenthetnek, nem beszélve a kisebb késleltetésről.

Hátránya viszont, hogy a “tudásalapú” – például lexikális adatkinyerést igénylő – feladatokban még elmarad a hatalmas modellektől, jelezve, hogy az effajta tudás tárolására még mindig jól jönnek a nagyobb, bővebb paraméterkészletek.

Nyílt forráskód és rugalmas licencelés

A ZAYA1-8B-t az Apache 2.0 licenc révén szinte bárki tetszőleges célra alkalmazhatja, akár zárt szoftverekhez is. A licenc explicit módon biztosít szabadalmi védelmet is, így a vállalkozások jogbiztonságban fejleszthetnek rá. Az új modell speciális futtatókörnyezetet igényel: a Zyphra által adaptált vllm és transformers könyvtárakban található zaya1 ágat kell használni, valamint külön kapcsolók kellenek a reasoning parser és a tool calling kezeléséhez. Több-GPU-s környezetben az adatok és a szakértők párhuzamosítása (DP + EP) ajánlott, mivel a CCA mechanizmus miatt a klasszikus Tensor Parallelism jelenleg nem támogatott.

Zyphra – tudományos háttér, nagy szándékok

A 2021-ben alapított Zyphra célja, hogy a “decentralizált”, logikai sűrűségre optimalizált általános mesterséges intelligenciát fejlessze. A társaság törekvése, hogy minél több logikai képességet szorítson egy minél kisebb paraméterkészletbe, ezzel lehetővé téve, hogy akár tableten, céges szerveren vagy okosszemüvegen is futtatható MI álljon rendelkezésre.

A vezető tudós, Beren Millidge kutatásai – például az aktív következtetés és a szabadenergia-elv területén – közvetlen hatással voltak a ZAYA1-8B és elődeinek architektúrájára, különös hangsúlyt adva az idegtudományi inspirációnak.

A Zyphra jelentős eredményeket ért el AMD hardverekre támaszkodva, sőt, a cég 2025 júniusában már „unikornis” státuszt ért el, miután 110 millió dollárnyi (majdnem 40 milliárd forint) tőkét szerzett, többek között az AMD, az IBM, a Bison Ventures és a BC VC támogatásával. A csapat 2026-ban már több mint harminc tagú.

Mit szól ehhez a szakma?

A ZAYA1-8B bejelentése villámgyorsan elterjedt az MI-fejlesztők körében, 24 óra alatt közel egymillióan látták a hírt a Twitteren. Különösen az AMD platform életképessége és a gondolkodási “kaszkád” hatékonysága keltett élénk érdeklődést. Innovációnak számít például a négylépcsős RL-kaszkád (RL-cascade) utótanítás és a Router-visszajátszás (Router Replay), amely stabilabbá és kiszámíthatóbbá teszi az adatáramlást és a szakértők kiválasztását.

Ebből adódóan nemcsak az egyre nagyobb modellek irányába vezet az út: a ZAYA1-8B bebizonyította, hogy okosabb, leleményesebb algoritmusokkal kisebb eszközökön is elérhető a csúcsteljesítmény, új korszakot nyitva a mesterséges intelligencia világában.

2026, adminboss, venturebeat.com alapján