2026. 04. 17., 08:52

Az óriás nyelvi modellek futtatásának új korszaka

Az óriás nyelvi modellek futtatásának új korszaka
Amit látunk, az túlmutat a megszokotton: a nagyméretű nyelvi modellek (LLM-ek) üzemeltetése ma már nem csupán jó algoritmusokról szól, hanem komoly hardvertervezési és optimalizálási kérdés is lett. Az olyan nyílt forráskódú modellek, mint a Moonshot Kimi K2.5, már nem ritkaságok egyes fejlesztőknél, hanem mindennaposak a nagyvállalati gépparkokban is. Az új generációs alkalmazások és MI-ügynökök léptékű fejlesztésekhez azonban az infrastruktúrának szintet kellett lépnie – gyorsabb futtatás, komplex feladatok és szélsőségesen nagy adatmennyiség kiszolgálásával.

Hardveres optimalizálás: az input és output csapdája

Egy LLM felhasználási módjától nagyban függ, hogy a bemeneti (input) vagy a kimeneti (output) tokenek száma dominál. Szélsőséges arányokat látunk: egyesek rövid utasításokat adnak, de többoldalas szöveget kérnek vissza (például rajongói történetgenerálás), míg mások hatalmas adathalmazokat akarnak röviden összefoglalni. Ezek a különbségek fontos hardveres döntéseket követelnek: gyorsabb input- vagy output-feldolgozásra van-e szükség. Az MI-ügynökök esetében jellemzőbb a hatalmas bemeneti tokenmennyiség, így kritikus lett a gyors inputfeldolgozás és az eszközhívások gyors kezelése.

Prefill–decode szétválasztás: minden GPU a maga dolgán dolgozik

Az LLM-ek futtatása kétrészes: a prefill (bemeneti tokenek feldolgozása és gyorsítótárba pakolása) és a decode (kimenet generálása). Ezek különböző GPU-erőforrásokra támaszkodnak, de ha egyetlen gép csinál mindkét lépést, az pazarlás. A prefill–decode diszaggregációval külön kiszolgálók vállalják a két fázist. Így minden szerver arra van hangolva, amit éppen csinál: a bemeneti vagy a kimeneti tokenek özönének gyors feldolgozására. Ez bonyolult, tokenérzékeny terheléselosztót igényel, amely folyamatosan figyeli, mely végpontokon mennyi input vagy output token van épp folyamatban. Az új rendszer élesítése óta a leglassabb válaszidők harmadára csökkentek, 90 százalék felett pedig 100 ms-ról 20–30 ms-ra mérséklődött az átlagos tokenidő – mindez a GPU-k számának növelése nélkül.

Prompt cache: ha valamit már kiszámoltál, ne számold újra

Az MI-ügynökök szeretik a hosszú, összefüggő kontextust, ez viszont kezelhetetlenül lassú lenne az ismétlődő inputtenzorok számolgatásával. Ezért került bevezetésre a gyorsítótárazás: ha egy felhasználó ugyanabban a régióban folytatja a munkát (X-Session-Affinity fejléccel), nem számoljuk újra ugyanazt a bemenetet. Az OpenCode (MI-kódgenerátor) használatakor például 60 százalékról 80 százalékra ugrott a cache-hit arány csúcsidőben, így a rendszer egyszerre több felhasználói kérést kezel, jobb teljesítmény és olcsóbb működés mellett.


KV-cache megosztása: több GPU, egy közös memória

A Kimi modellmérete miatt egy példány akár több GPU-t is igényel. A bemeneti tokenek eredménye (KV-cache) eredetileg egyetlen GPU memóriájában, a VRAM-ban él. Több GPU-s futtatásnál a cache-nek átjárhatónak kell lennie: ezt a Moonshot AI „Mooncake Transfer Engine” rendszere oldja meg, amely gyors, közvetlen memóriatranszfert valósít meg NVLinken vagy NVMe over Fabric protokollon. A Mooncake Store-ral együtt használva a cache nemcsak a GPU RAM-ban marad, hanem NVMe SSD-n is. Ez megnöveli a gyorsítótárazás élettartamát és lehetővé teszi a terhelés kiegyensúlyozását, így egyszerre több kérést lehet feldolgozni.

Spekulatív dekódolás: gyorsabb szövegírás okosan

A modellek tokenenként generálnak szöveget, de spekulatív dekódolással egy kisebb LLM (úgynevezett draftmodell) előre legenerál több tokent, azokból pedig a nagy főmodell választ. Ez annyival gyorsabb, hogy a főmodellnek nem kell minden egyes következő tokent külön kiszámolnia. Az NVIDIA EAGLE-3 draftmodelljével például a tokengenerálás átviteli sebessége jelentősen nőtt, miközben a végeredmény minőségét a fő LLM garantálja.

Infire: a Cloudflare saját inferenciamotorja

Az Infire motor Rust nyelven íródott, kifejezetten elosztott MI-rendszerekre. Fő feladata a nagy LLM-ek gyors indítása, valamint az, hogy egyidejűleg több GPU-t is rugalmasan kezelhessen: lehetőség szerint pipeline- és tensorpárhuzamos módban, illetve szakértői párhuzamosítási támogatással. A rendszer egyrészt optimalizálja az adatok áramlását a GPU-k között, másrészt jelentősen csökkenti az indulási (cold start) időt – akár 20 másodpercen belül működésre képes a legnagyobb modellekkel is.

Az optimalizálásoknak köszönhetően a Kimi K2.5 például 8 H100-as GPU-n is kényelmesen fut, miközben több tíz GB VRAM szabadon hagyható a cache-nek, ami 1,2 millió tokenes kontextusablakot tesz lehetővé.

Gyorsabb és olcsóbb – folyamatosan fejlődve

A hardver és szoftver együttes optimalizálásával a legmodernebb LLM-ek futtatása nemcsak egyszerűbb és gyorsabb lett, hanem jelentősen csökkentek a működtetési költségek. Előfordul, hogy akár 20 százalékos gyorsulás is elérhető tokenenként, ráadásul már nemcsak a legdrágább GPU-kkal futhatnak a nagy modellek, hanem gyengébb gépekkel is, ami korábban elképzelhetetlen volt.

A fejlődés nem áll meg; minden héten új kutatási eredmények, modellek és módszerek jelennek meg. Az MI-technológiák optimalizálása így folyamatos kihívás – de aki ebben lát fantáziát, az most igazán izgalmas időszakban van!

2026, adminboss, blog.cloudflare.com alapján

  • Te mit gondolsz, jó irány a hardver és szoftver ilyen szoros optimalizálása?
  • Te mit tettél volna, ha neked kellene javítani a rendszer teljesítményét?


Legfrissebb posztok

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Planetary Hours + Widget (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) Monthly Dystopia (iPhone/iPad) War Mongrels (iPhone/iPad) ContactVault Pro (iPhone/iPad) FormatX: Video Audio Converter (iPhone/iPad) ImgRef (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) CrestWall – 4K Wallpapers...

kedd 19:34

A Wharton szerint később ürülhet ki a TB-kassza

A pennsylvaniai Wharton Egyetem új kutatása szerint a társadalombiztosítás nyugdíjalapja a vártnál később apadhat el...

kedd 19:23

A Star Wars-legenda Mark Hamill kulcsszerepben a Twisted Metalban

🤓 Mark Hamill, akit a Csillagok háborúja (Star Wars) világából Luke Skywalkerként őrzünk emlékezetünkben, csatlakozik a Csavart fém (Twisted Metal) sorozat harmadik évadához...

kedd 19:12

A Firefox 152 megújul: jön a JPEG XL, új beállítások

A Firefox böngésző legfrissebb, 152-es verziója több fontos fejlesztést hoz. A leglátványosabb változás a teljesen átalakított beállítási felület, amely átláthatóbbá és egyszerűbben kezelhetővé teszi a böngésző személyre szabását...

kedd 19:02

Az első nukleáris óra elindult – jön az ötödik kölcsönhatás?

⚡ Tipikus eset, amikor egy évtizedeken át lehetetlennek hitt ötlet hirtelen valósággá válik...

kedd 18:57

Az új Pókember-film sztárjai: a Galaxy Z Flip 7 és Fold 7

🚀 A Samsung legújabb büszkeségei, a Galaxy Z Flip 7 és a Galaxy Z Fold 7 komoly szerepet kaptak a Pókember: Vadonatúj nap (Spider-Man: Brand New Day) című filmben...

kedd 18:45

Az ultramély kutatás: Sakana AI 100 oldalas jelentést készít 8 óra alatt

🔬 Tokióban egy új MI-alapú vállalkozás, a Sakana AI dobta piacra a Marlint, első kereskedelmi termékét, amely forradalmasíthatja a vállalati kutatási jelentéseket...

kedd 18:24

Az új Ebola-járvány mekkora veszélyt jelent?

A Kongói Demokratikus Köztársaságot sújtó új Ebola-járvány már a harmadik legnagyobbnak számít a világon...

kedd 18:02

A CISA figyelmeztet: újabb cPanel-bővítmény-hibát aktívan kihasználnak

Az amerikai kiberbiztonsági hivatal, a CISA háromnapos határidőt adott az állami szerveknek, hogy frissítsék a LiteSpeed cPanel felhasználói bővítményét, miután ismertté vált egy aktívan kihasznált sérülékenység, amellyel a szervereket támadják...

kedd 17:11

A Hold-méretű, száguldó ütköző, amely felforgatta a Vénusz forgását

Ami először apróságnak tűnt, mára a Vénusz egyik legnagyobb rejtélyévé vált: a bolygó rendkívül lassú, ráadásul ellentétes irányú tengely körüli forgása...

kedd 17:01

A zsarolóbandák a Microsoft Teams reléivel álcázzák forgalmukat

Érdemes megvizsgálni, milyen kifinomult módszereket alkalmaznak a bűnözők, amikor eltüntetik rosszindulatú forgalmukat a védekezésre berendezkedett rendszerek elől...

kedd 16:55

Az okos medál, ami jelzi, meddig napozhatsz leégés nélkül

A legtöbb viselhető kütyü a lépéseidet, a pulzusodat vagy a véroxigénszintedet méri, de most érkezett egy olyan eszköz, ami teljesen másra fókuszál: a bőröd egészségére és a napsugárzás követésére...

kedd 16:45

Hány elemi részecske létezik valójában?

😰 Fontos kérdés, hogy hányféle elemi részecske létezik valójában. A fizikában ez nem is olyan egyszerű, mint amilyennek elsőre tűnhet...

kedd 16:12

A Threads már havi félmilliárd felhasználónál jár

Felmerül a kérdés, hogy mi állhat a Meta új szöveges közösségi hálójának hatalmas népszerűsége mögött...

kedd 15:56

A nő, aki Elon Musk mellett óriássá tette a SpaceXet

🚀 Gwynne Shotwell nevét a nagyközönség ritkán hallja, pedig nélküle elképzelhetetlen volna a SpaceX hihetetlen felemelkedése...

kedd 15:45

Az Nvidia 25 milliárd dolláros kötvénykibocsátással turbózza az MI-versenyt

Megemlíthető, hogy az Nvidia, a világ egyik vezető chipgyártója, öt év után először ismét jelentős kötvénykibocsátásra készül: több mint 25 milliárd dollár (kb...

kedd 15:25

A Samsung S95H OLED: lenyűgöző, de nem a várt Frame TV

Minden évben hatalmas felhajtás övezi a legújabb televíziókat, és mostanra a Samsung S95H OLED igazi különlegességnek számít ebben a mezőnyben...

kedd 15:01

A SprySOCKS új Windows-változata kormányzati rendszereket támad világszerte

A SprySOCKS néven ismert kártékony szoftver elsőként Linux rendszereken tűnt fel, de a közelmúltban megjelentek Windows-változatai is, amelyek kormányzati szervezeteket céloznak több országban, köztük Tajvanban, Thaiföldön, Pakisztánban és Hondurasban...

kedd 14:44

A Gmail AI-összegzései már mindenkinél futnak – így kapcsolod ki

Többek között már nem kell magadnak elolvasnod az e-maileket: a Gemini ezentúl átnézi őket helyetted – akár akarod, akár nem...

kedd 13:57

A 2026-os Razer Blade 18 letarolja a mezőnyt – ha meg tudod fizetni

🚀 A Razer Blade 18 (2026) ismét új szintre emeli, mit jelent egy valódi gamer laptop...

kedd 13:34

A Fortinet FortiSandbox kritikus sebezhetőségeit már aktívan kihasználják

⚠ Felmerül a kérdés, mennyire vagyunk biztonságban, ha még a legnagyobb kiberbiztonsági cégek termékei is súlyos hibákat rejtenek...

kedd 13:23

Az új COVID-oltások továbbra is óvják a szívet, kutatás szerint

Bár a legtöbb amerikai már nem igényli a szezonális COVID-19-oltásokat, a legújabb vakcinák továbbra is jelentős védelmet nyújtanak a szív- és érrendszeri megbetegedések ellen, különösen a 75 év felettieknek és a krónikus betegségben szenvedőknek...

kedd 13:01

Az iRhythm közölte: hackerek ellopták a betegek adatait

🔒 A digitális egészségügyi szolgáltató iRhythm Holdings súlyos adatlopást jelentett be, miután hackerek érzékeny személyes és egészségügyi adatokat tulajdonítottak el a cég által használt külső üzleti alkalmazásokból...

kedd 12:46

Az Atacama közepe a hittnél 20 millió évvel korábban száradt ki

🌍 Chile északi részén, a Föld egyik legszárazabb területén húzódik az Atacama-sivatag, amely évente átlagosan kevesebb mint 5 milliméter csapadékot kap...

kedd 12:34

Az Xbox Game Studios vezetője és stábfőnöke távozik – jön a reset?

Lényeges szempont, hogy a vezetői szintű távozások megrázhatják az egész játékipart, különösen akkor, ha azokat komoly változások előzik meg...

kedd 12:24

Az amerikaiak miért utálják egyre jobban az MI-adatközpontokat?

Az idei év elején egy hatalmas, hat darab, egyenként 21 méter magas épületből álló adatközpont terveit ejtették Észak-Karolinában, miután a fejlesztőt szigorodó szabályok és a helyi lakosság tiltakozása miatt visszalépésre kényszerítették...

kedd 11:56

A Philips Hue új Play lámpákkal, gyertyaizzókkal és kapcsolókkal támad

Az okos izzók és fényszalagok (Lightstrip) mellett mostantól a hagyományos csillárok és retró lámpák is integrálhatók a Philips Hue rendszerébe...

kedd 11:34

A Starlink mellett veszélyesen darabokra hullott egy kínai rakéta

Egy kínai magánvállalat által fejlesztett Zhuque-2E rakéta felső fokozata a fellövés után néhány órával széthullott, mindössze néhány száz kilométerre a Föld felszínétől, ahol a Nemzetközi Űrállomás, valamint számos Starlink-műhold kering...