péntek 08:52

Az óriás nyelvi modellek futtatásának új korszaka

Az óriás nyelvi modellek futtatásának új korszaka
Amit látunk, az túlmutat a megszokotton: a nagyméretű nyelvi modellek (LLM-ek) üzemeltetése ma már nem csupán jó algoritmusokról szól, hanem komoly hardvertervezési és optimalizálási kérdés is lett. Az olyan nyílt forráskódú modellek, mint a Moonshot Kimi K2.5, már nem ritkaságok egyes fejlesztőknél, hanem mindennaposak a nagyvállalati gépparkokban is. Az új generációs alkalmazások és MI-ügynökök léptékű fejlesztésekhez azonban az infrastruktúrának szintet kellett lépnie – gyorsabb futtatás, komplex feladatok és szélsőségesen nagy adatmennyiség kiszolgálásával.

Hardveres optimalizálás: az input és output csapdája

Egy LLM felhasználási módjától nagyban függ, hogy a bemeneti (input) vagy a kimeneti (output) tokenek száma dominál. Szélsőséges arányokat látunk: egyesek rövid utasításokat adnak, de többoldalas szöveget kérnek vissza (például rajongói történetgenerálás), míg mások hatalmas adathalmazokat akarnak röviden összefoglalni. Ezek a különbségek fontos hardveres döntéseket követelnek: gyorsabb input- vagy output-feldolgozásra van-e szükség. Az MI-ügynökök esetében jellemzőbb a hatalmas bemeneti tokenmennyiség, így kritikus lett a gyors inputfeldolgozás és az eszközhívások gyors kezelése.

Prefill–decode szétválasztás: minden GPU a maga dolgán dolgozik

Az LLM-ek futtatása kétrészes: a prefill (bemeneti tokenek feldolgozása és gyorsítótárba pakolása) és a decode (kimenet generálása). Ezek különböző GPU-erőforrásokra támaszkodnak, de ha egyetlen gép csinál mindkét lépést, az pazarlás. A prefill–decode diszaggregációval külön kiszolgálók vállalják a két fázist. Így minden szerver arra van hangolva, amit éppen csinál: a bemeneti vagy a kimeneti tokenek özönének gyors feldolgozására. Ez bonyolult, tokenérzékeny terheléselosztót igényel, amely folyamatosan figyeli, mely végpontokon mennyi input vagy output token van épp folyamatban. Az új rendszer élesítése óta a leglassabb válaszidők harmadára csökkentek, 90 százalék felett pedig 100 ms-ról 20–30 ms-ra mérséklődött az átlagos tokenidő – mindez a GPU-k számának növelése nélkül.

Prompt cache: ha valamit már kiszámoltál, ne számold újra

Az MI-ügynökök szeretik a hosszú, összefüggő kontextust, ez viszont kezelhetetlenül lassú lenne az ismétlődő inputtenzorok számolgatásával. Ezért került bevezetésre a gyorsítótárazás: ha egy felhasználó ugyanabban a régióban folytatja a munkát (X-Session-Affinity fejléccel), nem számoljuk újra ugyanazt a bemenetet. Az OpenCode (MI-kódgenerátor) használatakor például 60 százalékról 80 százalékra ugrott a cache-hit arány csúcsidőben, így a rendszer egyszerre több felhasználói kérést kezel, jobb teljesítmény és olcsóbb működés mellett.


KV-cache megosztása: több GPU, egy közös memória

A Kimi modellmérete miatt egy példány akár több GPU-t is igényel. A bemeneti tokenek eredménye (KV-cache) eredetileg egyetlen GPU memóriájában, a VRAM-ban él. Több GPU-s futtatásnál a cache-nek átjárhatónak kell lennie: ezt a Moonshot AI „Mooncake Transfer Engine” rendszere oldja meg, amely gyors, közvetlen memóriatranszfert valósít meg NVLinken vagy NVMe over Fabric protokollon. A Mooncake Store-ral együtt használva a cache nemcsak a GPU RAM-ban marad, hanem NVMe SSD-n is. Ez megnöveli a gyorsítótárazás élettartamát és lehetővé teszi a terhelés kiegyensúlyozását, így egyszerre több kérést lehet feldolgozni.

Spekulatív dekódolás: gyorsabb szövegírás okosan

A modellek tokenenként generálnak szöveget, de spekulatív dekódolással egy kisebb LLM (úgynevezett draftmodell) előre legenerál több tokent, azokból pedig a nagy főmodell választ. Ez annyival gyorsabb, hogy a főmodellnek nem kell minden egyes következő tokent külön kiszámolnia. Az NVIDIA EAGLE-3 draftmodelljével például a tokengenerálás átviteli sebessége jelentősen nőtt, miközben a végeredmény minőségét a fő LLM garantálja.

Infire: a Cloudflare saját inferenciamotorja

Az Infire motor Rust nyelven íródott, kifejezetten elosztott MI-rendszerekre. Fő feladata a nagy LLM-ek gyors indítása, valamint az, hogy egyidejűleg több GPU-t is rugalmasan kezelhessen: lehetőség szerint pipeline- és tensorpárhuzamos módban, illetve szakértői párhuzamosítási támogatással. A rendszer egyrészt optimalizálja az adatok áramlását a GPU-k között, másrészt jelentősen csökkenti az indulási (cold start) időt – akár 20 másodpercen belül működésre képes a legnagyobb modellekkel is.

Az optimalizálásoknak köszönhetően a Kimi K2.5 például 8 H100-as GPU-n is kényelmesen fut, miközben több tíz GB VRAM szabadon hagyható a cache-nek, ami 1,2 millió tokenes kontextusablakot tesz lehetővé.

Gyorsabb és olcsóbb – folyamatosan fejlődve

A hardver és szoftver együttes optimalizálásával a legmodernebb LLM-ek futtatása nemcsak egyszerűbb és gyorsabb lett, hanem jelentősen csökkentek a működtetési költségek. Előfordul, hogy akár 20 százalékos gyorsulás is elérhető tokenenként, ráadásul már nemcsak a legdrágább GPU-kkal futhatnak a nagy modellek, hanem gyengébb gépekkel is, ami korábban elképzelhetetlen volt.

A fejlődés nem áll meg; minden héten új kutatási eredmények, modellek és módszerek jelennek meg. Az MI-technológiák optimalizálása így folyamatos kihívás – de aki ebben lát fantáziát, az most igazán izgalmas időszakban van!

2026, adminboss, blog.cloudflare.com alapján

  • Te mit gondolsz, jó irány a hardver és szoftver ilyen szoros optimalizálása?
  • Te mit tettél volna, ha neked kellene javítani a rendszer teljesítményét?


Legfrissebb posztok

MA 10:01

Az Anthropic új MI-je miatt pánikolnak a bankok

A Mythos névre keresztelt MI-modell bármelyik pénzintézet rémálma lehet: fejlett programozási képességeinek köszönhetően nemcsak felismeri a pénzügyi rendszerek gyenge pontjait, hanem meg is mutatja, hogyan lehet őket kihasználni...

MA 09:58

Az Apple élén váltás: Tim Cook helyét átveszi John Ternus

🚀 Az Apple jelentős bejelentést tett: szeptember 1-től John Ternus veszi át a vezérigazgatói posztot, Tim Cook pedig az igazgatótanács ügyvezető elnöke lesz...

MA 09:43

Az Apple következő vezére: ki váltja Tim Cookot?

Sorsfordító pillanat következik az Apple életében: szeptember 1-jén Tim Cook hivatalosan lemond vezérigazgatói posztjáról...

MA 09:36

A Google oldalsávjába érkezik a Gemini: így szörföz Ázsia

Na most kapaszkodj, mert a Google végre elhozta a Geminit a Chrome böngészőbe Ázsiában és a csendes-óceáni térségben is...

MA 09:22

Az új űrruha hiánya veszélybe sodorhatja a 2028-as holdraszállást

🚀 Az űrhajósok visszatérése a Holdra ismét veszélybe került: a NASA jelenleg nem rendelkezik megfelelő szkafanderrel, a fejlesztés pedig komoly csúszásban van...

MA 09:16

Az élet titkos receptje: baktériumok átírják az evolúció szabályait

🧠 A Föld első életformái, a kékeszöld baktériumok évmilliárdokkal ezelőtt nemcsak az oxigéndús légkör kialakításában voltak úttörők, hanem most úgy tűnik, az evolúció kreativitásáról is új történetet mesélnek...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/21

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Sight Words: Dolch Coach (iPhone/iPad)Ez a játék a Dolch Sight Words mind az öt szintjére épül, elősegítve az angol szavak gyors és pontos felismerését...

MA 09:11

A kvantumtámadások korára készül az XRP Ledger

Első pillantásra úgy tűnhetett, hogy a blokkláncok szinte feltörhetetlen biztonsága egy ideig még nem kérdőjelezhető meg, azonban a közelgő kvantumszámítógépes forradalom mindent megváltoztat...

MA 09:01

A Seiko USA-t feltörték: ügyféladatok kerültek a hackerekhez

🔒 Valami egészen váratlan fogadta a Seiko USA honlapjának látogatóit a hétvégén: egy „HACKED” feliratú oldal jelent meg, amely a megszokott sajtószoba tartalma helyett durva üzenettel és ultimátummal várta a mit sem sejtő nézelődőket...

MA 08:50

A kaliforniai túlélő méhek új esélyt adnak a beporzóknak

Vizsgálatok szerint egy dél-kaliforniai hibrid méhfaj természetes védelmet fejlesztett ki az egyik leghalálosabb méhpusztítóval szemben...

MA 08:43

Az űrbiznisz befuccsolt: csúfosan bukott a Blue Origin rakétája

A Blue Origin New Glenn rakétájának harmadik útját újabb mérföldkőnek szánták a kereskedelmi űrkilövések piacán, de a bemutatkozás nem alakult álomszerűen...

MA 08:36

A nagy rengés küszöbén? Japán újabb földrengéstől tart

🌈 Április 20-án, helyi idő szerint délután 4:53-kor 7,7-es erősségű földrengés rázta meg Japán legnagyobb szigetének, Honshūnak az északkeleti partvidékét...

MA 08:29

A Marsot ötven éve kísértő árnyék titka

👽 Az egyik marsi kráterben több mint fél évszázada egy titokzatos, sötét folt terjeszkedik, amelynek eredetére és növekedésére máig nincs egyértelmű magyarázat...

MA 08:22

Az észak-koreai hekkerek a közpénzekre hajtanak: ismét célpont a DeFi

Több mint 180 milliárd forintnyi kriptót szivattyúztak ki két DeFi-rendszerből, alig három hét alatt...

MA 08:15

Az Arbitrum 71 millió dollárt fagyasztott be a Kelp DAO-botrány után

Az Arbitrum biztonsági tanácsa váratlanul lépett: 30 766 ETH-t, vagyis körülbelül 71 millió dollárt (26 milliárd forintot) fagyasztott be, miután hackerek szombaton 292 millió dolláros (108 milliárd forintos) kárt okoztak a Kelp DAO hídján...

MA 07:50

A pofonegyszerű trükk, ami forradalmasíthatja a génterápiát

🚀 A lipid nanopartikulumok (LNP) az elmúlt években robbantak be a köztudatba a COVID–19 elleni mRNS-vakcinák révén...

MA 07:43

A Gentlemen botnetekkel indít újabb ransomware-hullámot

🚨 Egyre kiterjedtebb botnethálózatot használnak a Gentlemen zsarolóvírus mögött álló szervezett bűnözői csoportok a legújabb támadási hullámokban: a SystemBC nevű proxy kártevővel világszerte több mint 1 570 vállalati rendszert sikerült megfertőzniük...

MA 07:36

Az új trükk, amivel a termeszek saját sírjukat ássák

Az UC Riverside kutatóinak sikerült jelentősen növelniük a nyugati szárazfa-termesz irtásának hatékonyságát, méghozzá egy váratlanul egyszerű módszerrel...

MA 07:29

A Föld örökre bevésődik az űrhajósok agyába

Ez a jelenség jól illusztrálható azzal, hogy az űrhajósok több hónapnyi súlytalanságban töltött idő után is úgy fogják meg a tárgyakat, mintha azok ugyanolyan nehezek lennének, mint a Földön...

MA 07:22

Az Amazon beszáll az MI-versenybe: dollármilliárdok az Anthropicnak

🚀 Komolyan mondom: az Amazon tényleg beáll a mesterségesintelligencia-őrület élére! Most újabb, közel 1 800 milliárd forintos, azaz akár 25 milliárd dolláros befektetést önt az Anthropic nevű MI-cégbe — és ez még csak a harmadik masszív pénzeső eddig...

MA 07:15

Az Apple kínai App Store-ját ellepték a kriptotolvaj appok

Kínában rejtett támadás érte az Apple App Store-t: 26 hamis alkalmazás jelent meg, amelyek népszerű kriptopénztárcáknak, például a MetaMasknak, a Coinbase-nek, a Trust Walletnek és a OneKeynek álcázták magukat...

MA 07:09

Az Anthropic titokban módosítja a böngészőidet a Claude Desktop telepítésekor

🕵 Az Anthropic Claude Desktop alkalmazása egy eddig példa nélküli, rejtett trükköt alkalmaz a számítógépeken: azonnal telepít egy engedélyező fájlt, amely még olyan böngészőkhöz is beállításokat hoz létre, amelyek nincsenek is telepítve az eszközön...

MA 07:01

Az észak-koreai hackerek 105 milliárdos káoszt szabadítottak el a KelpDAO-nál

💥 Április 18-án közel 105 milliárd forintnak megfelelő, 293 millió dollár értékű kriptoeszközt loptak el a KelpDAO-ból...

MA 06:57

A Google új csodája: kérésre az arcodat is megszépíti

💬 Ha eddig nem mertél megosztani egy képet sem a bőrhibáid miatt, mostantól ez sem lehet akadály...

MA 06:50

A vég kezdete: lekapcsolták a Voyager–1 egyik műszerét

Majdnem ötven éve indult útnak az ikonikus Voyager 1 űrszonda, amely a külső Naprendszer felfedezésére indult, ma már azonban élete végső szakaszához érkezett...

MA 06:43

Az elfeledett vitamin, ami leszámolhat a rákos sejtekkel

A tumorsejtek hírhedtek arról, hogy különösen nagy szükségük van a glutamin nevű aminosavra, azonban amikor kifogynak belőle, sokuk képes más tápanyagokra átállni...

MA 06:36

A legújabb csapda: segítségkérésnek álcázott támadás a Microsoft Teamsben

⚠ Érdekes felvetés, hogy a hackerek egyre kifinomultabban használják a Microsoft Teams rendszert, hogy bejussanak vállalati rendszerekbe...

MA 06:22

A Gemini végre megérkezett a Chrome-ba az ázsiai–csendes-óceáni térségben

🌎 Megérkezett egy új, menő Chrome-oldalsáv, aminek köszönhetően mostantól bármelyik böngészőfülön cseveghetsz a Gemini-vel – és igen, használhatod asztali gépen vagy akár iPhone-odon is, szinte mindenhol ezen a kontinensen...

MA 06:15

A világegyetem eddigi legnagyobb 3D-térképe: robotkarok, sötét energia, galaxisok

Öt évnyi munka eredményeként csillagászok megalkották az eddigi legnagyobb, nagy felbontású 3D térképet az univerzumról, amelyben több tízmillió galaxist követtek nyomon...