2026. 02. 13., 06:26

Az Nvidia nagy dobása: nyolcszor olcsóbb LLM-inferencia

Az Nvidia nagy dobása: nyolcszor olcsóbb LLM-inferencia
Az Nvidia kutatói forradalmian új eljárást dolgoztak ki, amely akár nyolcszorosára csökkenti a nagy nyelvi modellek (LLM) memóriaköltségeit anélkül, hogy az algoritmus pontossága romlana. A Dynamic Memory Sparsification (DMS) nevű módszer a kulcs-érték (KV) cache-t tömöríti, vagyis azt a memóriát, amit az MI a feladatok során átmenetileg használ és tárol. Korábbi tömörítési próbálkozások többnyire minőségromlással jártak, az Nvidia újdonsága viszont úgy képes elhagyni a felesleges adatokat, hogy közben megőrzi, sőt, esetenként még javítja is az algoritmus gondolkodási teljesítményét.

A gondolkodás költséges gátja

Az LLM-ek bonyolult feladatokon akkor teljesítenek igazán jól, ha „gondolkodási láncokat” generálnak, vagyis szisztematikusan végigvezetik az algoritmust a megoldás lépésein. Fejlettebb MI-stratégiák a feldolgozási idő alatt hosszabb gondolkodási lehetőséget, illetve párhuzamos gondolatmeneteket is megengednek. Ez viszont azzal jár, hogy mind több tokensorozatot tárol a rendszer, a hozzájuk tartozó kulcs-érték párosokat pedig a GPU memóriájában. Ez gyorsan hatalmas tárigényt jelent, a memória betelik, az adatmozgatás lelassítja a modellt, a késleltetés nő, kevesebb felhasználót lehet kiszolgálni – csúcsterhelésnél akár össze is omolhat a rendszer. Az Nvidia szerint ez nemcsak informatikai, hanem gazdasági kérdés is: nem mindegy, olcsón tud-e 800 gondolkodási szálat kezelni egy szerver, vagy csak 100-at ugyanazon az infrastruktúrán.

Régi próbálkozások, új irány

Eddig a megoldási kísérletek főleg merev szabályokra, például „csúszó ablakra” (a legrégebbi tokenek törlése), vagy a kevésbé használt adatok lassabb háttértárra mozgatására épültek. Ezek azonban vagy értékes információt is kidobnak, rontva a feladatmegoldás minőségét, vagy annyira lelassítják a rendszert, hogy az valós időben gyakorlatilag használhatatlan lesz.

Dinamikus memóriaritkítás akcióban

A DMS lényege, hogy a meglévő, betanított modelleket utólag „tanítja meg” arra, mely tokenek a későbbi gondolkodás szempontjából valóban fontosak, és melyek dobhatók ki nyugodtan. Mindez nem igényli a modell teljes újratanítását: lényegében átalakítja az MI figyelmi rétegeibe épített neuronokat úgy, hogy minden tokenről eldöntsék, érdemes-e megtartani. A fejlesztéshez fagyasztani lehet a modell súlyait, ezzel gyorsítható a folyamat, amely például egy Qwen3-8B modellt néhány óra alatt át tud alakítani DMS-képessé, akár egyetlen DGX H100 gépen.

A DMS egyik kulcsa az úgynevezett „késleltetett kidobás”. Szemben a szokásos megoldásokkal, amelyek azonnal törlik a feleslegesnek ítélt adatot, a rendszer inkább megjelöli, de még néhány száz lépésig elérhetően hagyja a tokent. Így a modellnek marad ideje minden releváns információt hasznosítani, mielőtt végleg törlődik. Erre azért van szükség, mert sok token nem teljesen haszontalan vagy teljesen nélkülözhetetlen – egy rövid ideig még fontos lehet, később viszont már csak a memóriát foglalja.

A fejlesztők tapasztalatai szerint a DMS utólagos integrációjához mindössze 1000 tréninglépés kellett, ami eltörpül az eredeti tanuláshoz képest. Az átalakított modellek továbbra is a szokásos szoftverkörnyezetben, speciális hardver vagy bonyolult új szoftver nélkül használhatók.


Mérföldkövek az éles tesztekben

A DMS-t több nagy MI-modellen, például a Qwen-R1 és a Llama 3.2 modelleken is tesztelték. Komoly kihívásnak számító mércéken – legyen szó matematikáról (AIME 24), tudományról (GPQA Diamond), vagy programozásról (LiveCodeBench) – a DMS-es Qwen-R1 32B például 12 ponttal felülmúlta a hagyományos modellt azonos memóriahasználat mellett. A gondolkodás mélysége és szélessége eddig nem látott szintre nőtt, anélkül, hogy ehhez több memóriára vagy nagyobb számítástechnikai teljesítményre lett volna szükség.

Meglepő módon a DMS a hosszú távú következtetésekben sem vesztett, sőt, a rejtett információk keresésében (needle-in-a-haystack) még jobban teljesített, mint a tömörítés nélküli változat. A „tiszta”, tudatosan kezelt memória révén az algoritmus jobban átlátja a lényeget.

A hardver- és költséghatékonyság a gyakorlatban is látványos lett: a Qwen3-8B DMS-es változata például azonos minőségben ötszörös ügyféligényt képes kiszolgálni, vagyis egyetlen szerver ötször annyi kérdést old meg másodpercenként, mint korábban.

Az MI-memória új korszaka

Az Nvidia most a NIM mikroszolgáltatások részeként teszi elérhetővé a DMS-t, amely egyszerűen beépíthető a Hugging Face pipeline-okba, CUDA-kódolás nélkül, teljesen kompatibilisen a FlashAttentionnel is. Bizonyos jelek arra utalnak, hogy ez csak a kezdet: a következő lépésben a memóriamenedzsment egy önálló, intelligens MI-réteggé válhat.

A rendszer ráadásul kompatibilis a legújabb architektúrákkal, így például a DeepSeek modelljeinél már használt Multi-head Latent Attention (MLA) mechanizmussal is. Ez további hatékonyságot jelenthet a jövőben, főleg ahogy az egyszerű chatbotoktól a hosszabb, komplexebb MI-ügynökök felé tolódik a fejlesztés fókusza – ahol már az azonnali gondolkodás költsége lesz a fő tényező.

Mindezt figyelembe véve a DMS új fejezetet nyit a nagy nyelvi modellek hatékonyságában – mélyebb gondolkodás kevesebb eszközzel, alacsonyabb költségen.

2025, adminboss, venturebeat.com alapján

  • Te szerinted meddig kellene egy adatsort megőrizni, mielőtt végleg törlik?
  • Te milyen elveket követnél a gépi memóriahasználat optimalizálásánál?


Legfrissebb posztok

MA 18:32

A Cleveland-i Fed elnöke szerint MI fűti az inflációt – jöhet újabb kamatemelés

A mesterséges intelligencia infrastruktúrája iránti fékezhetetlen igény egyre nagyobb mértékben fűti az inflációt – figyelmeztetett Beth Hammack, a clevelandi Szövetségi Tartalékbank elnöke...

MA 18:01

A Samsung Messages júliusban leáll: ezt az 5 dolgot tedd meg azonnal!

⚠ A Samsung Messages alkalmazás hamarosan végleg eltűnik az amerikai felhasználók mobiljáról, így akinek fontosak a régi üzenetei, vagy továbbra is csevegni szeretne, érdemes minél előbb lépnie...

MA 17:02

Az új CRISPR az epigenomot célozza, átírja a gének kapcsolóit

🔨 Felmerül a kérdés, hogy mi lenne, ha a betegségeket nem csupán a DNS szerkesztésével, hanem a gének működésének speciális beállításával lehetne kezelni?..

MA 16:31

A Tata Electronicsnál múlt héten kiszivárogtak érzékeny iPhone-beszállítói adatok

Az elmúlt héten hatalmas adatlopás történt az indiai Tata Electronicsnál, ahol közel 630 GB-nyi bizalmas információ került illetéktelen kezekbe...

MA 16:01

A YouTube-on már nézhető a Peacock – épp a vb-re!

A Peacock Premium Plus már elérhető a YouTube Primetime Channels szolgáltatáson keresztül, így mostantól közvetlenül a YouTube alkalmazásban is előfizethetsz rá, és nézheted az összes tartalmat – legyen szó mobilról, tabletről vagy okostévéről...

MA 15:01

A Blackfield 2 millió dollárt követel a Nidec-től

💸 A világ egyik legnagyobb motor- és elektronikai alkatrészgyártójaként ismert, több mint 100 ezer embert foglalkoztató japán Nidec Corporation most hatalmas nyomás alatt áll: a Blackfield zsarolóvírus-banda 2 millió dollárt, vagyis körülbelül 726 millió forintot követel tőle...

MA 14:32

A Sentryn át eltérítették a Claude Code-ot; Datadog, PagerDuty, Jira is veszélyben

A Claude Code MI-ügynök elleni támadás meglepő módon mindent kikerült, amit ma védelemnek nevezünk...

MA 12:01

A kínai szuperszámítógép a világ leggyorsabbja, lehagyta Amerikát

A kínai LineShine nevű szuperszámítógép lett a világ leggyorsabbja, első ízben 2017 óta, hogy ismét kínai gép vezeti a mezőnyt...

MA 11:31

A tenger alatti alagutaké a jövő Shetlanden: összekötnék a szigeteket

🚦 Érdemes megvizsgálni, hogy a Shetland-szigetek vezetése radikális változtatásra készül a közlekedésben: egy 1,5 milliárd angol font (650 milliárd forint) értékű terv szerint az elöregedő kompokat víz alatti alagutak válthatják fel a következő nyolc éven belül...

MA 10:50

Az MI-láz: száguldó milliárdok, közeleg a következő válság?

A 19. század csatornaépítési és vasúti láza, a dotkom-lufi 2000-ből – mind gazdaságtörténeti példák arra, hogy valódi technológiai áttörések túlfűtött beruházási hullámokat indíthatnak el, amelyek végül recesszióval végződhetnek...

MA 10:24

Az IBM rekordja: közel 100 milliárd tranzisztor egyetlen chipen

Az IBM újabb mérföldkőhöz érkezett a chiptechnológia világában: bemutatta a világ első, 1 nanométernél kisebb csíkszélességű technológiáját, mellyel egy körömnyi lapkán közel 100 milliárd tranzisztor kap helyet...

MA 10:01

A milliónyi robbanó csillag hamarosan felfedheti a sötét energia titkát

💫 Az Univerzum tágulásának részletesebb vizsgálata és a titokzatos sötét energia megértése közelebb kerülhet, hála egy barcelonai kutatócsoport forradalmi megközelítésének...

MA 09:49

Az emberiség túlélheti – a Föld megúszhatja a Nap halálát

Ez a jelenség jól illusztrálható azzal, hogy a Nap közel ötmilliárd év múlva lenyűgöző változáson megy keresztül: kifogy a hidrogén üzemanyagából, vörös óriássá duzzad, majd még nagyobb méretet öltve aszimptotikus óriáság állapotba lép, végül fehér törpévé zsugorodik...

MA 09:37

A fiatalokat sújtó rákhullám mögött a gyorsabb biológiai öregedés áll?

Az elmúlt években egyre többen néznek szembe azzal, hogy már 50 éves koruk előtt súlyos betegségekkel, például mell-, vastagbél-, vese- vagy méhrákkal diagnosztizálják őket...

MA 09:24

A Gemini már a személyes fotóidból is képeket varázsol

📷 A Google egyre többet tud rólunk, mostantól pedig a Gemini alkalmazáson keresztül már a személyes fotóink felhasználásával is egyedi képeket készít...

MA 09:13

A Nissan elismerte: dolgozói adatai Oracle zero-day támadásban szivárogtak

Külön említést érdemel, hogy a Nissan jelenlegi és volt alkalmazottainak személyes adatai kerültek veszélybe egy kifinomult kibertámadássorozat során...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/30

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Lively Letters – Phonics (iPhone/iPad)Ez az alkalmazás villámgyorsan az App Store fizetős oktatási programjai élére tört...

MA 09:01

A Disney és az Adobe Foundry AI-val álmodja újra a vidámparkokat

A Disney és az Adobe összefog, hogy teljesen új korszakot nyisson a szórakoztatóiparban: közösen tervezik a jövő tematikus parkjait, szállodáit és hajóútjait egy testreszabott MI-megoldás segítségével...

MA 08:49

A NAIC csillapít: csak nyilvános PeopleSoft-adat a ShinyHuntersnél

Érdemes megérteni, hogy a National Association of Insurance Commissioners (NAIC) nagyszabású kibertámadás áldozata lett, miután egy Oracle PeopleSoft-szervert érintő, nulladik napi (zero-day) sebezhetőséget kihasználó támadás révén a ShinyHunters nevű csoport hozzáférést szerzett a szervezet rendszereihez...

MA 08:37

Az ausztrál versenyhatóság perre viszi az Amazont a tisztességtelen Prime-feltételek miatt

Jó példa erre, hogy Ausztrália versenyhivatala, az ACCC pert indított az Amazon helyi részlege ellen, miután a cég a Prime-előfizetések feltételeit állítólag egyoldalúan, a fogyasztók kárára módosította...

MA 08:25

Az utolsó esély: a NASA példátlan küldetésre készül a haldokló űrtávcsőért

🚀 A világűr egyik legmegbízhatóbb teleszkópja, a Swift, napjai meg vannak számlálva...

MA 08:12

A kutatók szerepmodell-trükkel csalták ki az MI-ből kokainrecepteket

A fejlett szövegértelmező rendszerek, mint a modern nagy nyelvi modellek, újfajta támadásokkal néznek szembe...

MA 08:01

Az MI csődöt mondott, a Ford visszahívta a rutinos mérnököket

🚗 A Fordnál a minőségi problémák tartós fennállása miatt vezetői szinten beismerték: a mesterséges intelligencia önmagában nem jelentett megoldást a hibákra...

MA 07:49

Az MI leleplezve: a Tidal címkézi és törli a csaló zenéket

A zenehallgatás új korszakába lép a Tidal: hamarosan egy jól látható „MI” ikon jelenik meg azoknál a zeneszámoknál, amelyeket kizárólag mesterséges intelligencia hozott létre...

MA 07:37

Az áttörés küszöbén: önmegsemmisítésre bírhatók a hasnyálmirigyráksejtek

Ebből következően érdemes megérteni, hogy a hasnyálmirigyrák továbbra is az egyik legnehezebben kezelhető daganatos betegség, főként a KRAS-mutációk gyakori jelenléte miatt...

MA 07:25

A Kobo legjobb, Kindle-verő funkciója mostantól elérhető

📚 A Kobo végre elindította régóta várt újítását: mostantól automatikusan szinkronizálhatod az olvasási előrehaladásodat, aktuális olvasmányaidat és befejezett könyveidet a StoryGraph szolgáltatással...

MA 07:01

A Sony törli a filmeket: tényleg nem a miénk, amit veszünk?

📦 Szeptember 1-jétől a brit PlayStation-felhasználók 551, korábban megvásárolt filmhez és sorozathoz többé nem férnek hozzá, mert a Sony törli őket a PlayStation Store kínálatából...

MA 06:25

A WhatsApp bevezeti a felhasználóneveket: búcsú a látható számoktól

👋 A WhatsApp újdonsága, hogy mostantól lehetőség van egyedi felhasználónév lefoglalására, amivel végre könnyedén elrejtheted a telefonszámodat olyanok elől, akik nincsenek a névjegyzékedben...

MA 06:06

Történelmi események a mai napon (Június 30.)

Időutazás egyetlen napon: a német hatalmi leszámolástól a hongkongi szuverenitás-átadásig, az első 999-es segélyhívótól Yosemite völgyének megóvásáig...