2026. 02. 13., 06:26

Az Nvidia nagy dobása: nyolcszor olcsóbb LLM-inferencia

Az Nvidia nagy dobása: nyolcszor olcsóbb LLM-inferencia
Az Nvidia kutatói forradalmian új eljárást dolgoztak ki, amely akár nyolcszorosára csökkenti a nagy nyelvi modellek (LLM) memóriaköltségeit anélkül, hogy az algoritmus pontossága romlana. A Dynamic Memory Sparsification (DMS) nevű módszer a kulcs-érték (KV) cache-t tömöríti, vagyis azt a memóriát, amit az MI a feladatok során átmenetileg használ és tárol. Korábbi tömörítési próbálkozások többnyire minőségromlással jártak, az Nvidia újdonsága viszont úgy képes elhagyni a felesleges adatokat, hogy közben megőrzi, sőt, esetenként még javítja is az algoritmus gondolkodási teljesítményét.

A gondolkodás költséges gátja

Az LLM-ek bonyolult feladatokon akkor teljesítenek igazán jól, ha „gondolkodási láncokat” generálnak, vagyis szisztematikusan végigvezetik az algoritmust a megoldás lépésein. Fejlettebb MI-stratégiák a feldolgozási idő alatt hosszabb gondolkodási lehetőséget, illetve párhuzamos gondolatmeneteket is megengednek. Ez viszont azzal jár, hogy mind több tokensorozatot tárol a rendszer, a hozzájuk tartozó kulcs-érték párosokat pedig a GPU memóriájában. Ez gyorsan hatalmas tárigényt jelent, a memória betelik, az adatmozgatás lelassítja a modellt, a késleltetés nő, kevesebb felhasználót lehet kiszolgálni – csúcsterhelésnél akár össze is omolhat a rendszer. Az Nvidia szerint ez nemcsak informatikai, hanem gazdasági kérdés is: nem mindegy, olcsón tud-e 800 gondolkodási szálat kezelni egy szerver, vagy csak 100-at ugyanazon az infrastruktúrán.

Régi próbálkozások, új irány

Eddig a megoldási kísérletek főleg merev szabályokra, például „csúszó ablakra” (a legrégebbi tokenek törlése), vagy a kevésbé használt adatok lassabb háttértárra mozgatására épültek. Ezek azonban vagy értékes információt is kidobnak, rontva a feladatmegoldás minőségét, vagy annyira lelassítják a rendszert, hogy az valós időben gyakorlatilag használhatatlan lesz.

Dinamikus memóriaritkítás akcióban

A DMS lényege, hogy a meglévő, betanított modelleket utólag „tanítja meg” arra, mely tokenek a későbbi gondolkodás szempontjából valóban fontosak, és melyek dobhatók ki nyugodtan. Mindez nem igényli a modell teljes újratanítását: lényegében átalakítja az MI figyelmi rétegeibe épített neuronokat úgy, hogy minden tokenről eldöntsék, érdemes-e megtartani. A fejlesztéshez fagyasztani lehet a modell súlyait, ezzel gyorsítható a folyamat, amely például egy Qwen3-8B modellt néhány óra alatt át tud alakítani DMS-képessé, akár egyetlen DGX H100 gépen.

A DMS egyik kulcsa az úgynevezett „késleltetett kidobás”. Szemben a szokásos megoldásokkal, amelyek azonnal törlik a feleslegesnek ítélt adatot, a rendszer inkább megjelöli, de még néhány száz lépésig elérhetően hagyja a tokent. Így a modellnek marad ideje minden releváns információt hasznosítani, mielőtt végleg törlődik. Erre azért van szükség, mert sok token nem teljesen haszontalan vagy teljesen nélkülözhetetlen – egy rövid ideig még fontos lehet, később viszont már csak a memóriát foglalja.

A fejlesztők tapasztalatai szerint a DMS utólagos integrációjához mindössze 1000 tréninglépés kellett, ami eltörpül az eredeti tanuláshoz képest. Az átalakított modellek továbbra is a szokásos szoftverkörnyezetben, speciális hardver vagy bonyolult új szoftver nélkül használhatók.


Mérföldkövek az éles tesztekben

A DMS-t több nagy MI-modellen, például a Qwen-R1 és a Llama 3.2 modelleken is tesztelték. Komoly kihívásnak számító mércéken – legyen szó matematikáról (AIME 24), tudományról (GPQA Diamond), vagy programozásról (LiveCodeBench) – a DMS-es Qwen-R1 32B például 12 ponttal felülmúlta a hagyományos modellt azonos memóriahasználat mellett. A gondolkodás mélysége és szélessége eddig nem látott szintre nőtt, anélkül, hogy ehhez több memóriára vagy nagyobb számítástechnikai teljesítményre lett volna szükség.

Meglepő módon a DMS a hosszú távú következtetésekben sem vesztett, sőt, a rejtett információk keresésében (needle-in-a-haystack) még jobban teljesített, mint a tömörítés nélküli változat. A „tiszta”, tudatosan kezelt memória révén az algoritmus jobban átlátja a lényeget.

A hardver- és költséghatékonyság a gyakorlatban is látványos lett: a Qwen3-8B DMS-es változata például azonos minőségben ötszörös ügyféligényt képes kiszolgálni, vagyis egyetlen szerver ötször annyi kérdést old meg másodpercenként, mint korábban.

Az MI-memória új korszaka

Az Nvidia most a NIM mikroszolgáltatások részeként teszi elérhetővé a DMS-t, amely egyszerűen beépíthető a Hugging Face pipeline-okba, CUDA-kódolás nélkül, teljesen kompatibilisen a FlashAttentionnel is. Bizonyos jelek arra utalnak, hogy ez csak a kezdet: a következő lépésben a memóriamenedzsment egy önálló, intelligens MI-réteggé válhat.

A rendszer ráadásul kompatibilis a legújabb architektúrákkal, így például a DeepSeek modelljeinél már használt Multi-head Latent Attention (MLA) mechanizmussal is. Ez további hatékonyságot jelenthet a jövőben, főleg ahogy az egyszerű chatbotoktól a hosszabb, komplexebb MI-ügynökök felé tolódik a fejlesztés fókusza – ahol már az azonnali gondolkodás költsége lesz a fő tényező.

Mindezt figyelembe véve a DMS új fejezetet nyit a nagy nyelvi modellek hatékonyságában – mélyebb gondolkodás kevesebb eszközzel, alacsonyabb költségen.

2025, adminboss, venturebeat.com alapján

  • Te szerinted meddig kellene egy adatsort megőrizni, mielőtt végleg törlik?
  • Te milyen elveket követnél a gépi memóriahasználat optimalizálásánál?


Legfrissebb posztok

MA 17:01

Az intézményi tőke rohamot indít: jön a tokenizáció hulláma

Érdemes megvizsgálni, hogy a tokenizáció, vagyis eszközök blokklánc-alapú nyilvántartása és átruházása miért vált az utóbbi évek egyik legnagyobb kriptós hívószavává...

MA 16:46

A gyerekek sincsenek biztonságban az MI által készített YouTube-videóktól

🚧 A gyerekek elképesztő mennyiségben néznek mesterséges intelligenciával gyártott meséket és videókat a YouTube-on...

MA 16:02

Az MI-ügynökök támadása: védtelen SOC a célkeresztben

🛡 2026 tavaszán a világ legnagyobb kiberbiztonsági konferenciáján futótűzként terjedt egy nyugtalanító felismerés: soha nem volt még ilyen rövid az ablak, amelyen keresztül a védelmezők megállíthatják a támadásokat...

MA 15:57

Az antibiotikum-rezisztens baktériumok Achilles-sarka: áttörés született

💉 Ilyen lehet például, amikor egy szokatlan molekulára bukkanunk egy rettegett ellenség felszínén...

MA 15:45

Az új Fitbit-edző a ciklusodra és az étrendedre is figyel

💪 A Gemini-alapú Fitbit egészségügyi edzője mostantól még több funkcióval segíti a felhasználókat...

MA 15:34

Az Artemis II indulhat, de az időjárás közbeszólhat

A NASA továbbra is április 1-re tervezi az Artemis II küldetés indítását, és jelenleg sem az űrhajóval, sem a csapattal kapcsolatban nincs jelentős technikai probléma...

MA 15:24

A cseh lottómilliárdos, aki befektetéseivel megelőzte a világot

🎰 Csehországot legtöbben a Škoda, a Pilsner Urquell és Václav Havel nevével kötik össze, de most felkerült a listára egy új világmárka is...

MA 15:13

Az óceán urai: így élték túl a tintahalak a tömeges kihalást

🐬 A tintahalak és a tintahalak rokonai, vagyis a szepiák (cuttlefish), a tengerek legelképesztőbb lényei közé tartoznak...

MA 15:02

Az igazi milliárdos történet: Steve Jobs nem az Apple-ből lett szupergazdag

Steve Jobs neve egybeforrt az Apple-lel, az iPhone‑nal, iPaddal és iMaccal, mégis egészen másból származott az a vagyon, amely később milliárdossá tette...

MA 14:56

Felbőgtek a CERN új szupergokartjai az LHC alagútjában

Tipikus eset, amikor a tudomány és a praktikum találkozik: a CERN mérnökei ezúttal egy olyan szupergyors gokartot fejlesztettek, amellyel a nyáron induló nagyszabású karbantartási munkák idején rekordsebességgel száguldozhatnak majd a munkatársak a 27 kilométeres föld alatti alagútban...

MA 14:46

Az igazi Soundwave: gyerekkori álom, horror árcédulával

🔊 Tipikus eset, amikor gyerekkori vágyaink végre teljesülnek – csak éppen annyi pénzért, amit felnőtt fejjel már kétszer is meggondolunk...

MA 14:35

A költözés sem akadály: ezeket a biztonsági kütyüket vidd magaddal

Vannak helyzetek, amikor egy lakás vagy ház csak ideiglenes otthon: katonacsaládok, albérlők, lakásfelújítók vagy akik gyakran költöznek, gyakran szembesülnek azzal, hogyan biztosítsák a védelmet...

MA 14:24

Az iOS 26.4 forradalmi? Mutatjuk, mi változik igazán

Már letölthető az iOS 26.4, amely az utóbbi idők talán legfontosabb frissítése az iPhone-ok számára...

MA 13:56

A Bitcoin-csúcsok varázsa megtört: közeleg a józan korszak

💸 A Bitcoin árfolyama mostanra visszatért korábbi csúcsértéke közelébe, ami jelentős változást jelez a piac viselkedésében...

MA 13:46

A ravasz trójai az egész internetet fenyegeti – te is érintett?

Felmerül a kérdés, hogy az internet egyik legalapvetőbb építőkockájában hogyan jelenhet meg egy komoly támadás, ráadásul úgy, hogy az érintett fejlesztők mindent a szabályok szerint csináltak...

MA 13:36

Az OpenClaw félmillió példánya szabadult el, vészleállító nélkül

💀 Az OpenClaw MI-asszisztens elterjedése elképesztő tempót diktál – immár közel 500 ezer példány fut világszerte, komoly biztonsági fékek nélkül...

MA 13:23

Az önvezető taxik káoszt hoznak: újabb balesetek Vuhanban

🚗 Ez a jelenség jól illusztrálható azzal, hogy Vuhan városában több Apollo Go robotaxi váratlanul megállt a forgalom kellős közepén...

MA 13:12

A ChatGPT már CarPlayen fut, az Android Auto kimarad

🚗 Az iPhone-t használók a legújabb frissítés óta már a ChatGPT-vel beszélgethetnek az Apple CarPlay-en keresztül, így vezetés közben anélkül tehetnek fel kérdéseket a MI-nek, hogy a telefonjukat kézbe kellene venniük...

MA 13:02

Az új Slackbot harminc MI-trükkel forradalmasítja a munkahelyeket

🚀 2026 tavaszán a Slack történetének legnagyobb frissítését jelentette be. A Slackbot mostantól több mint harminc új MI-funkcióval segíti a munkát...

MA 12:56

Az új Google Drive automatikusan blokkolja a zsarolóvírus-támadásokat

🔒 A Google egy jelentős frissítéssel erősítette meg a Google Drive biztonságát: minden fizetős felhasználó számára alapértelmezetté vált az MI-alapú zsarolóvírus-felismerés...

MA 12:23

Az Egyesült Királyság bekeményít: új Microsoft-trükköket vizsgálnak

A brit Verseny- és Piacfelügyeleti Hatóság (CMA) 2026 májusától átfogó vizsgálatot indít a Microsoft szoftverei kapcsán, amelyek között ott van a Windows operációs rendszer, az Office alkalmazáscsomag és a Copilot MI-asszisztens is...

MA 12:00

A döbbenetes pillanat: egy Starlink-műhold önmegsemmisült az űrben

Valami szokatlan történt a SpaceX egyik Starlink-műholdjával: 560 km-rel a Föld felett elvesztette a kapcsolatot az irányítókkal, minden jel szerint egy belső, nagy energiájú esemény miatt, nem pedig ütközés következtében...

MA 11:34

Az első HKD-stabilcoin-licencre még mindig vár Hongkong

Márciusban életbe lépett volna Hongkong vadonatúj szabályozása, amely a hongkongi dollárhoz kötött stabilcoin-kibocsátókat engedélyezné...

MA 11:23

Az eltűnt net: tényleg hoppon maradnak a Google Fi-ügyfelek?

Na most kapaszkodj, mert egész sor Google Fi-előfizető kapott hidegzuhanyt: a mobilnet egy csapásra megszűnt, mintha a SIM-kártyájuk eltűnt volna a semmibe...

MA 11:13

Az MI strukturált kérdései átírják a kódellenőrzés szabályait

🤖 Első pillantásra úgy tűnt, hogy a mesterségesintelligencia-ügynökökkel végzett kódellenőrzés szinte megoldhatatlan probléma: minden egyes kódtárhoz költséges és bonyolult szimulált futtatási környezetet (sandboxot) kell felépíteni, emiatt folyamatosan nőnek az infrastrukturális terhek...

MA 11:03

A sarkvidék váratlan mellékhatása: tisztább lett Kína levegője

Kína a közelmúltban drasztikusan csökkentette a légszennyezést okozó aeroszol-kibocsátását. Ez a lépés nemcsak hazai szinten hozott látványos változásokat, hanem egészen a sarkvidékig hullámzott tovább, meglepő következményeket okozva...

MA 11:00

Eltűnt az ázsiai szmog, mégis veszélyben az északi-sarki jég

Kína az elmúlt évtizedben radikális lépéseket tett a légszennyezés visszaszorítása érdekében, ennek nyomán azonban meglepő hatások jelentek meg az Északi-sarkvidéken...

MA 10:50

Az év munkahelyi élménye: most ingyen kipróbálhatod a tech support poklát

Ha szeretnél nevetve (vagy épp rettegve) próbára tenni a barátságodat valakivel, itt egy új játék, ami garantáltan kizökkent a komfortzónádból...

MA 10:01

A hatalmas Anthropic-baki: kiszivárgott a Claude Code titka

Képzeld el: 500 ezer sornyi kód, majdnem 2 ezer fájl, és mindez csak úgy kikerült egy szimpla reggelen – mintha valaki véletlenül feltenné a titkos naplóját az Insta-sztorijába!..