MA 06:26

Az Nvidia nagy dobása: nyolcszor olcsóbb LLM-inferencia

Az Nvidia nagy dobása: nyolcszor olcsóbb LLM-inferencia
Az Nvidia kutatói forradalmian új eljárást dolgoztak ki, amely akár nyolcszorosára csökkenti a nagy nyelvi modellek (LLM) memóriaköltségeit anélkül, hogy az algoritmus pontossága romlana. A Dynamic Memory Sparsification (DMS) nevű módszer a kulcs-érték (KV) cache-t tömöríti, vagyis azt a memóriát, amit az MI a feladatok során átmenetileg használ és tárol. Korábbi tömörítési próbálkozások többnyire minőségromlással jártak, az Nvidia újdonsága viszont úgy képes elhagyni a felesleges adatokat, hogy közben megőrzi, sőt, esetenként még javítja is az algoritmus gondolkodási teljesítményét.

A gondolkodás költséges gátja

Az LLM-ek bonyolult feladatokon akkor teljesítenek igazán jól, ha „gondolkodási láncokat” generálnak, vagyis szisztematikusan végigvezetik az algoritmust a megoldás lépésein. Fejlettebb MI-stratégiák a feldolgozási idő alatt hosszabb gondolkodási lehetőséget, illetve párhuzamos gondolatmeneteket is megengednek. Ez viszont azzal jár, hogy mind több tokensorozatot tárol a rendszer, a hozzájuk tartozó kulcs-érték párosokat pedig a GPU memóriájában. Ez gyorsan hatalmas tárigényt jelent, a memória betelik, az adatmozgatás lelassítja a modellt, a késleltetés nő, kevesebb felhasználót lehet kiszolgálni – csúcsterhelésnél akár össze is omolhat a rendszer. Az Nvidia szerint ez nemcsak informatikai, hanem gazdasági kérdés is: nem mindegy, olcsón tud-e 800 gondolkodási szálat kezelni egy szerver, vagy csak 100-at ugyanazon az infrastruktúrán.

Régi próbálkozások, új irány

Eddig a megoldási kísérletek főleg merev szabályokra, például „csúszó ablakra” (a legrégebbi tokenek törlése), vagy a kevésbé használt adatok lassabb háttértárra mozgatására épültek. Ezek azonban vagy értékes információt is kidobnak, rontva a feladatmegoldás minőségét, vagy annyira lelassítják a rendszert, hogy az valós időben gyakorlatilag használhatatlan lesz.

Dinamikus memóriaritkítás akcióban

A DMS lényege, hogy a meglévő, betanított modelleket utólag „tanítja meg” arra, mely tokenek a későbbi gondolkodás szempontjából valóban fontosak, és melyek dobhatók ki nyugodtan. Mindez nem igényli a modell teljes újratanítását: lényegében átalakítja az MI figyelmi rétegeibe épített neuronokat úgy, hogy minden tokenről eldöntsék, érdemes-e megtartani. A fejlesztéshez fagyasztani lehet a modell súlyait, ezzel gyorsítható a folyamat, amely például egy Qwen3-8B modellt néhány óra alatt át tud alakítani DMS-képessé, akár egyetlen DGX H100 gépen.

A DMS egyik kulcsa az úgynevezett „késleltetett kidobás”. Szemben a szokásos megoldásokkal, amelyek azonnal törlik a feleslegesnek ítélt adatot, a rendszer inkább megjelöli, de még néhány száz lépésig elérhetően hagyja a tokent. Így a modellnek marad ideje minden releváns információt hasznosítani, mielőtt végleg törlődik. Erre azért van szükség, mert sok token nem teljesen haszontalan vagy teljesen nélkülözhetetlen – egy rövid ideig még fontos lehet, később viszont már csak a memóriát foglalja.

A fejlesztők tapasztalatai szerint a DMS utólagos integrációjához mindössze 1000 tréninglépés kellett, ami eltörpül az eredeti tanuláshoz képest. Az átalakított modellek továbbra is a szokásos szoftverkörnyezetben, speciális hardver vagy bonyolult új szoftver nélkül használhatók.


Mérföldkövek az éles tesztekben

A DMS-t több nagy MI-modellen, például a Qwen-R1 és a Llama 3.2 modelleken is tesztelték. Komoly kihívásnak számító mércéken – legyen szó matematikáról (AIME 24), tudományról (GPQA Diamond), vagy programozásról (LiveCodeBench) – a DMS-es Qwen-R1 32B például 12 ponttal felülmúlta a hagyományos modellt azonos memóriahasználat mellett. A gondolkodás mélysége és szélessége eddig nem látott szintre nőtt, anélkül, hogy ehhez több memóriára vagy nagyobb számítástechnikai teljesítményre lett volna szükség.

Meglepő módon a DMS a hosszú távú következtetésekben sem vesztett, sőt, a rejtett információk keresésében (needle-in-a-haystack) még jobban teljesített, mint a tömörítés nélküli változat. A „tiszta”, tudatosan kezelt memória révén az algoritmus jobban átlátja a lényeget.

A hardver- és költséghatékonyság a gyakorlatban is látványos lett: a Qwen3-8B DMS-es változata például azonos minőségben ötszörös ügyféligényt képes kiszolgálni, vagyis egyetlen szerver ötször annyi kérdést old meg másodpercenként, mint korábban.

Az MI-memória új korszaka

Az Nvidia most a NIM mikroszolgáltatások részeként teszi elérhetővé a DMS-t, amely egyszerűen beépíthető a Hugging Face pipeline-okba, CUDA-kódolás nélkül, teljesen kompatibilisen a FlashAttentionnel is. Bizonyos jelek arra utalnak, hogy ez csak a kezdet: a következő lépésben a memóriamenedzsment egy önálló, intelligens MI-réteggé válhat.

A rendszer ráadásul kompatibilis a legújabb architektúrákkal, így például a DeepSeek modelljeinél már használt Multi-head Latent Attention (MLA) mechanizmussal is. Ez további hatékonyságot jelenthet a jövőben, főleg ahogy az egyszerű chatbotoktól a hosszabb, komplexebb MI-ügynökök felé tolódik a fejlesztés fókusza – ahol már az azonnali gondolkodás költsége lesz a fő tényező.

Mindezt figyelembe véve a DMS új fejezetet nyit a nagy nyelvi modellek hatékonyságában – mélyebb gondolkodás kevesebb eszközzel, alacsonyabb költségen.

2025, adminboss, venturebeat.com alapján

  • Te szerinted meddig kellene egy adatsort megőrizni, mielőtt végleg törlik?
  • Te milyen elveket követnél a gépi memóriahasználat optimalizálásánál?


Legfrissebb posztok

MA 08:18

A 60 ezer éves vadásztrükk: az első mérgezett nyílhegyek

Hatvanezer évvel ezelőtt az afrikai emberek már mesterien alkalmazták a természet vegyületeit...

MA 08:02

Egy üstökösről szabadultak el az élet építőkövei

🚀 Első pillantásra úgy tűnt, hogy egy újabb titokzatos üstökös húz el Földünk mellett, azonban a NASA SPHEREx-űrtávcsöve meglepő felfedezést tett...

MA 07:58

Az aszteroida, ami átírhatja az élet születésének történetét

A NASA OSIRIS-REx missziója 2023-ban ért földet a Bennuról származó mintákkal, és a kutatók megerősítették, hogy a 4,6 milliárd éves kövek aminosavakat tartalmaznak...

MA 07:49

Az oroszok lelövik a WhatsAppot és a Telegramot: jön a MAX kora?

💥 Oroszország újabb szintre emelte az internetes cenzúrát: napok alatt blokkolta a WhatsAppot és a Telegramot...

MA 07:41

Az öregedő agy ellenszere: egy fehérje visszatekerheti az idő kerekét

Az agy öregedése eddig visszafordíthatatlannak tűnt, most azonban egy új felfedezés reményt hozhat a memória és a tanulás megőrzésére...

MA 07:34

Az új God of War-előzmény megérkezett PS5-ön

A Sony meglepetésként jelentette be februári State of Play bemutatóján a God of War: Sons of Sparta-t, amely már most játszható PlayStation 5-ön...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 2/13

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

MA 07:09

Az önvezető autók Achilles-sarka: a kézzel csukódó ajtó

🚗 Miközben a Waymo önvezető autói már hat amerikai nagyvárosban szállítanak utasokat, a jövő még mindig komikus problémákkal küzd...

MA 07:02

Az űr törvényeit felrúgó bolygótánc egy törpecsillag körül

🚀 A LHS 1903 nevű hűvös, elhalványult törpecsillag körül négy bolygó kering, amelyek látszólag fejre állítják a bolygórendszerek kialakulásáról alkotott hagyományos elméleteket...

MA 06:57

Az űr számkivetettje: kívül rekedt sziklás bolygót találtak

A csillagászok most egy különös, „fordított” bolygórendszert fedeztek fel, ahol egy sziklás bolygó a szokottnál jóval távolabb kering a csillagtól – ott, ahol egyébként a gázóriások laknának...

MA 06:49

Az Amazon kihátrál: vége a Ring–Flock szövetségnek

Az Amazon tulajdonában lévő Ring kénytelen volt megszüntetni az együttműködését a Flock Safety-vel, miután felháborodást váltott ki a lakók és a felhasználók körében...

MA 06:41

A Figma már a Google Chatben – kattints, és tervezz azonnal!

A Google Chat-felhasználók számára mostantól elérhető a Figma-integráció, amellyel könnyedén előnézhetik a Figma-fájlokat, kezelhetik a meghívókat és válaszolhatnak a hozzászólásokra közvetlenül az üzenetküldő alkalmazásban...

MA 06:34

Jön az Android 17: ezek a legnagyobb újdonságok

Hamarosan érkezik az Android 17, bár az első béta megjelenése váratlanul csúszott...

MA 06:17

A Marvel’s Spider-Man 2 végre megérkezett a PS Plusra

A februári PS Plus Game Catalog legnagyobb dobása a Marvel’s Spider-Man 2, amely végre elérhető lesz a szolgáltatásban február 17-től...

MA 06:06

Történelmi események a mai napon (Február 13.)

Február 13-a tele van sorsfordító pillanatokkal: véget ért Budapest ostroma, Franciaország nukleáris hatalommá vált, Tibet függetlenséget hirdetett, az égbolton pedig “gyémántot” találtak Lucy néven...

MA 06:01

Itt a YouTube az Apple Vision Pro-n – Jönnek a Google-appok?

Két év várakozás után végre megjelent a YouTube hivatalos alkalmazása az Apple Vision Pro-n...

csütörtök 21:37

Milliók adatai veszélyben: súlyos hiba egy népszerű WordPress-bővítményben

A WPvivid Backup & Migration WordPress-bővítmény, amelyet több mint 900 000 weboldalon használnak, súlyos biztonsági hibával küzd...

APP
csütörtök 07:11

APPok, Amik Ingyenesek MA, 2/12

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

csütörtök 06:05

Történelmi események a mai napon (Február 12.)

Share on Social Media x facebookwhatsapptelegram

APP
szerda 07:11

APPok, Amik Ingyenesek MA, 2/11

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

szerda 06:05

Történelmi események a mai napon (Február 11.)

Share on Social Media x facebookwhatsapptelegram

kedd 20:38

Az új Lorwyn: Eclipsed megdöntötte a Magic-rekordot

A január 23-án megjelent Lorwyn Eclipsed minden eddiginél gyorsabban fogy a Magic: The Gathering történetében, így újabb csúcsot állított be a 33 éves kártyajáték életében...

kedd 20:19

A nagy Windows-váltás: új Secure Boot tanúsítványok érkeznek

💻 A Microsoft elkezdte terjeszteni az új Secure Boot tanúsítványokat a szokásos havi Windows-frissítésekkel, mivel az eredetileg 2011-ben bevezetett tanúsítványok 2026...

kedd 19:55

Zöld utat kapott a Blockchain.com: FCA-licenc az Egyesült Királyságban

🟢 A Blockchain.com kriptotőzsde sikeresen megszerezte az Egyesült Királyság pénzügyi felügyeletének, az FCA-nak a regisztrációját, ami lehetővé teszi, hogy hivatalosan is kriptoszolgáltatásokat nyújtson az országban...

kedd 19:37

Az utolsó percben repült a Kraken pénzügyi igazgatója

🚨 A Kraken kriptotőzsde az első félévben esedékes, régóta várt tőzsdei bevezetésére készülve váratlanul megvált pénzügyi igazgatójától, Stephanie Lemmermantól...

kedd 19:19

Az 1337 dolláros egér, amit csak a nosztalgia kedvéért vennél

🖩 Újabb elképesztő limitált kiadást dob piacra a Razer: 25 évvel az első Boomslang után visszatér a legendás gamer egér, de a pénztárcád nem lesz hálás érte...

kedd 19:02

Az MI-kódháború új szintre lépett: a Codex földbe döngölte a Macet

🚀 Felmerül a kérdés, meddig tart az ingyenes paradicsom: az OpenAI legújabb MI-alapú Codex alkalmazása már az első héten elérte az egymilliós letöltési küszöböt, miközben csak Mac számítógépeken érhető el...

kedd 18:55

Az új Google-eszközök egy kattintással tüntetik el személyes adataidat

A Google vadonatúj funkciókat vezet be, amelyekkel bárki könnyedén eltávolíthatja érzékeny adatait a keresőből...

kedd 18:37

A Windows csak az új Secure Boottal marad biztonságos

🔒 A Microsoft automatikusan lecseréli a Secure Boot-tanúsítványokat a Windows-eszközökön, mielőtt a régiek 2026 júniusa és októbere között lejárnának...