MA 06:26

Az Nvidia nagy dobása: nyolcszor olcsóbb LLM-inferencia

Az Nvidia nagy dobása: nyolcszor olcsóbb LLM-inferencia
Az Nvidia kutatói forradalmian új eljárást dolgoztak ki, amely akár nyolcszorosára csökkenti a nagy nyelvi modellek (LLM) memóriaköltségeit anélkül, hogy az algoritmus pontossága romlana. A Dynamic Memory Sparsification (DMS) nevű módszer a kulcs-érték (KV) cache-t tömöríti, vagyis azt a memóriát, amit az MI a feladatok során átmenetileg használ és tárol. Korábbi tömörítési próbálkozások többnyire minőségromlással jártak, az Nvidia újdonsága viszont úgy képes elhagyni a felesleges adatokat, hogy közben megőrzi, sőt, esetenként még javítja is az algoritmus gondolkodási teljesítményét.

A gondolkodás költséges gátja

Az LLM-ek bonyolult feladatokon akkor teljesítenek igazán jól, ha „gondolkodási láncokat” generálnak, vagyis szisztematikusan végigvezetik az algoritmust a megoldás lépésein. Fejlettebb MI-stratégiák a feldolgozási idő alatt hosszabb gondolkodási lehetőséget, illetve párhuzamos gondolatmeneteket is megengednek. Ez viszont azzal jár, hogy mind több tokensorozatot tárol a rendszer, a hozzájuk tartozó kulcs-érték párosokat pedig a GPU memóriájában. Ez gyorsan hatalmas tárigényt jelent, a memória betelik, az adatmozgatás lelassítja a modellt, a késleltetés nő, kevesebb felhasználót lehet kiszolgálni – csúcsterhelésnél akár össze is omolhat a rendszer. Az Nvidia szerint ez nemcsak informatikai, hanem gazdasági kérdés is: nem mindegy, olcsón tud-e 800 gondolkodási szálat kezelni egy szerver, vagy csak 100-at ugyanazon az infrastruktúrán.

Régi próbálkozások, új irány

Eddig a megoldási kísérletek főleg merev szabályokra, például „csúszó ablakra” (a legrégebbi tokenek törlése), vagy a kevésbé használt adatok lassabb háttértárra mozgatására épültek. Ezek azonban vagy értékes információt is kidobnak, rontva a feladatmegoldás minőségét, vagy annyira lelassítják a rendszert, hogy az valós időben gyakorlatilag használhatatlan lesz.

Dinamikus memóriaritkítás akcióban

A DMS lényege, hogy a meglévő, betanított modelleket utólag „tanítja meg” arra, mely tokenek a későbbi gondolkodás szempontjából valóban fontosak, és melyek dobhatók ki nyugodtan. Mindez nem igényli a modell teljes újratanítását: lényegében átalakítja az MI figyelmi rétegeibe épített neuronokat úgy, hogy minden tokenről eldöntsék, érdemes-e megtartani. A fejlesztéshez fagyasztani lehet a modell súlyait, ezzel gyorsítható a folyamat, amely például egy Qwen3-8B modellt néhány óra alatt át tud alakítani DMS-képessé, akár egyetlen DGX H100 gépen.

A DMS egyik kulcsa az úgynevezett „késleltetett kidobás”. Szemben a szokásos megoldásokkal, amelyek azonnal törlik a feleslegesnek ítélt adatot, a rendszer inkább megjelöli, de még néhány száz lépésig elérhetően hagyja a tokent. Így a modellnek marad ideje minden releváns információt hasznosítani, mielőtt végleg törlődik. Erre azért van szükség, mert sok token nem teljesen haszontalan vagy teljesen nélkülözhetetlen – egy rövid ideig még fontos lehet, később viszont már csak a memóriát foglalja.

A fejlesztők tapasztalatai szerint a DMS utólagos integrációjához mindössze 1000 tréninglépés kellett, ami eltörpül az eredeti tanuláshoz képest. Az átalakított modellek továbbra is a szokásos szoftverkörnyezetben, speciális hardver vagy bonyolult új szoftver nélkül használhatók.


Mérföldkövek az éles tesztekben

A DMS-t több nagy MI-modellen, például a Qwen-R1 és a Llama 3.2 modelleken is tesztelték. Komoly kihívásnak számító mércéken – legyen szó matematikáról (AIME 24), tudományról (GPQA Diamond), vagy programozásról (LiveCodeBench) – a DMS-es Qwen-R1 32B például 12 ponttal felülmúlta a hagyományos modellt azonos memóriahasználat mellett. A gondolkodás mélysége és szélessége eddig nem látott szintre nőtt, anélkül, hogy ehhez több memóriára vagy nagyobb számítástechnikai teljesítményre lett volna szükség.

Meglepő módon a DMS a hosszú távú következtetésekben sem vesztett, sőt, a rejtett információk keresésében (needle-in-a-haystack) még jobban teljesített, mint a tömörítés nélküli változat. A „tiszta”, tudatosan kezelt memória révén az algoritmus jobban átlátja a lényeget.

A hardver- és költséghatékonyság a gyakorlatban is látványos lett: a Qwen3-8B DMS-es változata például azonos minőségben ötszörös ügyféligényt képes kiszolgálni, vagyis egyetlen szerver ötször annyi kérdést old meg másodpercenként, mint korábban.

Az MI-memória új korszaka

Az Nvidia most a NIM mikroszolgáltatások részeként teszi elérhetővé a DMS-t, amely egyszerűen beépíthető a Hugging Face pipeline-okba, CUDA-kódolás nélkül, teljesen kompatibilisen a FlashAttentionnel is. Bizonyos jelek arra utalnak, hogy ez csak a kezdet: a következő lépésben a memóriamenedzsment egy önálló, intelligens MI-réteggé válhat.

A rendszer ráadásul kompatibilis a legújabb architektúrákkal, így például a DeepSeek modelljeinél már használt Multi-head Latent Attention (MLA) mechanizmussal is. Ez további hatékonyságot jelenthet a jövőben, főleg ahogy az egyszerű chatbotoktól a hosszabb, komplexebb MI-ügynökök felé tolódik a fejlesztés fókusza – ahol már az azonnali gondolkodás költsége lesz a fő tényező.

Mindezt figyelembe véve a DMS új fejezetet nyit a nagy nyelvi modellek hatékonyságában – mélyebb gondolkodás kevesebb eszközzel, alacsonyabb költségen.

2025, adminboss, venturebeat.com alapján

  • Te szerinted meddig kellene egy adatsort megőrizni, mielőtt végleg törlik?
  • Te milyen elveket követnél a gépi memóriahasználat optimalizálásánál?


Legfrissebb posztok

MA 10:17

A Hadak istene új trilógiája: visszatér a könyörtelen isten

A legendás Hadak istene-trilógia (God of War) több mint 15 év után teljesen új feldolgozást kap...

MA 10:01

Az Anthropic állja az MI‑adatközpontok megugró villanyszámláját

Az Anthropic bejelentette, hogy saját adatközpontjai miatt emelkedő áramszámlák költségeit átvállalja, így nem az amerikai fogyasztókat terhelné az MI-fejlesztés miatti többlet...

MA 09:57

Az MI-apokalipszis küszöbén: valóban eljött a vég?

💣 Az MI fejlesztése elképesztő tempóban zajlik, de azonnali világégéstől nem kell tartani...

MA 09:49

A MI-vezérelt műkar csak akkor a tiéd, ha emberi tempóra lassít

Jellemző példa erre, hogy egy MI-vezérelt robotkar, amely túl gyorsan mozog, kifejezetten nyugtalanító lehet, míg a túl lassú mozgás esetlennek és haszontalannak tűnik...

MA 09:42

A HIV legyőzhető-e mesterséges intelligenciával és DNS-origamival?

🧠 Egy új típusú védőoltás, amelyet precízen hajtogatott DNS-ből készítettek – amelyet „DNS-origaminak” hívnak –, egereken végzett kísérletek szerint sokkal erősebb immunválaszt váltott ki a HIV ellen, mint a hagyományos, fehérjealapú oltások...

MA 09:33

Az óriási adatlopás megbénította Románia olajvezeték-hálózatát

⚠ Románia olajvezeték-hálózatát üzemeltető Conpet S.A.-t múlt héten kibertámadás érte: a Qilin nevű zsarolóvírus-csoport közel 1 TB bizalmas adatot lopott el a cégtől...

MA 09:25

A filléres 10G-s hálózati kártya, ami nagyot szól

A YuanLey AQC113-X1 10GBASE-T PCIe hálózati kártya azok számára ideális választás, akik gyors, mégis pénztárcabarát megoldást keresnek PC-jük vagy szerverük bővítéséhez...

MA 09:19

Az új Chrome-korszak: MI-asszisztensek lepik el a webet

A Google és a Microsoft közös fejlesztése, a Web Model Context Protocol (WebMCP) mostantól elérhető a Chrome 146 Canary fejlesztői változatában, új korszakot nyitva a mesterséges intelligencia (MI) ügynökök és a weboldalak kapcsolatában...

MA 09:09

Az elefántok rejtett szuperérzéke: a rugalmas, tapintó bajszuk

Lényeges, hogy az elefánt ormánya egyszerre dönti fel a fákat, majd pár mozdulattal képes összegyűjteni a lehullott ágakat...

MA 09:03

Az MI forradalmasítja a matematikát – vagy mégsem?

Ebből következően érdemes megérteni, hogy az utóbbi időszakban az MI-alapú nagy nyelvi modellek (LLM-ek) hogyan kezdik átalakítani a matematikai problémamegoldást...

MA 08:57

A világ új pénze lehet az arany?

Az arany ára az elmúlt hónapban unciánként 5300 dollárt (közel 1,9 millió forint) is elérte, miután Donald Trump elnök szigorú külpolitikája és vámfenyegetései bizonytalanságot keltettek, a befektetők pedig menedékeszközökbe menekültek...

MA 08:50

Az OpenAI új MI-je száguld a kódírásban – Nvidia nélkül

Az OpenAI most először hozott forgalomba olyan MI-modellt, amely nem Nvidia-hardveren fut...

MA 08:34

Az Achilles-ín fájdalmának rejtett oka végre leleplezve

Az Achilles-ín fájdalma, a teniszkönyök, az úszóváll és az ugrótérd nemcsak a fiatal sportolókat, hanem az idősebbeket is érinti...

MA 08:18

A 60 ezer éves vadásztrükk: az első mérgezett nyílhegyek

Hatvanezer évvel ezelőtt az afrikai emberek már mesterien alkalmazták a természet vegyületeit...

MA 08:02

Egy üstökösről szabadultak el az élet építőkövei

🚀 Első pillantásra úgy tűnt, hogy egy újabb titokzatos üstökös húz el Földünk mellett, azonban a NASA SPHEREx-űrtávcsöve meglepő felfedezést tett...

MA 07:58

Az aszteroida, ami átírhatja az élet születésének történetét

A NASA OSIRIS-REx missziója 2023-ban ért földet a Bennuról származó mintákkal, és a kutatók megerősítették, hogy a 4,6 milliárd éves kövek aminosavakat tartalmaznak...

MA 07:49

Az oroszok lelövik a WhatsAppot és a Telegramot: jön a MAX kora?

💥 Oroszország újabb szintre emelte az internetes cenzúrát: napok alatt blokkolta a WhatsAppot és a Telegramot...

MA 07:41

Az öregedő agy ellenszere: egy fehérje visszatekerheti az idő kerekét

Az agy öregedése eddig visszafordíthatatlannak tűnt, most azonban egy új felfedezés reményt hozhat a memória és a tanulás megőrzésére...

MA 07:34

Az új God of War-előzmény megérkezett PS5-ön

A Sony meglepetésként jelentette be februári State of Play bemutatóján a God of War: Sons of Sparta-t, amely már most játszható PlayStation 5-ön...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 2/13

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

MA 07:09

Az önvezető autók Achilles-sarka: a kézzel csukódó ajtó

🚗 Miközben a Waymo önvezető autói már hat amerikai nagyvárosban szállítanak utasokat, a jövő még mindig komikus problémákkal küzd...

MA 07:02

Az űr törvényeit felrúgó bolygótánc egy törpecsillag körül

🚀 A LHS 1903 nevű hűvös, elhalványult törpecsillag körül négy bolygó kering, amelyek látszólag fejre állítják a bolygórendszerek kialakulásáról alkotott hagyományos elméleteket...

MA 06:57

Az űr számkivetettje: kívül rekedt sziklás bolygót találtak

A csillagászok most egy különös, „fordított” bolygórendszert fedeztek fel, ahol egy sziklás bolygó a szokottnál jóval távolabb kering a csillagtól – ott, ahol egyébként a gázóriások laknának...

MA 06:49

Az Amazon kihátrál: vége a Ring–Flock szövetségnek

Az Amazon tulajdonában lévő Ring kénytelen volt megszüntetni az együttműködését a Flock Safety-vel, miután felháborodást váltott ki a lakók és a felhasználók körében...

MA 06:41

A Figma már a Google Chatben – kattints, és tervezz azonnal!

A Google Chat-felhasználók számára mostantól elérhető a Figma-integráció, amellyel könnyedén előnézhetik a Figma-fájlokat, kezelhetik a meghívókat és válaszolhatnak a hozzászólásokra közvetlenül az üzenetküldő alkalmazásban...

MA 06:34

Jön az Android 17: ezek a legnagyobb újdonságok

Hamarosan érkezik az Android 17, bár az első béta megjelenése váratlanul csúszott...

MA 06:17

A Marvel’s Spider-Man 2 végre megérkezett a PS Plusra

A februári PS Plus Game Catalog legnagyobb dobása a Marvel’s Spider-Man 2, amely végre elérhető lesz a szolgáltatásban február 17-től...

MA 06:06

Történelmi események a mai napon (Február 13.)

Február 13-a tele van sorsfordító pillanatokkal: véget ért Budapest ostroma, Franciaország nukleáris hatalommá vált, Tibet függetlenséget hirdetett, az égbolton pedig “gyémántot” találtak Lucy néven...

MA 06:01

Itt a YouTube az Apple Vision Pro-n – Jönnek a Google-appok?

Két év várakozás után végre megjelent a YouTube hivatalos alkalmazása az Apple Vision Pro-n...