
Új irány: tömörítés dekódolás előtt
Hat egyetem – többek közt a NYU, a Columbia, a Princeton, a University of Maryland, a Harvard, valamint a Lawrence Livermore National Laboratory – kutatói most egy radikálisan új megközelítést dolgoztak ki. Az általuk bemutatott Latent Context Language Models (LCLM) olyan kódoló–dekódoló elvek alapján tömörít, hogy a bemeneti szöveget jóval a dekódolás előtt rövidíti le. A nyílt forráskódú modellek letölthetők a Hugging Face platformon.
A legtöbb korábbi módszer – például az elterjedt KV cache tömörítés – úgy működik, hogy minden szöveget teljes egészében feldolgoz, majd az adatokat kezdi el szelektálni. Ezzel szemben az LCLM azonnal megszabadul a fölösleges részek túlnyomó többségétől, már mielőtt a dekóderhez eljutnának. Ennek következtében akár 16-szoros tömörítésnél 8,8-szoros gyorsulást értek el a RULER hosszú kontextusú benchmarkon, miközben a pontosságcsökkenés minimális maradt.
Alapos tesztelés, apró veszteségek
Az LCLM lehetővé teszi, hogy a modellek a korábbinál sokkal hosszabb szövegrészleteket is értelmezni tudjanak – jóval kevesebb memória- és számítási igény mellett, ráadásul a minőségen sem esik nagy csorba. Negyedelés, azaz négyszeres tömörítés során 91,76%-os pontosságot mértek, míg a tömörítetlen alapmodell 94,41%-ot tudott: kevesebb mint 3%-os esés úgy, hogy a szöveg háromnegyedét elhagyják. Még extrém, 16-szoros tömörítésnél is a pontosság 75%-on maradt. Összehasonlításképp: ilyen mértékű tömörítésnél minden versenytárs elvérzett, még a KV cache stratégiák is. Ráadásul rövidebb szövegeken – például a GSM8K feladatoknál – szintén messze a legjobban teljesített.
A modell felépítése és tanítása
A fejlesztők egy 600 millió paraméteres kódolót társítottak egy 4 milliárd paraméteres dekóderhez. A kódoló a bevitt szöveget rövid, sűrített rejtett reprezentációk sorozatára tömöríti, ezt elemzi ki a dekóder. Tanítás közben 350 milliárd tokennel dolgoztak, három adatforrással: folyamatos előtanulás vegyítve tömörített és eredeti szövegekkel, speciális finomhangolás logikai és hosszú szöveges feladatokra, illetve egy segédfeladaton keresztül azt is támogatták, hogy a tömörítés közben a részletek se vesszenek el.
A kutatási eredményekből az is látszik, hogy a dekóder mérete jobban befolyásolja a teljesítményt, mint a kódolóé.
Gyakorlatban is működik
Az LCLM nem elméleti játékszer: a mindennapi MI-pipeline-okba simán beilleszthető, egyszerűen lecserélhető vele bármelyik meglévő nagy nyelvi modell. Leginkább akkor hoz óriási előnyt, amikor nagy dokumentumhalmazokat vagy sok, külső forrásból összegyűjtött információt kell gyorsan, költséghatékonyan feldolgozni.
Ebből arra lehet következtetni, hogy a jövőben egy MI-modell képes lesz hatalmas adathalmazokban is gyorsan átfutni, és csak a legfontosabb részletekbe mélyed bele – pont, mint amikor egy ember átpörget egy könyvet, majd ott áll meg, ahol tényleg érdekes információt talál.
Az üzleti szférában is érezhető a robbanás: a kontextuskezelés fejlesztésére irányuló beruházások három hónap alatt a háromszorosára nőttek, márciusra első számú prioritássá léptek elő.
Hova tovább?
Három fő tanulság vonható le a vállalati alkalmazás szempontjából. Először is: a költségek egyértelműen a szövegmennyiséggel arányosan nőnek. Ha például egymillió token nagyságrendű bemenetet szeretnénk feldolgozni, a hagyományos, tömörítés nélküli technika egy NVIDIA H200 GPU memóriakorlátaiba ütközik, míg az LCLM bőven határon belül marad. Másodszor: az adatgyűjtő (RAG) pipeline-ok további finomhangolást igényelnek, mivel a tömörítési arány a visszakeresési pontosságra is hatással lehet. Harmadszor: az érvelési láncok tömörítése jelenleg még nyitott terület – ennek fejlesztésén még dolgoznak a kutatók.
Az LCLM-modellek már elérhetők a Hugging Face portálon, a kód pedig a GitHubon is szabadon böngészhető.
Ennek következtében az MI-k számára egyre kevésbé lesz határ a feldolgozható szövegmennyiség – az emberi gondolkodáshoz hasonlóan most már száguldhatnak végig gigászi dokumentumhalmokon is.
