Az MI-forradalom spórol: a Google lefaragja a memóriaigényt

Érdemes megvizsgálni, miként alakítja át a Google új fejlesztése az MI-algoritmusok működését — különösen most, amikor a chatbotok és más MI-megoldások iránti kereslet berobbant, de a háttérben hatalmas hardverigények rejtőznek. Míg egy egyszerű üzenet csak néhány tucat szóból vagy úgynevezett tokenből áll, egy fejlett MI-rendszerben százezres nagyságrendben születnek ideiglenes információk, amelyeket el kell tárolni a műveletek során. Ez az átmeneti tárhely, a kulcs–érték (KV) gyorsítótár, lényegében a modern MI-k memóriája: minél nagyobb, annál többet tud megjegyezni, így annál okosabb és gyorsabb lesz például a ChatGPT is.

Forradalmi memóriatakarékosság

Mindeközben a Google mérnökei egy egészen új szintre emelték ezt a memóriakezelést, amikor bemutatták a TurboQuant nevű rendszert. Ezzel a megoldással akár hatszor kevesebb működés közbeni memóriát is elegendő használni anélkül, hogy az MI elveszítené a teljesítményét vagy pontosságát. A trükk kulcsa a kvantizáció — olyan tömörítési eljárás, amelynek során a memóriában tárolt adatokat kevesebb biten, egyszerűsítve, de elég pontosan lehet újra leírni.

A módszert eddig is alkalmazták statikusan, vagyis az egész rendszert egyszer tömörítették a futtatás előtt. Ám a TurboQuant igazi újítása a dinamikus, folyamatos tömörítés: a rendszer valós időben igazítja a kulcs–érték gyorsítótár tartalmát, miközben az MI válaszokat generál. Ez jelentős szoftvermérnöki bravúr, mert a tömörített adatok hibátlan frissítése eddig számos cégnél akadály volt. A Google tesztjei alapján a Meta Llama 3.1-8B, a Google Gemma és a Mistral modelleken is kiváló eredményt hozott, sőt keresőmotoroknál és MI-alapú szolgáltatásoknál is forradalmi lehet.

Hogyan spórol a TurboQuant memóriát?

A TurboQuant két fő technikát alkalmaz. A PolarQuant során az MI adott pont körüli szögekké konvertálja az adatokat a hagyományos térbeli koordináták helyett — ez egyszerűbbé, tömörebbé teszi a leírást. Ezután lép közbe a Johnson–Lindenstrauss-féle (QJL) optimalizáció, amely apró igazításokkal korrigálja a kvantizációból eredő kerekítési hibákat. Így kevesebb memórián is pontos marad az információ.

A fejlesztés jelentőségét jól mutatja az is, hogy amikor a Google március 24-én először beszélt a TurboQuantról, a legnagyobb memóriagyártó cégek, mint az SK Hynix és a Samsung részvényei zuhanni kezdtek. Sokan ezt az áttörést a kínai DeepSeek MI-modell váratlan feltűnéséhez hasonlították, amely olcsón nyújtott világszínvonalú teljesítményt.

A valóságban: laborból a mindennapokba

A most bemutatott eljárás egyelőre főként a chatbotok válaszgenerálásánál, vagyis az úgynevezett inferencia szakaszban hoz jelentős megtakarítást. A tanulási szakasz — amikor az MI új ismereteket dolgoz fel — továbbra is hatalmas memóriát igényel majd. Így a teljes memóriaigény csökkenése összességében nem lesz drámai mértékű, de a válaszgenerálás gyorsulása, a nagyobb szövegkörnyezet és a pontosság mindenképpen nagy ugrást jelent.

A TurboQuant hivatalos bemutatóját az IEEE Nemzetközi Akusztika-, Beszéd- és Jelfeldolgozás-konferencián tartották Rio de Janeiróban, míg a PolarQuant és QJL módszereket május elején prezentálják Tangerben, a Nemzetközi Reprezentációtanulási Konferencián. Ez a fejlesztés új korszakot nyithat a miniatűr, de hatékony MI-k világában.

2026, adminboss, www.livescience.com alapján