2026. 01. 11., 06:59

A szemantikus cache a titkos fegyver: 73% LLM-megtakarítás

A szemantikus cache a titkos fegyver: 73% LLM-megtakarítás
Egy lényeges szempont, hogy a nagy nyelvi modellek (LLM-ek) használata költséges lehet, ha nem figyelünk oda a fölösleges ismétlésekre. A tapasztalatok szerint az LLM API-költségek akár havi 30%-kal is növekedhetnek – miközben a valós forgalom csak mérsékelten emelkedik. A fő probléma abban rejlik, hogy a felhasználók gyakran ugyanazt kérdezik, csak más-más megfogalmazásban, és ilyenkor minden kérdés külön LLM-hívást, azaz újabb költséget generál.

Miért kevés az egyező szöveges tárolás?

Kezdetben kézenfekvő megoldásnak tűnik, hogy pontos szövegegyezést (exact match) keresünk a kérdések között: ugyanaz a lekérdezés, ugyanaz a válasz, ugyanaz a cache-kulcs. Ez a klasszikus módszer azonban a logok elemzése szerint csupán a redundáns hívások 18%-át fogja meg, mert az emberek szinte soha nem használják szó szerint ugyanazt a megfogalmazást. Ugyanakkor a lekérdezések 47%-a szemantikailag nagyon hasonló, csak máshogyan van megfogalmazva, míg a fennmaradó 35% teljesen új kérdés. A szövegalapú cache tehát rengeteg hasznos megtakarítástól foszt meg bennünket.

Szemantikus cache: az igazi megtakarítás kulcsa

A szemantikus cache nem a kérdések pontos szövegét, hanem azok jelentését (embedding-vektorát) figyeli. Itt a kérdéseket beágyazzuk (embedding), majd egy vektortérben összehasonlítva mérjük, mennyire hasonlítanak egymáshoz. Ha a hasonlóság valamely küszöbérték (például 0,92) fölött van, máris visszaadható egy korábban kiszámolt válasz.

A gyakorlatban ez három komponenst jelent: egy embedding-modellt, egy vektorbázist (pl. FAISS, Pinecone), és egy válasz-tárolót (pl. Redis, DynamoDB). A lekérdezést először beágyazzuk, majd megkeressük, van-e elég hasonló korábbi kérés; ha találunk ilyet, azonnal visszaadhatjuk a cache-elt választ.

A hasonlósági küszöb problémája

A legnagyobb kihívást a megfelelő hasonlósági küszöb beállítása jelenti. Ha a küszöbérték túl alacsony, félrevezető, helytelen válaszokat is visszakaphatunk. Például 0,85-ös küszöbnél könnyen előfordulhat, hogy a „Hogyan mondhatom le az előfizetésemet?” kérdésre egy „Hogyan mondhatom le a rendelésemet?” típusú választ kapunk, pedig a két válasz nagyon eltérhet.

A legjobb eredményt kategóriánként állított küszöbértékek hozzák:
– GYIK/FAQ típusnál magas, 0,94 (a bizalom miatt kell pontos válasz)
– Termékkeresésnél alacsonyabb, 0,88 (több hasonlóság megengedett)
– Ügyfélszolgálati kérdéseknél 0,92
– Tranzakciós (pl. fizetés) kérdéseknél extra magas, 0,97 (nulla hibátűrés)

A konkrét küszöböket érdemes adatvezérelt módon beállítani, különféle lekérdezéspárok kézi vizsgálata alapján. Ehhez érdemes különböző hasonlósági szinteken kérdéspárokat mintavételezni, majd 3 megbízható annotátorral besoroltatni: azonos-e a jelentés vagy sem. Így kialakítható egy precízió–visszahívás (precision–recall) görbe minden lekérdezéstípushoz; ennek maximuma lesz az ideális küszöb.


Futási idő, késleltetés

A szemantikus cache némi extra késleltetéssel jár, hiszen minden lekérdezést be kell ágyazni és keresni kell. Mérési adatok szerint ez átlagosan 20 ms-t (p50) ad hozzá, nagyon ritkán akár 47 ms-ot (p99). Ez eltörpül az LLM-hívások 850–2400 ms-os válaszideje mellett. Megéri: ha a cache-hit arány 67%, az összesített átlagos késleltetés 850 ms-ról 300 ms-ra esik vissza, azaz 65%-kal javul.

Az érvénytelenítés buktatói

Cache-elt válaszok idővel elavulhatnak: változnak termékinformációk, irányelvek. Három fő stratégiával kell frissíteni:
– Időalapú (TTL): például árak 4 óráig, irányelvek 7 napig, termékinformációk 1 napig érvényesek.
– Eseményalapú: ha a forrásadat (pl. ár vagy szabályzat) frissül, a kapcsolódó cache-elt válaszok azonnali törlése.
– Elavulásérzékelés: rendszeres ellenőrzés, a tárolt válaszok naponta kis mintáját újra lekérdezve, majd a beágyazások összehasonlítása (ha jelentősen eltér, törlés).

Valós eredmények: költség, pontosság, elégedettség

Három hónapos éles használat után:
– A cache-hit arány 18%-ról 67%-ra ugrott (+272%)
– Az LLM API-költségek 17,4 millió forintról 4,7 millió forintra csökkentek (-73%)
– Az átlagos válaszidő 850 ms-ról 300 ms-ra javult (-65%)
– A téves, hibás szolgáltatás aránya 0,8% alatt maradt, a felhasználói reklamáció mindössze 0,3%-kal emelkedett.

A hibák főként a küszöb határán jelentkeztek, ahol a hasonlóság még nagyon magas, de a szándék kicsit eltér.

Tipikus hibák, amiket el kell kerülni

Nem szabad univerzális küszöbértéket használni – kérdéstípusonként külön kell beállítani őket. Az embedding-lépéseket cache-hit esetén sem lehet kihagyni, hiszen azzal sérül a cache-kulcsgenerálás minősége. Mindig kell érvénytelenítési stratégia: enélkül gyorsan elavulnak a válaszok, ez pedig rontja a felhasználói bizalmat. Nem érdemes mindent cache-elni: személyre szabott, tranzakciós vagy pillanatnyi információkat sosem szabad elraktározni.

A fentiek tükrében

A szemantikus cache egy kézzelfogható, nagy hasznot hozó megoldás az LLM-költségcsökkentéshez, amely az egyező szöveges cache-nél többet fog meg. A siker kulcsa a precíz küszöbhangolás (adatvezérelt módon, típusonként), valamint egy jól felépített érvénytelenítési rendszer. 73%-os költségcsökkenéssel és 65%-os gyorsulással a szemantikus cache az egyik leghatékonyabb LLM-optimalizáció, amely kellő figyelemmel bevezetve jelentősen javíthatja mind a felhasználói élményt, mind az üzemeltetési költségeket.

2025, adminboss, venturebeat.com alapján

Legfrissebb posztok

kedd 18:02

Az Amazon felhőjét dróntámadások bénították: leálltak az adatközpontok

Három Amazon Web Services (AWS) adatközpont az Egyesült Arab Emírségekben és egy Bahreinben súlyos dróntámadások következtében károsodott, ami komoly leállást okozott, és jelenleg is több tucat felhőszolgáltatás meghibásodásához vezet...

kedd 17:59

Az olcsó PC-k korszakának vége

💻 Érdekes felvetés, miszerint néhány éven belül eltűnhetnek az igazán olcsó, 180 ezer forint alatti számítógépek a boltok polcairól...

kedd 17:21

Az új trükk, amivel kártevőt csempésznek a Microsoft-fiókodba

🔒 Az elmúlt hetekben több kormányzati és közszférabeli szervezetet is célba vettek olyan adathalász támadók, akik a Microsoft OAuth jogosultságkezelő rendszerének egy hivatalos funkcióját használják ki, hogy káros programokat telepítsenek a gyanútlan áldozatok gépére...

kedd 16:40

A rejtőzködés vége: a pszeudonimitás eltűnhet az interneten

Ahogy az MI egyre kifinomultabbá válik, a rejtőzködő felhasználók titkolózása is veszélybe kerül...

kedd 16:23

Az új kibertámadások kora: a Cloudflare 2026-os fenyegetettségi jelentése

A kibertámadások univerzuma sosem volt ennyire sokszínű és veszélyes, mint most: államilag támogatott hackercsoportok, brutális mértékű DDoS-támadások, deepfake csalók, akik akár állásinterjúra is jelentkezhetnek, és még a Google Naptár, a Dropbox vagy a GitHub is lehet egy támadás eszköze...

kedd 14:01

Az El Niño visszatérhet 2026-ban? Mutatjuk, mire készülhetünk

☀ Két év telt el azóta, hogy az El Niño éghajlati mintázat felforgatta a világ időjárását...

kedd 13:59

Az OpenAI gátat szab az amerikai tömeges megfigyelésnek

Érdekes felvetés, hogy az OpenAI újabb módosításokat vezet be a védelmi minisztériummal kötött megállapodásában, hogy egyértelműen tiltsa MI-rendszereinek tömeges amerikai megfigyelésre való használatát...

kedd 13:39

Az év űrjáték-botránya: adatlopás a Star Citizen fejlesztőinél

🚀 Ez a jelenség jól illusztrálható azzal, hogy a Star Citizen mögött álló Cloud Imperium Games fejlesztőcéget januárban kibertámadás érte, amelynek során ismeretlen támadók hozzáfértek több felhasználó személyes adataihoz...

kedd 13:20

Az esés, amitől még a Bitcoin is pánikol – olajszag a levegőben

🚨 Bonyolódik a helyzet a tőzsdéken, ahogy a konfliktus a Közel-Keleten már a negyedik napjába lépett – és ezt bizony mindenki megérzi, aki szeret kockáztatni...

kedd 12:01

Az Android villámgyorsan lép: életmentő javítás a Qualcomm-hibára

⚡ Nem unatkozott mostanában az Android csapata: 129 biztonsági rést kellett befoltoznia, köztük egy nulladik napi hibát, amelyet támadók már aktívan kihasználnak, és amely a Qualcomm kijelzőchipjeit érinti...

kedd 11:58

Az MI-költségek után végre jön a profit?

📈 A Stripe újításával az MI-t használó startupok könnyedén kiszámíthatják és átháríthatják a valódi működési költségeiket az ügyfeleikre...

kedd 11:40

Az OpenAI-vezér elismeri: kapkodva született a védelmi szerződés

📖 Rövid időn belül komoly hullámokat vert az OpenAI legújabb szerződése az Egyesült Államok Védelmi Minisztériumával, miután Sam Altman vezérigazgató teljes nyilvánosság előtt elismerte: hiba volt elsietni a megállapodást...

kedd 10:46

Az amerikai hadsereg után jön a nagy ChatGPT-törlés

Az OpenAI ChatGPT mobilappjának amerikai letöltései drasztikusan visszaestek, miután bejelentették a cég együttműködését a Védelmi Minisztériummal (DoD), amelyet Trump új adminisztrációja idején át is neveztek...

kedd 10:37

A Perseverance, amely tudja, hol van: így lett önálló

🚀 A Mars felszínén nincs GPS, és más navigációs műholdak sincsenek, mégis szükség van arra, hogy az ott dolgozó járművek önállóan, pontosan tudják a pozíciójukat...

kedd 10:19

A Core Scientific dobja a bitcoint, hogy az MI-re váltson

💸 Januárban a Core Scientific közel 54 milliárd forintért, vagyis nagyjából 175 millió dollárért adott el 1 900 bitcoint, a darabonkénti átlagár pedig 92 100 dollár körül alakult...

kedd 09:55

A Claude mostantól emlékszik rád – ráadásul teljesen ingyen!

😀 Naná, hogy a chatbotvilág is egyre menőbb, főleg amikor az ingyenes funkciók zsebre vághatók!..

kedd 09:46

Az új Call of Duty: berobban a Black Ops Royale

Képzeld el, ahogy száz játékos zúdul le egy gigantikus pályára – ez lesz a Black Ops Royale, amely március 13-án robban be a Call of Duty életébe, ráadásul teljesen ingyen!..

kedd 09:37

Az új iPad Air: erősebb belül, változatlan kívül

Az Apple új iPad Air modellje alig különbözik az elődjétől, de a megszokott forma mögött komoly memóriafrissítés rejtőzik...

kedd 09:29

Az ókori görög jósnők bódító extázisa: mit rejtenek a füstök?

🔮 Az évezredekkel ezelőtt kialakult Eleusziszi Misztériumok szertartásai Görögország-szerte híresek voltak titokzatosságukról és különös erejükről...

kedd 09:10

Az igazi Little Foot arca: így festett 3,7 millió éve

🖖 Végre fény derült arra, hogyan nézhetett ki a valaha talált egyik legősibb emberelőd, Little Foot...

kedd 09:01

Az Apple új MI-ját tényleg a Google szerverei hajtják?

Az Apple meghatározó lépésre készül a Siri fejlesztésében: nemcsak a Google Gemini MI-modelljeit tervezi használni, hanem felmerült, hogy a Google szerverei is részt vehetnek az új generációs, MI-alapú személyes asszisztens háttérfolyamataiban...

kedd 08:56

Az USA legnagyobb internetszolgáltatója lehet a Charter: felvásárolná a Coxot

A Charter Communications, a Spectrum márka mögött álló vállalat, engedélyt kapott az amerikai hírközlési hatóságtól (FCC), hogy felvásárolja a Coxot, ezzel megelőzheti a Comcastet, és a legnagyobb lakossági internetszolgáltatóvá válhat az Egyesült Államokban...

kedd 08:46

A floridai Microsoft-licencmaffia lebukott

👑 Egy 52 éves floridai nő, Heidi Richards közel két év, pontosan 22 hónap börtönbüntetést kapott, miután bizonyítottan évekig illegálisan árusított Microsoft Certificate of Authenticity (COA) címkéket világszerte...

kedd 08:28

Az Atacama rejtélye: láthatatlan élet virágzik a Föld legszárazabb sivatagában

🌎 Parányi férgek rejtett birodalmára bukkantak a Föld egyik legextrémebb, legszárazabb térségében, a chilei Atacama-sivatagban...

kedd 08:19

Az új Mastodon-gomb kihúz a megosztási mocsárból

Mostantól pofonegyszerűen lehet megosztani bármely weboldal tartalmát Mastodonon: megérkezett ugyanis a platform univerzális Share to Mastodon gombja...

kedd 08:01

Az HBO Max és a Paramount+ összeköltözik – bírjuk a sorozatdömpinget?

Közben az is tény, hogy az HBO Max és a Paramount+ valóban egyetlen gigantikus streaming-szolgáltatássá olvadnak össze, amellyel rögtön 200 millió előfizetőt kezelnek majd világszerte...

kedd 07:56

A rendőrök bakija: véletlenül elúszik a lefoglalt kriptovagyon

Nemrég Dél-Koreában a rendőrség nagy sikerként jelentette be, hogy 124 vagyonos adóelkerülőtől összesen 5,6 millió dollárnyi, azaz kb...

kedd 07:46

A NEAR szárnyal, titokzatos tranzakciók borzolják a kedélyeket

🚀 A NEAR token lendületes, 17 százalékos emelkedést mutatott, tovább erősítve közel 40 százalékos heti nyereségét, miután elindította a Confidential Intents nevű új, privát végrehajtási réteget...

kedd 07:37

A net új királya: a Charter bekebelezi a Coxot – olcsóbb lesz?

Az USA internetes játszóterén eddig a Comcast volt a főnök, de most villámgyorsan színre lépett a Charter, amely rövid úton megkapta a Szövetségi Kommunikációs Bizottság (FCC) engedélyét, hogy felvásárolja a Coxot, így hamarosan a legnagyobb internetszolgáltatóvá válik az országban...