
Az MI-leállás túlmutat a szerverhibán
A TrueFoundry, amely vállalati MI-infrastruktúrát fejleszt, a TrueFailover nevű újdonságával igyekszik megoldani ezt a problémát. Az új rendszer automatikusan érzékeli a szolgáltatók (OpenAI, Anthropic, Google, Cohere) hibáit, lassulásait vagy minőségromlásait, majd azonnal – a felhasználók számára észrevétlenül – áttereli a forgalmat alternatív modellekhez vagy másik földrajzi régióba. Az MI-alapú rendszerek ma már szinte minden nagyobb cégnél üzletkritikusak: a patikák vénykiváltásától kezdve, szoftverfejlesztésen és ügyfélszolgálaton át a kereskedelmi ajánlatkészítésig.
A jelenlegi MI-óriások – OpenAI, Anthropic, Google – által kínált infrastruktúra működése még bőven rejteget váratlan hibalehetőségeket – nem úgy, mint a hosszú múltú felhőszolgáltatók (Amazon, Microsoft). Nem egyértelmű, de lehetséges, hogy a szolgáltató- és régiófüggő leállások valójában gyakoribbak, mint gondolnánk, és a súlyosabb problémákat a “lassú, de még működő” helyzetek okozzák, amelyekben észrevétlenül romlik a rendszer válaszideje vagy minősége.
Így működik a TrueFailover
A TrueFailover a TrueFoundry AI Gateway rétegeként fut, amely havonta több mint 10 milliárd MI-kérést dolgoz fel Fortune 1000-es vállalatoknál. A rendszer lehetővé teszi elsődleges és tartalék modellek beállítását több szolgáltatónál. Ha például az OpenAI kiesik, a forgalom automatikusan átirányítható az Anthropic, Google Gemini, Cohere vagy akár saját üzemeltetésű alternatívákhoz – mindez anélkül, hogy a fejlesztőknek újra kellene írniuk a kódot.
A földrajzi és szolgáltatói redundanciát is támogatja: különböző régiókból és több felhőszolgáltatón keresztül irányítható a forgalom, így egy-egy helyi hiba esetén az egész világra kiterjedő katasztrófa pusztán egy láthatatlan infrastruktúrabeli korrekcióvá szelídül. Emellett a rendszer folyamatosan monitorozza a késleltetést, a hibaarányokat és a minőségi mutatókat, hogy előre jelezze, mikor kezd romlani egy adott modell vagy szolgáltatás teljesítménye.
A stratégiai gyorsítótárazás segít elnyelni a hirtelen jelentkező forgalmi csúcsokat, megakadályozva a “lökésszerű” hibákat, illetve túlterheléses hibák láncolatát.
A kihívás: minőségromlás nélküli modellváltás
Az egyik legnagyobb mérnöki kihívás, hogy egy adott prompt (indítási szöveg) jól működjön minden modellnél, vagy hogy promptokat dinamikusan tudjon váltani a rendszer modellcserénél. Egy GPT-4-re optimalizált kérdés például egész más eredményt adhat a Google Geminin. Egyszerűbb verziókban a váltás “észrevehető” lehet, komplexebb környezetekben azonban modell- vagy régióspecifikus promptokat tartalmaz a rendszer, így a felhasználó ebből semmit sem érzékel.
Mindez automatizált: a TrueFailover kérésenként igazítja a promptot és választja ki az éppen működő, megfelelő minőségű modellt – a hibaesetek kezelése előre definiált szabályok alapján történik, nem kapkodásból.
Számos leállás esetén elég lehet ugyanazon modell egyik régiójából a másikba terelni a forgalmat, a komplex váltás (másik szolgáltatóra) csak utolsó védvonalként szükséges.
Megfelelés: érzékeny adatok, szabályozott iparágak
A banki, egészségügyi vagy egyéb szabályozott ágazatokban nem lehet csak úgy belső adatokat bármelyik szolgáltatóhoz továbbítani. Erre a TrueFailover adminisztratív szintű korlátokat vezet be, amelyekkel a vállalat egyértelműen megszabhatja, mely modellekre, hol, milyen feltételekkel lehet forgalmat terelni. Ami nincs engedélyezve, oda semmi sem kerül át.
Ennek köszönhetően például egy Fortune 50 egészségügyi cég éves szinten 500 millió IVR-hívást kezel biztonságosan, akár felhőben, akár saját szervereken.
A failover határai: nincs csodaszer
A TrueFailover nem helyettesíti a rendszeres tervezést és monitoringot. Ha például egy túl kicsi vagy butább modellre kell átváltani úgy, hogy a promptokat nem igazították ehhez, a minőség visszaeshet. Ha az összes alternatív modell ugyanazon a saját GPU-klaszteren fut, az infrastruktúra hibája mindegyiket leállítja. Egyszerre minden szolgáltató minden régiója szinte soha nem esik ki.
Az igazi védelmet többrétegű vészhelyzeti rutin és minél bővebb guardrail (védősáv) biztosítja: minél több modellt, régiót és szolgáltatót ad meg egy vállalat, annál kisebb az esély a teljes leállásra.
Kik használják már most a TrueFoundry-t?
A TrueFoundry platformját a világ legnagyobb MI-alapú rendszerei között tartják számon. 2025-ben 7 milliárd forintnak megfelelő (19 millió USD) tőkét vontak be, ügyfeleik között van az Nvidia, amely világszerte optimalizálja vele a GPU-erőforrásokat, a Games 24×7 játékcég, amely 100 millió felhasználónak szolgáltat MI-funkciókat, és a Whatfix nevű digitális platform.
Jelenleg 30-nál is több előfizetőjük van világszerte, az éves árbevételük a tavalyi évben meghaladta a 550 millió forintot, ügyfélbázisuk négyszeresére nőtt. Több mint 1 000 gépi tanulási klasztert menedzselnek, a TrueFailover pedig mostantól külön modulban érhető el, forgalom és felhasználószám alapján árazva.
Új készültségi szint a vállalati MI-védelemben
Míg az Amazon, a Google vagy a Microsoft fix pénzbeli vállalást ad leállás esetére, az MI-szolgáltatók, akik közös, több ügyfelet kiszolgáló erőforrásokat futtatnak, ennél jóval kevésbé tudnak kemény garanciákat adni. A saját dedikált infrastruktúra többszörösébe kerülhet, a közös modellhasználat miatt a váratlan forgalmi megugrások mindig kockázati tényezők maradnak.
Következésképpen a cégek ráébrednek, hogy a megbízhatóságot már nem várhatják el csupán az MI-szolgáltatóktól – a védelmi rétegek kiépítése elengedhetetlen.
A “MI-múlthoz” képest nőtt a tét
A vállalati MI-rendszerek szerepe megváltozott: már nem kísérleti vagy csak belső jellegűek, hanem a nyilvános ügyfélélmény közvetlen letéteményesei. Egy hibás vényfeltöltés, egy megrekedt ügyfélszolgálati kérdés vagy egy későn generált ajánlat közvetlenül befolyásolja a bevételt, a hírnevet.
Nem egyértelmű, de lehetséges, hogy a TrueFoundry-hoz hasonló megoldások nélkül ezek a sötét pillanatok tényleg ártani fognak azoknak, akik a legjobban számítanak: a végfelhasználóknak.
