Mi baj van a szövegfeldolgozókkal?
A hagyományos megoldásokban a weboldalakat először többszörösen megtisztítják, darabolják, majd feldolgozzák, miközben az eredeti oldal sok részlete elveszik. Az olyan elemek, mint a képek, szerkezet, tipográfia vagy kiemelések – például félkövér szöveg vagy táblázatok – vagy eltűnnek, vagy rosszul alakulnak szöveggé. Márpedig sosem lehet minden információt tökéletesen visszaadni pusztán szövegalapú feldolgozással.
A hibák háromnegyedét az adja, hogy az eredeti információ vagy átalakul, vagy elvész az átalakítás közben: a kulcsfontosságú adatok vagy nincsenek benne az adatbázisban, vagy úgy hátrébb sorolódnak a kereséskor, hogy a felhasználó nem találja meg őket, vagy a szöveg egysíkúvá válik, és az MI rossz helyre köti az információt. Ezért az új megközelítés nem foglalkozik többé a szövegkinyeréssel, hanem képként menti az oldalakat, és azokból húz információt.
Hogyan működik a PixelRAG?
A PixelRAG egy teljesen új elvet követ: az oldalak böngészőben renderelt változatát 875 pixel szélességű, 1024 pixel magas „csempékre” vágja, a tartalom minden vizuális elemével együtt. Az információkat képkockákba menti, például a Wikipédia 7 millió cikkéből 30 millió ilyen csempe képződik. Ezeket a csempéket 2048-dimenziós vektorrá alakítja, majd egy gyors keresőindexbe teszi. Az egész index körülbelül 120 GB helyet foglal, miközben részlegesen is frissíthető.
Ahhoz, hogy az MI-modell pontos legyen, szintetikus, kontrasztos tanítóadatokkal finomhangolják – 40 ezer adatpárral, mindössze három óra alatt elvégezhető egy H100-as GPU-n. Tároláskor nincs szükség a képek állandó mentésére: elég a vektorokat eltárolni, a tényleges képet el is lehet törölni, majd lekérdezésnél újra előállítani. A képi index így is csak 120 GB-ot foglal, szemben a teljes Wikipédia képernyőfotóinak 5,6 TB-jával.
Pontosabb, gyorsabb, olcsóbb
A PixelRAG hatékonyságát hat feladaton tesztelték: lexikális Wikipédia-kérdések, táblázatadat-lekérdezések, multimodális válaszadás és élő hírek keresése során rendre megelőzte a szövegalapú rendszereket. A pontosságot akár 18,1%-kal is növelte, például az egyszerű kérdés–válasz teszten 78,8%-ot ért el, szemben a legjobb szöveges rendszer 71,6%-ával. Ugyanez a különbség a strukturált táblázatok esetében még jobban érzékelhető. Nagyobb modelleknél nő az előny, kisebbeknél viszont még mindig a hagyományos keresés vezet.
Az üzemeltetési költségek is elképesztően alacsonyak lettek: az MI-alapú kereső egyetlen vizsgálatban 3,6 millió prompt tokent használt el, szemben a szöveges kereső 37,5 milliójával. Ez az aktuális árak mellett 2–4-szeres költségcsökkenést és gyorsabb válaszidőt jelent, a pontosság növekedése mellett. A képek tömörítésével tovább csökkenthető a tokenigény, és így a költség is.
A vizuális darabolás kihívásai és a jövő
Egyetlen jelentősebb problémát az jelent, hogy a képek darabolásánál a rendszer nem veszi figyelembe, hol kezdődik vagy végződik egy fejezet vagy táblázat, mivel fix pixelszélesség és -magasság szerint vág. Ezzel szemben a szöveges rendszerek már évek óta képesek automatikusan logikus egységekre osztani a dokumentumokat. Ez a vizuális módszer legnagyobb kihívása: a fejlesztők szerint ezen a területen lesz szükség a következő időszak kutatásaira.
Mit jelent ez a nagyvállalatoknak?
A keresési minőség ugrásszerű javulása a piacon is látszik: a hibrid keresési megoldások bevezetése háromszorosára ugrott két hónap alatt, és márciusban már a cégek harmada így tervez. Az átállás egyszerű, mert a PixelRAG a meglévő szövegalapú rendszerek mellé vagy fölé is beilleszthető – nem kell mindent elölről kezdeni, elég bővíteni, hibrid módon kombinálni a vizuális és szöveges keresést. Várhatóan így működik majd minden éles üzemi rendszer a közeljövőben.
