2026. 02. 01., 13:04

Az MI-keresők csődöt mondanak: csak feldarabolják a technikai dokumentumokat

Az MI-keresők csődöt mondanak: csak feldarabolják a technikai dokumentumokat
Fontos kérdés, hogy miért működnek annyira rosszul a vállalati MI-alapú keresők a bonyolult technikai dokumentumokkal, miközben elsőre azt ígérik, hogy bármilyen PDF vagy kézikönyv tartalmát percek alatt feldolgozzák. A mérnöki területeken dolgozók gyakran tapasztalják, hogy az MI-alapú chatbot nem pontos válaszokat ad, inkább csak találgat, amikor összetett infrastruktúrakérdéseket tesznek fel neki.

Felületes feldolgozás: a „lapos szöveg” csapdája

A legtöbb MI-alapú kereső és RAG (retrieval-augmented generation) rendszer jelenleg úgy dolgozza fel a dokumentumokat, hogy egyszerűen szövegként kezeli őket, és 500 karakterenként szétvágja a tartalmat. Ez a módszer viszonylag jól működik regények vagy egyszerű szövegek esetén, de tönkreteszi a műszaki kézikönyvek logikai szerkezetét: félbevágja a táblázatokat, elszakítja a képek aláírását az illusztrációtól, és teljesen figyelmen kívül hagyja az oldal vizuális hierarchiáját. A hozzáférhető tudás így széttöredezik, és a keresőmotorok képtelenek összerakni a fontos összefüggéseket.

A „szeletelés” helyett szemantikus feldarabolás

Továbbra is a legnagyobb kihívás, hogy a feldolgozott dokumentum szerkezetét is értse az MI – ebben segít az úgynevezett szemantikus feldarabolás. Ilyenkor a rendszer már nem pusztán tokenek vagy karakterek alapján darabol, hanem a tényleges tartalmi egységeket – fejezeteket, szakaszokat, bekezdéseket – azonosítja, például az Azure Document Intelligence segítségével. Így például egy táblázat vagy egy egész alkatrészt bemutató blokk egy egységként kerül be az MI memóriájába, így nem vész el a jelentéstartalom. Belső tesztekben a szemantikus módszer jelentősen javította az adatok visszakeresésének pontosságát.

Az elveszett vizuális tudás: sémák, ábrák, diagramok

Idővel kiderült, hogy a vállalatokon belüli tudás jelentős része nem a szövegben, hanem diagramokban és ábrákban rejlik. A legtöbb hagyományos beágyazómodell képtelen értelmezni ezeket az információkat, így azok egyszerűen kimaradnak az indexelésből. Ezért gyakran fordul elő, hogy ha a válasz egy folyamatábrában lenne megtalálható, az MI csak annyit mond, hogy nem tudja a választ.


Multimodális szövegesítés: ábrák kereshetővé tétele

A megoldást a multimodális szövegesítés hozza: még a képek – például PNG-fájlok – adatbázisba kerülése előtt a rendszer látásalapú modelleket (például GPT-4o) vet be, hogy a képeken lévő szövegeket optikai karakterfelismeréssel (OCR) azonosítsa, a diagramok tartalmát pedig részletes, természetes nyelvű leírással egészítse ki. Ezeket az újonnan generált leírásokat metaadatként kapcsolja az eredeti kép mellé, így kereshetővé válik minden folyamatábra, még ha azt eredetileg csak képként tárolták is.

Bizalomépítés: Ellenőrizhető válaszok

A vállalati környezetben azonban önmagában a válaszadás nem elegendő: fontos a hitelesség és az átláthatóság. Míg korábban a rendszer csak szöveges választ és egy fájlnevet adott, mostantól a rendszer a feldolgozás során megőrzi a kapcsolatot a szöveges egység és az azt tartalmazó kép vagy táblázat között, amit így a válasz mellett a felhasználó is azonnal láthatja. Ez a „mutasd a bizonyítékot” funkció nagyban növeli az MI-be vetett bizalmat.

A jövő: natív multimodális keresés és hosszabb kontextusablak

Továbbra is gyorsan fejlődik a technológia: hamarosan a natív multimodális beágyazás (pl. Cohere Embed 4) lehetővé teszi, hogy a szöveg és kép közötti határ teljesen elmosódjon, és a rendszer automatikusan, metaadatok nélkül értse a dokumentum szerkezetét. Amint az ilyen LLM-ek már olcsón képesek akár teljes kézikönyveket is értelmezni, a szemantikus feldarabolás szerepe csökkenhet. Mindez azonban jelenleg még költséges, így egyelőre a hatékony, strukturált feldolgozás marad az időben és pénzben leginkább megtérülő megközelítés.

Összegzés

Az MI-alapú keresés csak akkor válik valódi tudásasszisztenssé a vállalati világban, ha végre nem darabolja szét a dokumentumokat önkényesen, hanem tiszteletben tartja azok logikáját, szerkezetét, és a vizuális információkat is feldolgozza.

2025, adminboss, venturebeat.com alapján

  • Te mennyire bíznál egy ilyen MI-alapú keresőben a munkahelyeden?
  • Mit tettél volna másképp ezekben a fejlesztésekben?


Legfrissebb posztok

MA 14:24

Az eltűnt kanadai Emoji-tó nyomában: sosem látott katasztrófa

💧 Kanada egyik leglátványosabb tava, a Quebec tartományban található Lac Rouge, különös módon, néhány nap leforgása alatt teljesen eltűnt...

MA 13:56

Az Apple Wallet tényleg hamarosan kiváltja a plasztikkártyákat?

💳 A közelgő iOS-frissítések számos hasznos újítást hoznak az iPhone-felhasználók mindennapjaiba. Az iOS 26...

MA 13:34

A munkahelyeket felforgató MI: csak a gyorsak maradnak talpon

A Microsoft friss kutatása szerint az MI használata robbanásszerűen terjed a munkahelyeken, de a vállalatok többsége még nem igazán tudja, hogyan vezesse be hatékonyan az újdonságokat...

MA 13:23

Az Aave visszavághat: megmenthető a befagyasztott kriptó?

💰 A kriptovilágban ismét forrnak az indulatok: az egyik legnagyobb decentralizált kölcsönző platform, az Aave az amerikai szövetségi bírósághoz fordult, hogy feloldják az Arbitrumon befagyasztott, mintegy 26 800 ethert (71 millió dollár, azaz közel 26 milliárd forint) érintő zárolást...

MA 13:12

Az adatlopás célkeresztjében a Trellix forráskódja

🔒 Újabb jelentős kibertámadás érte a Trellixet: ismeretlen támadók hozzáfértek a cég forráskódjának egy részéhez...

MA 12:34

Az internet rejtett urai: a MI-botok térnyerése

Megfigyelhető, hogy a digitális ökoszisztéma látványosan átalakul a MI-botok térnyerése miatt...

MA 12:23

A Sony új fejhallgatója debütált: jön az AirPods Max 2 riválisa?

A Sony hamarosan piacra dobhatja szuperprémium fejhallgatóját, amelyet most először láthattunk a nyilvánosság előtt...

MA 11:35

A BLUETTI FridgePower: Hűtőmentő hős vagy félúton elvérző csoda?

🧊 Az elmúlt évben bekövetkezett ibériai áramszünet sok spanyol és portugál háztartásban világossá tette, hogy a vészhelyzeti áramellátás már nemcsak a vidéki túlélők vagy vállalkozások kiváltsága...

MA 11:23

Az észak-koreai hackerek ellen hadba vonul a kriptopiac

🛡 Az elmúlt hónapban a kriptopiacot megrázó, 104 milliárd forintos Drift elleni hackertámadás új korszakot nyitott a digitális lopások történetében: már nem a programhibák, hanem a hosszú hónapokon át tartó, jól szervezett emberi manipulációk jelentik a fő veszélyforrást...

MA 10:58

A nagy párbaj: MacBook Pro M4 vagy Mac Studio M2?

🛡 A MacBook Pro és a Mac Studio két igen ütős gép, amelyek még a legújabb modellek megjelenése után is komoly versenyzők maradtak...

MA 10:43

Az infláció már a Bitcoin malmára hajtja a vizet?

💰 Egy lényeges szempont, hogy a Bitcoin újabban nem a megszokott forgatókönyv szerint mozog az inflációs jelek láttán...

MA 10:37

A tényleg hordozható erőmű: DJI Power 1000 Mini teszt

Kompakt méretének köszönhetően a DJI Power 1000 Mini gyökeresen új szintre emeli a mobil áramellátás fogalmát...

MA 10:23

Az OpenAI ingyenes Codex-hónapot indít – kitört az MI-háború

Különösen igaz ez akkor, ha a világ két legértékesebb MI-cége ugyanazon az estén, ugyanabban a városban versenyez ugyanazért a fejlesztői közösségért...

MA 09:15

Az égben jár a Bitcoin: újra tombol a kriptoláz?

🚀 A Bitcoin újra átlépte a 81 000 dolláros, vagyis több mint 29 millió forintos szintet, miután hétfőn rövid ideig visszaesett az Iránnal kapcsolatos rakétatámadás hírei miatt...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/5

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Milky Way: Cosmic Playground (iPhone/iPad)A Milky Way egy fizika alapú, kozmikus szimulátor, amelyben különböző űrbeli eseményeket lehet kipróbálni, például mi történne, ha a Jupiter beleütközne a Napba, vagy hogy nézne ki a galaxisunk az Andromédával való összeolvadás után...

MA 09:08

Az American Express új MI-vásárlórendszere: valóban megbízható?

A pénzügyi szektor izgalma egyre nagyobb az MI-alapú vásárlások lehetőségei körül: az American Express (Amex) forradalmi rendszert fejleszt, amely lehetővé teszi, hogy MI-ügynökök – tehát digitális segítők – vásároljanak és fizessenek ügyfeleik helyett...

MA 09:01

A gigászi eBay-felvásárlás a GameStop bitcoinját is fenyegeti

A videójáték-kereskedő GameStop 55,5 milliárd dolláros (20 715 milliárd forint) ajánlatot tett az online piactér eBay felvásárlására, amivel újabb lendületet kapott a terjeszkedési törekvés...

MA 08:50

A lehetetlen kvantumanyagok, amelyek mégis léteznek

Egy amerikai kutatócsoportnak sikerült olyan különleges anyagállapotokat létrehoznia, amelyek a természetben önmaguktól nem keletkeznének...

MA 08:43

Az olcsóbb hitel felpörgeti a Hut 8 új MI-beruházását

💰 Fontos kérdés, hogy a bitcoin-bányász cégek milyen gyorsan tudnak alkalmazkodni az MI-robbanáshoz és a pénzpiaci mozgásokhoz...

MA 08:36

A NetHack még ma is életben tartja az MS-DOS-t

👻 1987 óta töretlenül fejlődik a NetHack, amely igazi különlegességként még ma is támogatja az MS-DOS-t – annak ellenére, hogy a Microsoft már húsz éve megszüntette e régi operációs rendszer támogatását...

MA 08:28

Az XRP megtorpan: megbicsaklik az árfolyam, nő a feszültség

Megint megcsúszott az XRP, ezúttal 1,40 dollár (kb. 510 HUF) alá esett nagy forgalom mellett, és egyre szűkebb sávban billeg a token, miközben mindkét oldal visszafogottan kereskedik...

MA 08:22

A műanyaghulladékból tiszta hidrogén: berobban a napfényes jövő?

Kezdetben a műanyagszennyezés és az energiaéhség két egymástól független problémának tűnt...

MA 08:16

A saját felhő titka: Nextcloud Hub otthon, ingyen

A felhőalapú együttműködés nemcsak a nagyvállalatok kiváltsága, hanem bárki számára elérhető, aki szeretné a saját adatait teljes biztonságban, mégis könnyen elérhetően tárolni...

MA 08:08

A botrány után magyarázkodik a Gearbox-főnök: túl messzire ment az MI?

😱 Fontos kérdés, hogy hol húzódik a határ az MI és a játékstúdiók mindennapi tevékenysége között...

MA 08:01

Az emberiség visszapillant: 12 ezer lenyűgöző Artemis II-fotó a Holdról

Az Artemis II legénysége tavasszal tíz felejthetetlen napon át kerülte meg a Hold túlsó oldalát, és közben alaposan dokumentálta kalandjait: több mint 12 000 fotót készítettek az út során...

MA 07:58

Az ösztrogén nem csak női hormon: áttörés a trauma memóriaromboló hatásának megértésében

Fontos kérdés, hogy miért reagál másként a férfiak és a nők agya a traumákra, és milyen szerepet játszik ebben az ösztrogén...

MA 07:50

Az utazás lassítja az öregedést: így segít a testednek

Az ismeretlen helyek felfedezése és új élmények megélése nem csupán feltölt: a legújabb kutatások szerint valóságos immunerősítőként is működik, sőt hozzájárulhat az egészséges öregedéshez...

MA 07:43

Az év legcikibb sztorija: hogyan venné meg a GameStop-vezér az eBayt?

😂 Ryan Cohen, a GameStop vezérigazgatója szinte mindenkit ledöbbentett, amikor bejelentette, hogy 56 milliárd dollárért (azaz több mint húszezer milliárd forintért) megvásárolná az eBay-t...

MA 07:36

Az ősi zöld kövek titka: négyezer éve bányásszák a Pireneusokban

Lényeges szempont, hogy a Pireneusok magaslataiban felfedezett titokzatos zöld ásvány arról tanúskodik: elődeink évszázadokon át bányatábort működtettek ott...