MA 13:04

Az MI-keresők csődöt mondanak: csak feldarabolják a technikai dokumentumokat

Az MI-keresők csődöt mondanak: csak feldarabolják a technikai dokumentumokat
Fontos kérdés, hogy miért működnek annyira rosszul a vállalati MI-alapú keresők a bonyolult technikai dokumentumokkal, miközben elsőre azt ígérik, hogy bármilyen PDF vagy kézikönyv tartalmát percek alatt feldolgozzák. A mérnöki területeken dolgozók gyakran tapasztalják, hogy az MI-alapú chatbot nem pontos válaszokat ad, inkább csak találgat, amikor összetett infrastruktúrakérdéseket tesznek fel neki.

Felületes feldolgozás: a „lapos szöveg” csapdája

A legtöbb MI-alapú kereső és RAG (retrieval-augmented generation) rendszer jelenleg úgy dolgozza fel a dokumentumokat, hogy egyszerűen szövegként kezeli őket, és 500 karakterenként szétvágja a tartalmat. Ez a módszer viszonylag jól működik regények vagy egyszerű szövegek esetén, de tönkreteszi a műszaki kézikönyvek logikai szerkezetét: félbevágja a táblázatokat, elszakítja a képek aláírását az illusztrációtól, és teljesen figyelmen kívül hagyja az oldal vizuális hierarchiáját. A hozzáférhető tudás így széttöredezik, és a keresőmotorok képtelenek összerakni a fontos összefüggéseket.

A „szeletelés” helyett szemantikus feldarabolás

Továbbra is a legnagyobb kihívás, hogy a feldolgozott dokumentum szerkezetét is értse az MI – ebben segít az úgynevezett szemantikus feldarabolás. Ilyenkor a rendszer már nem pusztán tokenek vagy karakterek alapján darabol, hanem a tényleges tartalmi egységeket – fejezeteket, szakaszokat, bekezdéseket – azonosítja, például az Azure Document Intelligence segítségével. Így például egy táblázat vagy egy egész alkatrészt bemutató blokk egy egységként kerül be az MI memóriájába, így nem vész el a jelentéstartalom. Belső tesztekben a szemantikus módszer jelentősen javította az adatok visszakeresésének pontosságát.

Az elveszett vizuális tudás: sémák, ábrák, diagramok

Idővel kiderült, hogy a vállalatokon belüli tudás jelentős része nem a szövegben, hanem diagramokban és ábrákban rejlik. A legtöbb hagyományos beágyazómodell képtelen értelmezni ezeket az információkat, így azok egyszerűen kimaradnak az indexelésből. Ezért gyakran fordul elő, hogy ha a válasz egy folyamatábrában lenne megtalálható, az MI csak annyit mond, hogy nem tudja a választ.


Multimodális szövegesítés: ábrák kereshetővé tétele

A megoldást a multimodális szövegesítés hozza: még a képek – például PNG-fájlok – adatbázisba kerülése előtt a rendszer látásalapú modelleket (például GPT-4o) vet be, hogy a képeken lévő szövegeket optikai karakterfelismeréssel (OCR) azonosítsa, a diagramok tartalmát pedig részletes, természetes nyelvű leírással egészítse ki. Ezeket az újonnan generált leírásokat metaadatként kapcsolja az eredeti kép mellé, így kereshetővé válik minden folyamatábra, még ha azt eredetileg csak képként tárolták is.

Bizalomépítés: Ellenőrizhető válaszok

A vállalati környezetben azonban önmagában a válaszadás nem elegendő: fontos a hitelesség és az átláthatóság. Míg korábban a rendszer csak szöveges választ és egy fájlnevet adott, mostantól a rendszer a feldolgozás során megőrzi a kapcsolatot a szöveges egység és az azt tartalmazó kép vagy táblázat között, amit így a válasz mellett a felhasználó is azonnal láthatja. Ez a „mutasd a bizonyítékot” funkció nagyban növeli az MI-be vetett bizalmat.

A jövő: natív multimodális keresés és hosszabb kontextusablak

Továbbra is gyorsan fejlődik a technológia: hamarosan a natív multimodális beágyazás (pl. Cohere Embed 4) lehetővé teszi, hogy a szöveg és kép közötti határ teljesen elmosódjon, és a rendszer automatikusan, metaadatok nélkül értse a dokumentum szerkezetét. Amint az ilyen LLM-ek már olcsón képesek akár teljes kézikönyveket is értelmezni, a szemantikus feldarabolás szerepe csökkenhet. Mindez azonban jelenleg még költséges, így egyelőre a hatékony, strukturált feldolgozás marad az időben és pénzben leginkább megtérülő megközelítés.

Összegzés

Az MI-alapú keresés csak akkor válik valódi tudásasszisztenssé a vállalati világban, ha végre nem darabolja szét a dokumentumokat önkényesen, hanem tiszteletben tartja azok logikáját, szerkezetét, és a vizuális információkat is feldolgozza.

2025, adminboss, venturebeat.com alapján

  • Te mennyire bíznál egy ilyen MI-alapú keresőben a munkahelyeden?
  • Mit tettél volna másképp ezekben a fejlesztésekben?


Legfrissebb posztok

MA 14:04

Az üzleti jövő laptopja: Asus ExpertBook Ultra 2026

Az Asus legújabb ExpertBook Ultra laptopja egyszerre célozza meg az üzleti felhasználókat és a technológiai újítások rajongóit...

MA 13:37

Az MI átírja a minneapolisi lövöldözések történetét

🔍 Az utóbbi napokban Alex Pretti halálos minneapolisi lövöldözésének képei és videói futótűzként terjedtek a közösségi oldalakon – ám ezek jelentős része mesterséges intelligencia által manipulált...

MA 13:20

A Hubble megmutatja, hol születnek a csillagok

A NASA Hubble-űrteleszkópja lenyűgöző felvételt készített a Skorpió csillagképben található Lupus 3 molekulafelhőről, ahol gáz- és porfelhők közepette fiatal csillagok születnek...

MA 12:58

Az új kínai rövid videók felforgatják Latin-Amerikát

Latin-Amerikában forradalmian átalakul a videostreaming-piac, ahogy egyre nagyobb teret nyernek a Kínához köthető röviddráma-platformok...

MA 12:37

Az ex-Google mérnök lebukott: sorra szivárogtatta az MI-titkokat

A San Franciscóban tartott, 11 napos tárgyaláson a bíróság bűnösnek találta Linwei Ding volt Google-fejlesztőt, aki bizalmas MI-szuperszámítógép-technológiákat juttatott el kínai cégeknek...

MA 12:19

Az AYANEO végre tartja a határidőt: megjött a Pocket S Mini

Az AYANEO alaposan meglepte a játékos közösséget: ezúttal kihagyott mindenféle közösségi finanszírozást vagy hosszadalmas előrendelést, és az új Pocket S Mini kézikonzol már most elérhető, raktárról rendelhető...

MA 11:55

A bitcoin újra zuhan – elfogytak a vevők?

💸 A bitcoin árfolyama szombaton közel 10 százalékot esett, 75 700 dollárig, azaz körülbelül 27,2 millió forintig süllyedt, ezzel április óta legalacsonyabb szintjére került...

MA 11:19

Az olcsó lézerhegesztőből született fém 3D-nyomtató: igazi csoda

Egyre megfizethetőbb, nagy teljesítményű lézerek teszik lehetővé, hogy a barkácsolók és feltalálók is kísérletezhessenek szokatlan alkalmazásokkal...

MA 11:01

Az OpenAI reklámokat hoz a ChatGPT-be – bízhatsz még benne?

🤔 Az OpenAI elkezdte bevezetni a hirdetéseket a ChatGPT-ben, első körben az ingyenes és a 3 000 forintos (8 USD-os) Go-csomagokban, elsősorban Androidon...

MA 10:57

Az ether beszakadása milliárdokat égetett el a kriptopiacon

💸 Egyetlen kereskedő pillanatok alatt vesztett el több mint 81 milliárd forintot (220 millió USD), miután az ether ára 17%-ot zuhant rövid idő alatt – ez okozta az elmúlt 24 óra legnagyobb kriptopiaci likvidálását...

MA 10:50

A ShinyHunters legújabb trükkje: támadás a vállalati felhő ellen

🔒 A részletek ismeretében más fényt kap a történet: az utóbbi időszakban az MI által is támogatott ShinyHunters nevű zsarolócsapat új szintre emelte a vállalati felhőalapú adatok elleni támadások módszereit...

MA 10:41

Az aranyfiú meginog – Tovább száguld-e Saylor a bitcoinvonaton?

🚇 Michael Saylor és cége, a MicroStrategy jelenleg kénytelen szembenézni azzal, hogy a bitcoinállományuk most kevesebbet ér, mint amennyiért megvették...

MA 10:33

A Waymo kasszájába ömlik 5800 milliárd forint az önvezető taxikra

🚗 A Waymo, az Alphabet önvezető járműveken dolgozó leányvállalata hatalmas, 16 milliárd dolláros (kb...

MA 10:26

Az AirTaget is verő Bluetooth-követők Androidra

Az Apple a második generációs AirTaggel ismét nagyot akar dobni: továbbfejlesztett hatótáv, hangosabb jelzőhang, több biztonsági funkció, valamint az új U1 chip, amivel a pontosságot is növelték...

MA 10:17

A mesterséges intelligencia már elárasztotta az amerikai munkahelyeket

Az elmúlt években látványosan elterjedt a mesterséges intelligencia használata az amerikai munkahelyeken...

MA 10:01

A grafén tényleg ott volt az Edison-izzóban?

💡 Thomas Edison nevét leginkább találmányai miatt ismeri mindenki, még akkor is, ha ezek közül néhányat nem kizárólag ő talált fel...

MA 10:00

Az Apple-1 prototípus: a szikra, ami mindent beindított

⚡ Az 1976-os év egyik igazi informatikatörténeti relikviája került elő – az Apple-1 egyik legkorábbi, üvegszálas prototípus-alaplapja, a Celebration Board...

MA 09:51

Az elképesztően apró Viltrox objektív: stílus, játékosság és pengeéles képek

📷 A Viltrox AF 28mm f/4.5 objektív elsőre szinte hihetetlenül kicsinek tűnik; 15 évnyi kamera- és objektívtesztelés alatt ilyen apró, autofókuszos optikát még nem tartottam a kezemben...

MA 09:41

A brutális amerikai tél padlóra küldte a bitcoinbányászokat

❄ A mostani extrém téli viharok igazi pokollá tették a bitcoin-bányászok életét az Egyesült Államokban...

MA 09:33

Az Univerzum ritkább a vártnál – újra gondban a kozmológusok

💫 A csillagászok bemutatták minden idők legnagyobb kozmikus térképét, amelyből végleg kiderült: az Univerzum anyaga kevésbé tömörödött össze, mint ahogyan a jelenlegi kozmológiai elmélet várná...

MA 09:25

Már az amerikai kormány asztalán a WhatsApp adatvédelmi panasz

Az Egyesült Államokban újabb vádak merültek fel a WhatsApp üzenetek titkosságával kapcsolatban: egy 2024-es bejelentés szerint a Meta alkalmazottai hozzáférhettek olyan tartalmakhoz is, amelyek elvileg titkosítottak és hozzáférhetetlenek lennének...

MA 09:19

A sportórák királya, az Enduro 3 – most olcsóbban?

🏆 A Garmin Enduro 3 új szintre emeli az ultratartós sportórák világát, kompromisszumok nélkül tálalva a már megszokott, felsőkategóriás Garmin-szolgáltatásokat – és ráadásul olcsóbb lett, mint elődje...

MA 09:09

Az NVIDIA milliárdokat pumpálna az OpenAI-ba

💰 Az NVIDIA továbbra is hatalmas összeget szán az OpenAI legújabb tőkebevonására – jelentette ki Jensen Huang, a vezérigazgató...

MA 09:01

Az MI költözik az űrbe? A SpaceX grandiózus tervei

Elon Musk vállalata, a SpaceX engedélyt kért az amerikai hatóságoktól, hogy akár 1 millió, napenergiával működtetett műholdat bocsásson fel, amelyek MI-adatközpontként szolgálnának az űrben...

MA 08:57

Az OnlyFans a vártnál olcsóbban kerülhet amerikai kézbe

💰 Az OnlyFans ismét eladásra készül, ezúttal egy San Franciscó-i befektetési cég, az Architect Capital lehet a vevő...

MA 08:42

Egy jó kávé hatásosabb lehet, mint a mikroadagolt antidepresszáns

Jellemző példa erre, hogy az elmúlt évtizedben a pszichedelikus szerek mikroadagolása – vagyis nagyon kis mennyiségben történő fogyasztása – egyre népszerűbbé vált a mentális egészség világában, különösen a Szilícium-völgyben...

MA 08:34

Az MI-hordák, a felhőemberek temetője és áttörés a rákgyógyításban

A héten a tudományban különleges felfedezések és vízválasztó eredmények is napvilágot láttak...

MA 08:17

Az olcsó lítiumion-akkuk időzített bombák?

💣 A Lumafield szakemberei több mint ezer 18650-es típusú lítiumion-akkumulátort vizsgáltak nagyfelbontású röntgentomográfiával...

MA 07:57

Az MI megtervezi az utat a Marsra: a NASA áttörése

🚀 A NASA történetében új korszak kezdődött: a Mars bolygót járó Perseverance rover útvonalát most először egy MI tervezte meg...