Az MI ügynökök trükköznek a tudáspróbákon?

Az MI ügynökök trükköznek a tudáspróbákon?
Az újonnan tervezett, keresésre képes MI-modellekkel kapcsolatban komoly aggályok merültek fel: teszteredményeik könnyen torzulhatnak, mert ezek a rendszerek gyakran közvetlenül a netről keresik ki a helyes válaszokat, ahelyett, hogy valódi érvelési folyamat révén jutnának megoldásra. A jelenséget „keresési adatfertőzésnek” nevezik, amikor az MI a kiértékelés során épp azokhoz az adatbázisokhoz jut el, ahol a tesztkérdések valódi válaszai is elérhetők.

Keresés vagy tudás?

A legtöbb MI-modellt eredetileg korlátozott időintervallumra vonatkozó adatokkal tanítják, így a friss információkhoz nincs hozzáférésük. Ennek áthidalására több nagy cég – például az Anthropic, a Google, az OpenAI vagy a Perplexity – már keresési képességgel (online böngészéssel) ruházta fel saját MI-it, hogy az aktuális eseményekre is reagálni tudjanak.

Adatfertőzés a tesztelésnél

A Scale AI kutatói három Perplexity ügynököt – Sonar Pro, Sonar Reasoning Pro és Sonar Deep Research – vizsgáltak, és azt találták, hogy a keresésre képes MI-ügynökök nagyjából az esetek 3 százalékában közvetlenül a HuggingFace oldalán találják meg a tesztkérdések hivatalos válaszait. Amikor megvonták tőlük a HuggingFace elérési lehetőségét, az ügynökök pontossága ezen a területen mintegy 15 százalékkal visszaesett. Ráadásul más forrásból is származhat adatfertőzés.

Kezdhetünk aggódni a MI-tesztek miatt?

Bár a 3% elsőre kevésnek tűnik, egyes teszteknél ez is döntő lehet – főleg, ha már 1% változás is átrendezheti a rangsort. Ráadásul egyre nyilvánvalóbb, hogy bármely online eléréssel rendelkező MI-modell értékelése megkérdőjelezhető. Egy kínai kutatás szerint a jelenlegi MI-tesztek jelentős része csalható, elfogult vagy eleve hibás – így a tesztek alapkészlete is reformra szorul.

2025, adrienne, go.theregister.com alapján


Legfrissebb posztok

Az eső vizsgálja a dzsungel titkait: mikroszkopikus forradalom az esőerdőkben

MA 23:51

Az eső vizsgálja a dzsungel titkait: mikroszkopikus forradalom az esőerdőkben

A trópusi esőerdők továbbra is biológiai kincsesbányák, de a magas lombkoronaszintre csak kevesen jutnak fel bonyolult, drága és gyakran a helyszínt károsító kutatómódszerek nélkül. Azonban a legújabb kutatások...

Az arany sötét titkai, egy váratlan felfedezés felforgat mindent

MA 23:26

Az arany sötét titkai, egy váratlan felfedezés felforgat mindent

Jelentőséggel bír, hogy a SLAC és nemzetközi kutatótársai váratlanul arany-hidrid vegyületet, vagyis aranyból és hidrogénből álló kristályt hoztak létre extrém hőmérsékleti és nyomásviszonyok között. Ez a felfedezés alapjaiban...

Az emberi recepciós végnapjai: itt a Zoom MI portása

MA 23:01

Az emberi recepciós végnapjai: itt a Zoom MI portása

🤖 A Zoom legújabb fejlesztése, a Zoom Phone-hoz készült Virtuális Ügyintéző (Virtual Agent for Zoom Phone) már magabiztosan veszi át a recepciósok munkáját a vállalatoknál: a nap 24 órájában...

Egyre több munkahelyen okoz gondot a hőség Magyarországon

MA 22:51

Egyre több munkahelyen okoz gondot a hőség Magyarországon

🌡 A globális felmelegedés új kihívásokat állít a munkavállalók elé, hiszen a tartósan magas hőmérséklet lassan az egyik legveszélyesebb munkahelyi ártalommá válik. Az Egészségügyi Világszervezet (WHO) és a Meteorológiai...

A MI-weboldalépítő, amit ma minden hacker imád

MA 22:26

A MI-weboldalépítő, amit ma minden hacker imád

A Lovable nevű MI-alapú weboldalkészítő platformot kiberbűnözők kihasználják, és pillanatok alatt hitelesnek tűnő adathalász oldalakat gyártanak vele. Szakértők szerint 2025 februárja óta tízezrével jelentek meg Lovable-URL-ek rosszindulatú kampányokban,...

Az újabb kibertámadás, amelybe a Colt belefutott

MA 22:01

Az újabb kibertámadás, amelybe a Colt belefutott

🕵 A Colt Technology Services napokig szüneteltette szolgáltatásainak egy részét, miután kibertámadás érte. Az esettel kapcsolatban a cég nem árult el részleteket, hivatalosan nem nevezték meg sem a támadókat,...

Az első helyi maláriaesetek Amerikában: jönnek a szúnyogok

MA 21:26

Az első helyi maláriaesetek Amerikában: jönnek a szúnyogok

🐛 Amerikában újabb maláriás megbetegedést vizsgálnak, amelyet nem hoztak be külföldről – most éppen New Jerseyben. Az eset néhány héttel azután jelent meg, hogy Washington államban is hasonlót találtak....

Földön kívüli élet, az űrből érkező sugárzás is hozzájárulhat

MA 21:01

Földön kívüli élet, az űrből érkező sugárzás is hozzájárulhat

👽 A Mars, az Európa (Europa) és az Enceladus mélyén is rejtőzhetnek élőlények, amelyek a kíméletlen kozmikus sugárzást használják energiaforrásként, ahelyett hogy a csillag fényére támaszkodnának. Lényeges szempont, hogy...

Melyik MI-modell a jobb, apró eltérések nagy döntést jelentenek

MA 20:53

Melyik MI-modell a jobb, apró eltérések nagy döntést jelentenek

🤔 A mesterséges intelligencia ma már képes matematikai olimpiákat nyerni, de a legtöbben mégis sokkal hétköznapibb feladatokra használjuk: programozási kérdésekre, alapvető Linux-parancsokra vagy egyszerű életvezetési tanácsokra. A valós igényekhez...