Az MI ügynökök trükköznek a tudáspróbákon?

Az MI ügynökök trükköznek a tudáspróbákon?
Az újonnan tervezett, keresésre képes MI-modellekkel kapcsolatban komoly aggályok merültek fel: teszteredményeik könnyen torzulhatnak, mert ezek a rendszerek gyakran közvetlenül a netről keresik ki a helyes válaszokat, ahelyett, hogy valódi érvelési folyamat révén jutnának megoldásra. A jelenséget „keresési adatfertőzésnek” nevezik, amikor az MI a kiértékelés során épp azokhoz az adatbázisokhoz jut el, ahol a tesztkérdések valódi válaszai is elérhetők.

Keresés vagy tudás?

A legtöbb MI-modellt eredetileg korlátozott időintervallumra vonatkozó adatokkal tanítják, így a friss információkhoz nincs hozzáférésük. Ennek áthidalására több nagy cég – például az Anthropic, a Google, az OpenAI vagy a Perplexity – már keresési képességgel (online böngészéssel) ruházta fel saját MI-it, hogy az aktuális eseményekre is reagálni tudjanak.

Adatfertőzés a tesztelésnél

A Scale AI kutatói három Perplexity ügynököt – Sonar Pro, Sonar Reasoning Pro és Sonar Deep Research – vizsgáltak, és azt találták, hogy a keresésre képes MI-ügynökök nagyjából az esetek 3 százalékában közvetlenül a HuggingFace oldalán találják meg a tesztkérdések hivatalos válaszait. Amikor megvonták tőlük a HuggingFace elérési lehetőségét, az ügynökök pontossága ezen a területen mintegy 15 százalékkal visszaesett. Ráadásul más forrásból is származhat adatfertőzés.

Kezdhetünk aggódni a MI-tesztek miatt?

Bár a 3% elsőre kevésnek tűnik, egyes teszteknél ez is döntő lehet – főleg, ha már 1% változás is átrendezheti a rangsort. Ráadásul egyre nyilvánvalóbb, hogy bármely online eléréssel rendelkező MI-modell értékelése megkérdőjelezhető. Egy kínai kutatás szerint a jelenlegi MI-tesztek jelentős része csalható, elfogult vagy eleve hibás – így a tesztek alapkészlete is reformra szorul.

2025, adrienne, go.theregister.com alapján


Legfrissebb posztok

Ingyen Pixel 10-nél nincs jobb ajánlat

MA 17:01

Ingyen Pixel 10-nél nincs jobb ajánlat

A Google Pixel 10 most T-Mobile előfizetéssel szinte ingyen hazavihető – ráadásul régóta nem volt ilyen erős okostelefon ennyiért. Nem kell régi telefont beszolgáltatni, csak egy új előfizetést...

Az újabb Tesla-csoda: durván leárazták a lízingdíjakat Nagy-Britanniában

MA 16:51

Az újabb Tesla-csoda: durván leárazták a lízingdíjakat Nagy-Britanniában

🚗 A Tesla mostanában jelentős kedvezményeket kínál a brit autólízing-cégeknek: a lízingdíjak akár 40%-kal olcsóbbak. Az ok egyszerű: zuhanó eladások, országszerte megtelt raktárak és egyre hűvösebb fogadtatás a piacon....

Az Apple MI-fiaskóján élcelődik a Google legújabb reklámja

MA 16:26

Az Apple MI-fiaskóján élcelődik a Google legújabb reklámja

Az Apple közel egy éve ígérte meg, hogy hamarosan érkezik egy személyre szabottabb, MI-alapú Siri, mégis késésben vannak a fejlesztéssel. Tavaly a cég nagy reményeket fűzött az iPhone...

Az univerzum ismét meglepett minket egy titokzatos, szuperfényes űrtárggyal

MA 16:02

Az univerzum ismét meglepett minket egy titokzatos, szuperfényes űrtárggyal

💫 Egy közeli galaxisban különös, elképesztő erejű égitestet fedeztek fel, amely a jelenlegi ismereteink alapján még egyik ismert kategóriába sem illeszthető. Punctum (latinul: pont) névre keresztelték, és az Atacama...

Az igazán ritka fekete hold – idén nyáron láthatatlanul érkezik

MA 15:51

Az igazán ritka fekete hold – idén nyáron láthatatlanul érkezik

🌙 Szombatra virradóan, pontosan 8:06-kor egy különleges égi eseményre kerül sor: ezúttal nemcsak újhold lesz, hanem úgynevezett fekete hold is megjelenik. Bár újholdat minden 29,5 napban tapasztalunk, a fekete...

Az újabb titkos űrsikló, amit senki sem látott

MA 15:26

Az újabb titkos űrsikló, amit senki sem látott

🚀 Az amerikai hadsereg ismét egy miniatűr űrsiklót indított útnak, hogy titkos kísérleteket hajtson végre. A személyzet nélküli, újrahasználható X-37B űrrepülőgépet a SpaceX rakétája emelte magasba Floridából, a Cape...

Az új Starlink-leállás: Musk műholdjai sem bírják örökké

MA 15:01

Az új Starlink-leállás: Musk műholdjai sem bírják örökké

Az amerikai Starlink műholdas internetszolgáltatás hétfőn ismét rövid ideig nem működött; több ezer amerikai jelezte a Downdetector oldalán, hogy kimaradás volt. Ez már a második hasonló fennakadás két...

Jön az Epochalypse, 2037-ben gondok lehetnek

MA 14:51

Jön az Epochalypse, 2037-ben gondok lehetnek

Egyre közelebb kerülünk ahhoz a kritikus pillanathoz, amikor a régi számítógépes rendszerek időkezelése végzetesen meghibásodhat. Ez nem a jól ismert 2000. év problémája (Y2K), hanem az úgynevezett 2038-as...

Az első ismert hármas fekete lyuk rendszer elképesztő halála

MA 14:01

Az első ismert hármas fekete lyuk rendszer elképesztő halála

Kínai csillagászok új fejezetet nyitottak a világegyetem legnagyobb rejtélyeinek kutatásában: sikerült felfedezniük az első ismert hármas fekete lyuk rendszert, amelynek halálát is nyomon követték. Egy különös gravitációs hullám...