Az MI ügynökök trükköznek a tudáspróbákon?

Az MI ügynökök trükköznek a tudáspróbákon?
Az újonnan tervezett, keresésre képes MI-modellekkel kapcsolatban komoly aggályok merültek fel: teszteredményeik könnyen torzulhatnak, mert ezek a rendszerek gyakran közvetlenül a netről keresik ki a helyes válaszokat, ahelyett, hogy valódi érvelési folyamat révén jutnának megoldásra. A jelenséget „keresési adatfertőzésnek” nevezik, amikor az MI a kiértékelés során épp azokhoz az adatbázisokhoz jut el, ahol a tesztkérdések valódi válaszai is elérhetők.

Keresés vagy tudás?

A legtöbb MI-modellt eredetileg korlátozott időintervallumra vonatkozó adatokkal tanítják, így a friss információkhoz nincs hozzáférésük. Ennek áthidalására több nagy cég – például az Anthropic, a Google, az OpenAI vagy a Perplexity – már keresési képességgel (online böngészéssel) ruházta fel saját MI-it, hogy az aktuális eseményekre is reagálni tudjanak.

Adatfertőzés a tesztelésnél

A Scale AI kutatói három Perplexity ügynököt – Sonar Pro, Sonar Reasoning Pro és Sonar Deep Research – vizsgáltak, és azt találták, hogy a keresésre képes MI-ügynökök nagyjából az esetek 3 százalékában közvetlenül a HuggingFace oldalán találják meg a tesztkérdések hivatalos válaszait. Amikor megvonták tőlük a HuggingFace elérési lehetőségét, az ügynökök pontossága ezen a területen mintegy 15 százalékkal visszaesett. Ráadásul más forrásból is származhat adatfertőzés.

Kezdhetünk aggódni a MI-tesztek miatt?

Bár a 3% elsőre kevésnek tűnik, egyes teszteknél ez is döntő lehet – főleg, ha már 1% változás is átrendezheti a rangsort. Ráadásul egyre nyilvánvalóbb, hogy bármely online eléréssel rendelkező MI-modell értékelése megkérdőjelezhető. Egy kínai kutatás szerint a jelenlegi MI-tesztek jelentős része csalható, elfogult vagy eleve hibás – így a tesztek alapkészlete is reformra szorul.

2025, adrienne, go.theregister.com alapján


Legfrissebb posztok

Újabb nagy adatlopás, hackerekhez kerültek a Discord-felhasználók személyes adatai
MA 17:31

Újabb nagy adatlopás, hackerekhez kerültek a Discord-felhasználók személyes adatai

Jelentőséggel bír, hogy a Discord, a világ egyik legnagyobb közösségi platformja, hackertámadás áldozata lett, amely során hetvenezer felhasználó hivatalos okmányának képe került illetéktelen kezekbe...

Az ipar fél a viselkedési tesztektől, mérgező anyagok vesznek körül minket
MA 17:01

Az ipar fél a viselkedési tesztektől, mérgező anyagok vesznek körül minket

A vegyi anyagok életterünket és viselkedésünket is befolyásolják, gyakran észrevétlenül. Mérgek, amelyekhez nap mint nap hozzájutunk, nem csupán a természetben, hanem mindennapi használati tárgyainkban is jelen vannak: lakberendezési tárgyakban, ruházatban, élelmiszer-csomagolásban...

Az Intel új csodafegyvere: itt a Panther Lake processzor
MA 16:59

Az Intel új csodafegyvere: itt a Panther Lake processzor

💻 Hat hónappal azután, hogy Lip-Bu Tan átvette az Intel irányítását, a vállalat bemutatta legújabb hardveres áttörését, a Panther Lake (Párduc-tó) kódnevű processzort...

Lehet, hogy köztünk járnak az univerzum titokzatos vendégei, mikor találkozunk velük?
MA 16:02

Lehet, hogy köztünk járnak az univerzum titokzatos vendégei, mikor találkozunk velük?

Néhány napja egy rejtélyes csillagközi vándor haladt el a Mars közelében, ahol jelenleg több nemzet űrszondái kutatják a vörös bolygó múltját...

Az MI-s TikTok már gyorsabb, mint a ChatGPT
MA 16:01

Az MI-s TikTok már gyorsabb, mint a ChatGPT

Sora, az OpenAI mesterséges intelligenciával videókat generáló alkalmazása már az első öt nap alatt átlépte az egymilliós letöltésszámot Észak-Amerikában, amivel még a ChatGPT kezdeti sikereit is megelőzte...

Az energiatakarékos memóriák új trükkje: jön a zöld adatforradalom?
MA 15:30

Az energiatakarékos memóriák új trükkje: jön a zöld adatforradalom?

Egy japán kutatócsoport új eljárást dolgozott ki, amellyel energiahatékonyabb mágneses memóriát, azaz MRAM-ot (magnetikus véletlen elérésű memória, magnetic random-access memory) gyárthatnak...

Kiderült, az MI tönkreteszi a diákokat, mégsem történik semmi
MA 15:01

Kiderült, az MI tönkreteszi a diákokat, mégsem történik semmi

Az iskolás korosztályban az MI mindent eláraszt: egyre többen fordulnak chatbotokhoz tanulási, lelki vagy éppen romantikus ismeretségek céljából...

Amikor egyszerre remeg a Cascadia és a San Andreas
MA 15:00

Amikor egyszerre remeg a Cascadia és a San Andreas

🌌 Észak-Amerika nyugati partja a geológiai veszélyek egyik legizgalmasabb színtere: itt folyamatosan ütköznek, csúsznak egymás alatt és mellett a földkéreg hatalmas lemezei...

Az Apple új trükkje: valóságshow a Lakers meccsein?
MA 14:30

Az Apple új trükkje: valóságshow a Lakers meccsein?

🏀 A közelgő NBA-szezonra az Apple Vision Pro végre élő, „lebilincselő” sportközvetítéssel bővül...