A félrevezető MI-teszteken a nagy cégek csak nevetnek

A félrevezető MI-teszteken a nagy cégek csak nevetnek
Az MI-cégek előszeretettel hivatkoznak benchmarkjaikra, hogy modelleiket a technológiai fejlődés csúcsaként tüntessék fel. Figyelemre méltó, hogy az Oxford Internet Institute (OII) és több más egyetem friss kutatása szerint a természetes nyelvi feldolgozást és gépi tanulást vizsgáló 445 LLM-tesztből mindössze 16 százalék használ megbízható, tudományos összehasonlítási módszereket. Ennél is aggasztóbb, hogy a felmérések fele homályos, nehezen mérhető tulajdonságok – például „gondolkodás” vagy „ártalmatlanság” – vizsgálatával tetszeleg, anélkül, hogy pontosan definiálnák, mit is jelentenek ezek.

Kreatív számháború a teszteredményekkel

A GPT-5 bemutatásakor az OpenAI főleg a benchmarkpontszámokra támaszkodott, mint az AIME 2025-re (matematikai-logikai teszt), a SWE-bench Verified-re, az Aider Polyglot-ra, az MMMU-ra vagy épp a HealthBench Hard-ra. Ezeken a vizsgákon a modellek minél több, különféle területet lefedő kérdésre próbálnak helyesen válaszolni. A GPT-5 például kiemelkedően teljesített: az AIME 2025-ön 94,6 százalékot ért el segédeszközök nélkül, a SWE-bench-en 74,9-et, az Aider Polyglot-on 88-at, az MMMU-n 84,2-t, a HealthBench Hard-on pedig 46,2 százalékot.

Mindeközben a kutatók rámutatnak: sokan kényelmi szempontból választanak mintát, figyelmen kívül hagyva például a véletlenszerűség szabályait vagy a valós életből származó kérdéseket. Mindezek dacára az ilyen vizsgálatok gyakran visszaköszönnek a marketingkommunikációban mint fejlődésbizonyítékok, noha valójában nem mérik igazán, miben lettek jobbak a modellek.

Javítási javaslatok és a pénz mint igazi mérce

A kutatók nyolcpontos javaslatcsomagot dolgoztak ki – ennek része például, hogy világosan definiálják, mit tesztelnek, készüljenek fel az esetleges adatkontaminációra, és használjanak statisztikai összehasonlító módszereket. A problémák nem újak: más európai kutatócsoportok is sorra azonosítják a jelenlegi benchmarkinggyakorlat hibáit, köztük például a félrecsúszott ösztönzőket vagy a „híres ismeretlent”, vagyis amikor nem tudjuk, hogy a teszt valójában mit mér.

Érdemes megjegyezni, hogy még egyes tesztfejlesztők is belátták a hibákat. Az Arc Prize Foundation például saját programot indított az MI-rendszerek szigorúbb értékelése érdekében, mivel a teszteredmények sokszor eltérő adatbázisokon vagy eltérő módszerekkel születnek, emiatt nehezen hasonlíthatók össze.

Az MI-intelligencia végső mércéje: a profit?

A fentiek tükrében felmerül: mit mér valójában egy MI-benchmark? Az OpenAI és a Microsoft saját, belső AGI-tesztet dolgozott ki, amely szerint akkor tekinthető valódi mesterséges általános intelligenciának egy rendszer, ha az legalább 100 milliárd forint profitot termel. Mindez arra mutat rá: könnyebb forintra váltani az eredményeket, mint valódi intelligenciaszintet mérni.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 09:58

Az új 3D-s csip áttöri az MI fejlődésének korlátait

Az amerikai egyetemek és technológiai cégek mérnökei olyan forradalmi 3D számítógépes chipet fejlesztettek ki, amely lényegében egymásra helyezett „emeletekből” áll: a memória és a számítási egységek függőlegesen rétegződnek...

MA 09:50

Az újabb Nissan-adatszivárgás: 21 ezer ügyfél adatai veszélyben

⚠ Több mint 21 ezer Nissan-ügyfél személyes adatai szivárogtak ki egy Red Hat által kezelt szerver feltörése után...

MA 09:44

Az apró peptid, ami forradalmasíthatja a fejsérülések kezelését

💡 Annak ellenére, hogy világszerte évente emberek százezrei szenvednek traumás agysérülést – legyen szó közlekedési balesetekről, munkahelyi balesetekről vagy egyszerű esésekről –, mégsem létezik egyetlen jóváhagyott gyógyszer sem, amely megállítaná az agyi károsodás folyamatát...

MA 09:36

A New York Times újságírója bepereli az MI-óriásokat

A Pulitzer-díjas John Carreyrou, a New York Times oknyomozó riportere öt másik íróval együtt beperelte az xAI-t, az Anthropicot, a Google-t, az OpenAI-t, a Metát és a Perplexityt...

MA 09:29

Az Apple végre elhozza az AirPods-kényt más eszközökre

Az iOS 26.3 jelentős változásokat hoz az Európai Unión belül, mivel az Apple kénytelen engedményeket tenni és alkalmazkodni a Digital Markets Act (DMA) szigorú előírásaihoz...

MA 09:23

Az aggyal kommunikáló LED-chip: áttörés jöhet az érzékelés pótlásában?

Érdemes megérteni, hogy egy parányi, fejbőr alá ültethető vezeték nélküli eszköz képes lehet visszaadni az elveszített érzékelést, vagy akár csökkenteni a fájdalmat gyógyszerek nélkül – mindezt az aggyal közvetlenül kommunikálva...

MA 09:15

Az Apple újabb gigabírságot kapott Olaszországban adatvédelmi okokból

Az olasz versenyhivatal (AGCM) 98,6 millió eurós (kb. 38,6 milliárd forintos) bírságot szabott ki az Apple-re, mert a cég visszaélt domináns helyzetével a mobilos hirdetési piacon az Appkövetés Átláthatósága (App Tracking Transparency, ATT) adatvédelmi rendszer alkalmazásával...

MA 09:08

Az Xbox-játékok végre az Amazon Fire TV-n is játszhatók

Az Xbox felhőalapú játékplatformja már elérhető több újabb Amazon Fire TV-modellen, köztük a Fire TV 4 Seriesen és bizonyos QLED-típusokon is...

MA 09:02

Az orvosi köpenyt MI-re cserélte, most vagyonokat keres

🤑 Például Thomas Kelly, aki régen orvosként dolgozott, de a kiégés és a túlterheltség miatt hátat fordított a szakmának, most egy forradalmi MI-alkalmazás társalapítója, amely már közel 170 milliárd forintot ér...

MA 08:57

A kvantumvilág új törvényei: energia és káosz

⚡ Az 1790-es években Benjamin Thompson, ismertebb nevén Rumford grófja, egy egyszerű, ám forradalmi megfigyelést tett Münchenben: az ágyúcső fúrása során folyamatosan felhevülő fém arra utalt, hogy a hő nem rejtélyes anyag, hanem mozgás útján korlátlanul termelhető...

MA 08:50

Az FCC kitiltja a külföldi drónokat – jön az alkatrészválság?

December 22-én az amerikai hírközlési hatóság, az FCC felvette a legismertebb kínai dróngyártókat, a DJI-t és az Autel Roboticsot is arra a listára, amelyen a nemzetbiztonsági kockázatot jelentő kommunikációs technológiák szerepelnek...

MA 08:44

A ServiceNow 2800 milliárdért bekebelezi az Armis-t

Ez volt az a pillanat, amikor minden megváltozott: a ServiceNow bejelentette, hogy megvásárolja a kibervédelmi piac egyik legsikeresebb cégét, az Armis-t, 2800 milliárd forintért (7,75 milliárd dollár)...

MA 08:36

Az évszakok felborultak: miért más a tavasz a szomszédban?

A Föld évszakjai első ránézésre egyszerű, ismétlődő ciklusnak tűnnek, de a valóság jóval összetettebb...

MA 08:29

Az Instacart lebukott: leleplezték a titkos árkísérleteket

🔑 Az Instacart bejelentette, hogy azonnali hatállyal beszünteti azt a MI-alapú árazási gyakorlatot, amely miatt ugyanazért a termékért eltérő árakat fizettek a vásárlók – akár ugyanabban az áruházban, ugyanazon a napon...

MA 08:22

A ServiceNow 7,75 milliárdos felvásárlással erősít az MI-védelemben

A ServiceNow hatalmas lépésre szánta el magát: 7,75 milliárd dollárért (kb...

MA 08:17

Az MI-ügynökök felforgatják a kiskereskedelmi ellátási láncokat

Nagyvállalati kiskereskedőknél a dolgozók számára ismerős a napi több mint száz e-mail özöne, amelyek mind az ellátási lánc folyamataira, ellátási hiányokra vagy hibás árképzésre vonatkoznak...

MA 08:09

A Samsung új monitorai új dimenzióba repítik a játékélményt

🎮 A Samsung 2026-ra egészen elképesztő gaming monitorokat ígér: akár 6K-s felbontás, szemüveg nélküli 3D és döbbenetes, 1040 Hz-es képfrissítés is érkezik – de nem feltétlenül egyszerre...

MA 08:02

Az egészség 2025-ben: újraírják a szabályokat

2025 sem volt könnyű év az egészségügy és a tudomány számára, mégis számos áttörés történt, amelyek alapjaiban változtatták meg, mit gondolunk a testünkről, betegségeinkről és a lehetséges kezelési módokról...

MA 07:57

A halálos kórházi gombának végre megtalálták a gyenge pontját

💉 Egy pusztító gombafaj, a Candida auris évek óta komoly gondokat okoz az intenzív osztályokon, világszerte tucatnyi kórházi részleget kényszerítve lezárásra...