A félrevezető MI-teszteken a nagy cégek csak nevetnek

A félrevezető MI-teszteken a nagy cégek csak nevetnek
Az MI-cégek előszeretettel hivatkoznak benchmarkjaikra, hogy modelleiket a technológiai fejlődés csúcsaként tüntessék fel. Figyelemre méltó, hogy az Oxford Internet Institute (OII) és több más egyetem friss kutatása szerint a természetes nyelvi feldolgozást és gépi tanulást vizsgáló 445 LLM-tesztből mindössze 16 százalék használ megbízható, tudományos összehasonlítási módszereket. Ennél is aggasztóbb, hogy a felmérések fele homályos, nehezen mérhető tulajdonságok – például „gondolkodás” vagy „ártalmatlanság” – vizsgálatával tetszeleg, anélkül, hogy pontosan definiálnák, mit is jelentenek ezek.

Kreatív számháború a teszteredményekkel

A GPT-5 bemutatásakor az OpenAI főleg a benchmarkpontszámokra támaszkodott, mint az AIME 2025-re (matematikai-logikai teszt), a SWE-bench Verified-re, az Aider Polyglot-ra, az MMMU-ra vagy épp a HealthBench Hard-ra. Ezeken a vizsgákon a modellek minél több, különféle területet lefedő kérdésre próbálnak helyesen válaszolni. A GPT-5 például kiemelkedően teljesített: az AIME 2025-ön 94,6 százalékot ért el segédeszközök nélkül, a SWE-bench-en 74,9-et, az Aider Polyglot-on 88-at, az MMMU-n 84,2-t, a HealthBench Hard-on pedig 46,2 százalékot.

Mindeközben a kutatók rámutatnak: sokan kényelmi szempontból választanak mintát, figyelmen kívül hagyva például a véletlenszerűség szabályait vagy a valós életből származó kérdéseket. Mindezek dacára az ilyen vizsgálatok gyakran visszaköszönnek a marketingkommunikációban mint fejlődésbizonyítékok, noha valójában nem mérik igazán, miben lettek jobbak a modellek.

Javítási javaslatok és a pénz mint igazi mérce

A kutatók nyolcpontos javaslatcsomagot dolgoztak ki – ennek része például, hogy világosan definiálják, mit tesztelnek, készüljenek fel az esetleges adatkontaminációra, és használjanak statisztikai összehasonlító módszereket. A problémák nem újak: más európai kutatócsoportok is sorra azonosítják a jelenlegi benchmarkinggyakorlat hibáit, köztük például a félrecsúszott ösztönzőket vagy a „híres ismeretlent”, vagyis amikor nem tudjuk, hogy a teszt valójában mit mér.

Érdemes megjegyezni, hogy még egyes tesztfejlesztők is belátták a hibákat. Az Arc Prize Foundation például saját programot indított az MI-rendszerek szigorúbb értékelése érdekében, mivel a teszteredmények sokszor eltérő adatbázisokon vagy eltérő módszerekkel születnek, emiatt nehezen hasonlíthatók össze.

Az MI-intelligencia végső mércéje: a profit?

A fentiek tükrében felmerül: mit mér valójában egy MI-benchmark? Az OpenAI és a Microsoft saját, belső AGI-tesztet dolgozott ki, amely szerint akkor tekinthető valódi mesterséges általános intelligenciának egy rendszer, ha az legalább 100 milliárd forint profitot termel. Mindez arra mutat rá: könnyebb forintra váltani az eredményeket, mint valódi intelligenciaszintet mérni.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 13:09

Az aranyvécé: a kapitalizmus trónja eladó

🚿 Maurizio Cattelan híres arany vécéje, az Amerika (America), hamarosan árverésre kerül a Sotheby’s-nél...

MA 12:19

Az otthoni robot, amely majdnem annyiba kerül, mint egy autó

Ez a robot 168 cm magas, tömege pedig nagyjából egy golden retrieveréhez hasonlítható, ára pedig majdnem egy új, olcsó autóéval vetekszik...

szombat 14:24

Tévedhetetlen szakértők? Az előrejelzések meglepő valósága

I. Egy szakértő a szakértőkről Pontosítsunk, mivel mi nem vagyunk szakértők, hogy a jövőt megjósoljuk: eddig általában ebből nem sok jó sült ki...

MA 14:41

Elon Musk lehet az első ezermilliárdos, elképesztő bónuszt kap

🚀 A Tesla részvényesei egyértelmű többséggel elfogadták Elon Musk történelmi fizetési csomagját, amely akár közel 365 000 milliárd forint (1 billió dollár) is lehet, ha a cég teljesíti a kitűzött mérföldköveket...

MA 14:32

Az ősi eszközök 300 ezer éve változatlanok

Kenya szívében, a Nomorotukunan nevű lelőhelyen régészek egymásra rakódó rétegekben találtak kőeszközöket, amelyek 300 000 évet ölelnek fel, egy olyan időszakban, amikor a környezeti változások drámai méreteket öltöttek...

MA 14:21

Az űrszemét miatt rekedtek kínai űrhajósok a világűrben

🚀 Kínai űrhajósokat fenyegetett a napokban az űrszemét, miután egy ismeretlen tárgy nekiütközött a Shenzhou–20 űrhajónak, amely visszaszállította volna őket a Földre a Tiangong űrállomásról...

MA 14:12

Az óriási készpénzhegy most a Berkshire javára billenti a Wall Streetet

A Berkshire Hathaway szárnyal, miközben az MI-pánik lenyomja a piacot A Berkshire Hathaway részvényei 4,5%-kal emelkedtek a héten, miután a vállalat erős harmadik negyedéves eredményeket közölt, jóllehet az amerikai piac általánosságban gyengélkedett...

MA 13:01

Újabb QNAP-botrány: hét sebezhetőséget javítottak a NAS-okban

🛠 A QNAP hálózati adattárolóit (NAS) hét, eddig nem ismert sérülékenységen keresztül is sikeresen feltörték a Pwn2Own hackerversenyen...

MA 12:53

Káosz az amerikai repülőjáratokon, mire elég a bankkártyás utasbiztosítás?

🛫 A repülőutakra vágyók most nehéz időszakot élnek át az Egyesült Államokban: az FAA (Szövetségi Légügyi Hivatal) járatcsökkentő intézkedése miatt pénteken 748 menetrend szerinti járatot töröltek, ami a pénteki indulások 3%-át jelenti...

MA 12:42

Watson, a DNS-forradalom zsenije vagy botrányhőse, meglepő igazságok a genetikáról

James Watson neve örökre beíródott a tudomány történetébe: a DNS szerkezetének felfedezésével forradalmasította a biológiát...

MA 12:31

Az óceán fáinak évgyűrűi: amit a korallokról megtudtunk

A tengerbiológusok új módszerének köszönhetően pontosabb képet kaptunk a korallzátonyok múltjáról és állapotáról...

MA 12:21

Az amerikai járatcsökkentés oka, biztonságot ígérnek, több járat marad ki

✈ Az Egyesült Államokban 40 repülőtéren 10 százalékkal csökkentik a járatok számát a kormányzati leállás miatt...

MA 12:12

Az év legjobb techajánlatai, közeleg a Black Friday 2025

A Black Friday nem hivatalosan a techvásárlás karácsonya lett, amikor fejhallgatókért, játékkonzolokért, okosotthoni eszközökért vagy akár egy új laptopért tényleg rekordáron juthatsz hozzá...

MA 11:51

Új kémprogram támad Samsung-telefonokat WhatsAppon keresztül

🕵 Egy eddig ismeretlen kémprogram, a LandFall súlyos biztonsági rést használt ki a Samsung androidos képfeldolgozó könyvtárában, és rosszindulatú képeket küldött célpontjainak WhatsApp-üzenetben...

MA 11:42

Amerikában az élelmiszerbankok katasztrófaüzemben működnek

A jelenlegi politikai bizonytalanság miatt országszerte extrém terhelés nehezedik az amerikai élelmiszerbankokra...

MA 11:30

Meghalt James D. Watson, a DNS szerkezetének társfelfedezője

James D. Watson, a DNS szerkezetének egyik felfedezője, 97 éves korában hunyt el egy hospice-ban a New York állambeli East Northportban...

MA 11:21

Az Oracle-hackerek már a Washington Postot is feltörték

A Washington Post is azok közé a cégek közé került, amelyeket a közelmúltban ért adatszivárgási hullám az Oracle vállalati szoftverei révén...

MA 11:11

Az orkapicik születése: vér, feszültség, boldogság Norvégiában

Szenzációs pillanatoknak lehettek tanúi a kutatók Norvégiában, amikor sikerült megörökíteniük egy vadon élő orkaborjú születését...

MA 11:01

Az Apple sosem győzte le a Fitbitet: ez a fitneszkarkötő negyedannyiba kerül

💪 Közelednek az ünnepek, a vásárlási láz pedig egyre fokozódik. Ha még nem szereztél be minden ajándékot, érdemes lehet kipróbálni a Fitbit Inspire 3 egészség- és fitneszkarórát, amely most Black Friday előtti áron, 30%-os kedvezménnyel kapható – a megszokott 36 000 Ft helyett mindössze 25 000 Ft-ért...