A félrevezető MI-teszteken a nagy cégek csak nevetnek

A félrevezető MI-teszteken a nagy cégek csak nevetnek
Az MI-cégek előszeretettel hivatkoznak benchmarkjaikra, hogy modelleiket a technológiai fejlődés csúcsaként tüntessék fel. Figyelemre méltó, hogy az Oxford Internet Institute (OII) és több más egyetem friss kutatása szerint a természetes nyelvi feldolgozást és gépi tanulást vizsgáló 445 LLM-tesztből mindössze 16 százalék használ megbízható, tudományos összehasonlítási módszereket. Ennél is aggasztóbb, hogy a felmérések fele homályos, nehezen mérhető tulajdonságok – például „gondolkodás” vagy „ártalmatlanság” – vizsgálatával tetszeleg, anélkül, hogy pontosan definiálnák, mit is jelentenek ezek.

Kreatív számháború a teszteredményekkel

A GPT-5 bemutatásakor az OpenAI főleg a benchmarkpontszámokra támaszkodott, mint az AIME 2025-re (matematikai-logikai teszt), a SWE-bench Verified-re, az Aider Polyglot-ra, az MMMU-ra vagy épp a HealthBench Hard-ra. Ezeken a vizsgákon a modellek minél több, különféle területet lefedő kérdésre próbálnak helyesen válaszolni. A GPT-5 például kiemelkedően teljesített: az AIME 2025-ön 94,6 százalékot ért el segédeszközök nélkül, a SWE-bench-en 74,9-et, az Aider Polyglot-on 88-at, az MMMU-n 84,2-t, a HealthBench Hard-on pedig 46,2 százalékot.

Mindeközben a kutatók rámutatnak: sokan kényelmi szempontból választanak mintát, figyelmen kívül hagyva például a véletlenszerűség szabályait vagy a valós életből származó kérdéseket. Mindezek dacára az ilyen vizsgálatok gyakran visszaköszönnek a marketingkommunikációban mint fejlődésbizonyítékok, noha valójában nem mérik igazán, miben lettek jobbak a modellek.

Javítási javaslatok és a pénz mint igazi mérce

A kutatók nyolcpontos javaslatcsomagot dolgoztak ki – ennek része például, hogy világosan definiálják, mit tesztelnek, készüljenek fel az esetleges adatkontaminációra, és használjanak statisztikai összehasonlító módszereket. A problémák nem újak: más európai kutatócsoportok is sorra azonosítják a jelenlegi benchmarkinggyakorlat hibáit, köztük például a félrecsúszott ösztönzőket vagy a „híres ismeretlent”, vagyis amikor nem tudjuk, hogy a teszt valójában mit mér.

Érdemes megjegyezni, hogy még egyes tesztfejlesztők is belátták a hibákat. Az Arc Prize Foundation például saját programot indított az MI-rendszerek szigorúbb értékelése érdekében, mivel a teszteredmények sokszor eltérő adatbázisokon vagy eltérő módszerekkel születnek, emiatt nehezen hasonlíthatók össze.

Az MI-intelligencia végső mércéje: a profit?

A fentiek tükrében felmerül: mit mér valójában egy MI-benchmark? Az OpenAI és a Microsoft saját, belső AGI-tesztet dolgozott ki, amely szerint akkor tekinthető valódi mesterséges általános intelligenciának egy rendszer, ha az legalább 100 milliárd forint profitot termel. Mindez arra mutat rá: könnyebb forintra váltani az eredményeket, mint valódi intelligenciaszintet mérni.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 12:19

Az otthoni robot, amely majdnem annyiba kerül, mint egy autó

Ez a robot 168 cm magas, tömege pedig nagyjából egy golden retrieveréhez hasonlítható, ára pedig majdnem egy új, olcsó autóéval vetekszik...

szombat 14:24

Tévedhetetlen szakértők? Az előrejelzések meglepő valósága

I. Egy szakértő a szakértőkről Pontosítsunk, mivel mi nem vagyunk szakértők, hogy a jövőt megjósoljuk: eddig általában ebből nem sok jó sült ki...

MA 12:31

Az óceán fáinak évgyűrűi: amit a korallokról megtudtunk

A tengerbiológusok új módszerének köszönhetően pontosabb képet kaptunk a korallzátonyok múltjáról és állapotáról...

MA 12:21

Az amerikai járatcsökkentés oka, biztonságot ígérnek, több járat marad ki

✈ Az Egyesült Államokban 40 repülőtéren 10 százalékkal csökkentik a járatok számát a kormányzati leállás miatt...

MA 12:12

Az év legjobb techajánlatai, közeleg a Black Friday 2025

A Black Friday nem hivatalosan a techvásárlás karácsonya lett, amikor fejhallgatókért, játékkonzolokért, okosotthoni eszközökért vagy akár egy új laptopért tényleg rekordáron juthatsz hozzá...

MA 11:51

Új kémprogram támad Samsung-telefonokat WhatsAppon keresztül

🕵 Egy eddig ismeretlen kémprogram, a LandFall súlyos biztonsági rést használt ki a Samsung androidos képfeldolgozó könyvtárában, és rosszindulatú képeket küldött célpontjainak WhatsApp-üzenetben...

MA 11:42

Amerikában az élelmiszerbankok katasztrófaüzemben működnek

A jelenlegi politikai bizonytalanság miatt országszerte extrém terhelés nehezedik az amerikai élelmiszerbankokra...

MA 11:30

Meghalt James D. Watson, a DNS szerkezetének társfelfedezője

James D. Watson, a DNS szerkezetének egyik felfedezője, 97 éves korában hunyt el egy hospice-ban a New York állambeli East Northportban...

MA 11:21

Az Oracle-hackerek már a Washington Postot is feltörték

A Washington Post is azok közé a cégek közé került, amelyeket a közelmúltban ért adatszivárgási hullám az Oracle vállalati szoftverei révén...

MA 11:11

Az orkapicik születése: vér, feszültség, boldogság Norvégiában

Szenzációs pillanatoknak lehettek tanúi a kutatók Norvégiában, amikor sikerült megörökíteniük egy vadon élő orkaborjú születését...

MA 11:01

Az Apple sosem győzte le a Fitbitet: ez a fitneszkarkötő negyedannyiba kerül

💪 Közelednek az ünnepek, a vásárlási láz pedig egyre fokozódik. Ha még nem szereztél be minden ajándékot, érdemes lehet kipróbálni a Fitbit Inspire 3 egészség- és fitneszkarórát, amely most Black Friday előtti áron, 30%-os kedvezménnyel kapható – a megszokott 36 000 Ft helyett mindössze 25 000 Ft-ért...

MA 10:57

Az árpatermesztés titkos ellensége: a túl korai csírázás

A világon minden évben több ezer milliárd forintnyi termény megy veszendőbe az aratás előtti csírázás (pre-harvest sprouting, PHS) miatt...

MA 10:43

Az amerikaiakat megtréfálja a korai sarkvidéki hideg

Az Egyesült Államokban szokatlanul korán érkezik egy sarkvidéki hideghullám, amely a következő napokban átsöpör a kontinens középső és keleti részén...

MA 10:29

Az óriáspókháló, amely fél teniszpályát borít be

Egy magyar, cseh és albán kutatókból álló csapat hihetetlen felfedezést tett a Görögország és Albánia határán található kénes barlangban: egy olyan óriási pókhálóra bukkantak, amely több mint 97 négyzetmétert, vagyis nagyjából egy fél teniszpályányi területet borít be...

MA 10:15

Az amerikai hadsereg eldöntötte, kinek van esélye a kvantumforradalomra

🛡 A kvantumszámítógépek világában régóta várták, mely cégek kerülhetnek a középpontba az amerikai védelmi kutatóügynökség, a DARPA döntése nyomán...

MA 09:29

Az MI már a Gmailben és a Drive-ban is kutakodik – most érdemes óvatosnak lenni?

A Gemini Deep Research új szintre emeli a Google mesterséges intelligenciáját: immár képes átfésülni a Gmailt, a Google Drive-ot és a Chatet, hogy a felhasználók kérdéseire minél pontosabb válaszokat adjon...

MA 09:22

Kipukkan az MI-lufi? Rémálomszerű hét a techcégeknél

💥 Történelmi mélypontot hozott a hét a technológiai szektorban: a Nasdaq Composite Index pénteken ismét esett, immár második napja folyamatosan, közel 1%-kal gyengülve a délutáni kereskedésben, hiába a kedvező harmadik negyedéves gyorsjelentések...

MA 09:15

Az idősek már 11 államban többen vannak, mint a gyerekek

Az Egyesült Államokban már majdnem minden második megyében, valamint 11 államban az idősek száma meghaladja a gyerekekét...

MA 09:08

A sejtek rejtett takarítása lehet a fiatalodás kulcsa

Az öregedés egyik kulcsa a sejtek belső takarítórendszerének újraaktiválása lehet. Kínai kutatók felfedezték, hogy ha sikerül felpörgetni a sejtek „szemétfeldolgozó egységeit”, azaz a lizoszómákat, gátolható a káros fehérjék felhalmozódása, így lassíthatók az öregedési folyamatok...