
Kreatív számháború a teszteredményekkel
A GPT-5 bemutatásakor az OpenAI főleg a benchmarkpontszámokra támaszkodott, mint az AIME 2025-re (matematikai-logikai teszt), a SWE-bench Verified-re, az Aider Polyglot-ra, az MMMU-ra vagy épp a HealthBench Hard-ra. Ezeken a vizsgákon a modellek minél több, különféle területet lefedő kérdésre próbálnak helyesen válaszolni. A GPT-5 például kiemelkedően teljesített: az AIME 2025-ön 94,6 százalékot ért el segédeszközök nélkül, a SWE-bench-en 74,9-et, az Aider Polyglot-on 88-at, az MMMU-n 84,2-t, a HealthBench Hard-on pedig 46,2 százalékot.
Mindeközben a kutatók rámutatnak: sokan kényelmi szempontból választanak mintát, figyelmen kívül hagyva például a véletlenszerűség szabályait vagy a valós életből származó kérdéseket. Mindezek dacára az ilyen vizsgálatok gyakran visszaköszönnek a marketingkommunikációban mint fejlődésbizonyítékok, noha valójában nem mérik igazán, miben lettek jobbak a modellek.
Javítási javaslatok és a pénz mint igazi mérce
A kutatók nyolcpontos javaslatcsomagot dolgoztak ki – ennek része például, hogy világosan definiálják, mit tesztelnek, készüljenek fel az esetleges adatkontaminációra, és használjanak statisztikai összehasonlító módszereket. A problémák nem újak: más európai kutatócsoportok is sorra azonosítják a jelenlegi benchmarkinggyakorlat hibáit, köztük például a félrecsúszott ösztönzőket vagy a „híres ismeretlent”, vagyis amikor nem tudjuk, hogy a teszt valójában mit mér.
Érdemes megjegyezni, hogy még egyes tesztfejlesztők is belátták a hibákat. Az Arc Prize Foundation például saját programot indított az MI-rendszerek szigorúbb értékelése érdekében, mivel a teszteredmények sokszor eltérő adatbázisokon vagy eltérő módszerekkel születnek, emiatt nehezen hasonlíthatók össze.
Az MI-intelligencia végső mércéje: a profit?
A fentiek tükrében felmerül: mit mér valójában egy MI-benchmark? Az OpenAI és a Microsoft saját, belső AGI-tesztet dolgozott ki, amely szerint akkor tekinthető valódi mesterséges általános intelligenciának egy rendszer, ha az legalább 100 milliárd forint profitot termel. Mindez arra mutat rá: könnyebb forintra váltani az eredményeket, mint valódi intelligenciaszintet mérni.
