2025. 11. 08., 10:36

A félrevezető MI-teszteken a nagy cégek csak nevetnek

A félrevezető MI-teszteken a nagy cégek csak nevetnek
Az MI-cégek előszeretettel hivatkoznak benchmarkjaikra, hogy modelleiket a technológiai fejlődés csúcsaként tüntessék fel. Figyelemre méltó, hogy az Oxford Internet Institute (OII) és több más egyetem friss kutatása szerint a természetes nyelvi feldolgozást és gépi tanulást vizsgáló 445 LLM-tesztből mindössze 16 százalék használ megbízható, tudományos összehasonlítási módszereket. Ennél is aggasztóbb, hogy a felmérések fele homályos, nehezen mérhető tulajdonságok – például „gondolkodás” vagy „ártalmatlanság” – vizsgálatával tetszeleg, anélkül, hogy pontosan definiálnák, mit is jelentenek ezek.

Kreatív számháború a teszteredményekkel

A GPT-5 bemutatásakor az OpenAI főleg a benchmarkpontszámokra támaszkodott, mint az AIME 2025-re (matematikai-logikai teszt), a SWE-bench Verified-re, az Aider Polyglot-ra, az MMMU-ra vagy épp a HealthBench Hard-ra. Ezeken a vizsgákon a modellek minél több, különféle területet lefedő kérdésre próbálnak helyesen válaszolni. A GPT-5 például kiemelkedően teljesített: az AIME 2025-ön 94,6 százalékot ért el segédeszközök nélkül, a SWE-bench-en 74,9-et, az Aider Polyglot-on 88-at, az MMMU-n 84,2-t, a HealthBench Hard-on pedig 46,2 százalékot.

Mindeközben a kutatók rámutatnak: sokan kényelmi szempontból választanak mintát, figyelmen kívül hagyva például a véletlenszerűség szabályait vagy a valós életből származó kérdéseket. Mindezek dacára az ilyen vizsgálatok gyakran visszaköszönnek a marketingkommunikációban mint fejlődésbizonyítékok, noha valójában nem mérik igazán, miben lettek jobbak a modellek.

Javítási javaslatok és a pénz mint igazi mérce

A kutatók nyolcpontos javaslatcsomagot dolgoztak ki – ennek része például, hogy világosan definiálják, mit tesztelnek, készüljenek fel az esetleges adatkontaminációra, és használjanak statisztikai összehasonlító módszereket. A problémák nem újak: más európai kutatócsoportok is sorra azonosítják a jelenlegi benchmarkinggyakorlat hibáit, köztük például a félrecsúszott ösztönzőket vagy a „híres ismeretlent”, vagyis amikor nem tudjuk, hogy a teszt valójában mit mér.

Érdemes megjegyezni, hogy még egyes tesztfejlesztők is belátták a hibákat. Az Arc Prize Foundation például saját programot indított az MI-rendszerek szigorúbb értékelése érdekében, mivel a teszteredmények sokszor eltérő adatbázisokon vagy eltérő módszerekkel születnek, emiatt nehezen hasonlíthatók össze.

Az MI-intelligencia végső mércéje: a profit?

A fentiek tükrében felmerül: mit mér valójában egy MI-benchmark? Az OpenAI és a Microsoft saját, belső AGI-tesztet dolgozott ki, amely szerint akkor tekinthető valódi mesterséges általános intelligenciának egy rendszer, ha az legalább 100 milliárd forint profitot termel. Mindez arra mutat rá: könnyebb forintra váltani az eredményeket, mint valódi intelligenciaszintet mérni.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

kedd 21:34

A Pixel 9a végre megkapta, ami eddig hiányzott?

👌 Most kapaszkodj meg, mert a Pixel 9a-val kapcsolatban végre jó hír érkezett: egyeseknél már megjelent a kikapcsolt képernyő mellett is működő ujjlenyomatos feloldás opciója...

kedd 21:12

Az új Google TV: a Gemini azt is megmutatja, amit nem kérsz

Vadonatúj MI-alapú funkciókkal bővült a Google TV, így a tévénézés mostantól egészen új értelmet nyer...

kedd 21:02

A kockázatkerülők új aranytojása: a stakelt ether

💸 Ahogy a kriptovaluták egyre inkább belépnek a hagyományos pénzpiacokra, a nagy pénzügyi cégek is igyekeznek valamilyen módon jelen lenni ebben a világban...

kedd 20:56

Az üvegbe gravírozott chip áttöri a kvantumbiztonság korlátait

Amikor a kvantumszámítógépek egyre közelebb kerülnek a valósághoz, a jelenlegi titkosítási módszerek hamarosan elavulhatnak...

kedd 20:23

Az új HeyPolo végre leszámol az állandó megfigyeléssel

Érdemes megvizsgálni, hogyan védhető a digitális magánélet a helymegosztó alkalmazások hasznossága mellett...

kedd 20:13

A Mars ősi vulkánja felborítja a bolygó forgását

Noha a Marsot általában kihűlt, halott világnak tartottuk, új bizonyítékok szerint a Tharsis nevű vulkánvidék mélyén komoly aktivitás zajlik, amely a bolygó forgását is felgyorsíthatja...

kedd 20:02

Az új Spotify‑védelem végre gátat szab a téves lejátszásoknak

A zenei platform elindította az Artist Profile Protection nevű opciót, amellyel a zenészek megelőzhetik, hogy véletlenül vagy szándékosan rossz profilokra kerüljenek fel a zenéik...

kedd 19:58

Az Apple Music most már jelzi: jönnek a koncertdátumok a Bandsintownból

Na most kapaszkodj, mert a Bandsintown végre teljes erőbedobással összeborult az Apple-lel: mostantól már az Apple Musicban is böngészheted kedvenc előadóid közelgő koncertjeit...

kedd 19:46

Az AmneziaVPN visszavág: átveri a cenzúrát, felszabadítja a netet

Az internetes szólásszabadság ma egyre komolyabb veszélyben van. Számos ország kormányai mindent elkövetnek azért, hogy megakadályozzák lakosaikat az internet szabad használatában: nemcsak egyes oldalakat, hanem alapvetően magát a világhálót próbálják elérhetetlenné tenni...

kedd 19:34

A Firefox végre ingyenes, beépített VPN-t kapott

🔒 A Firefox legújabb, 149-es verziója egy teljesen új szintre emeli a böngészés biztonságát: a beépített, ingyenes VPN-funkcióval immár havi 50 GB adatforgalmat kap minden Mozilla-fiókkal rendelkező felhasználó...

kedd 18:02

Az első Google MI-s vásárlás: a Gap forradalmi lépése

A Gap Inc., amelyhez olyan divatmárkák tartoznak, mint az Old Navy, a Gap, a Banana Republic és az Athleta, lehetővé teszi, hogy a vásárlók közvetlenül a Google Gemini alkalmazásán keresztül fejezzék be vásárlásaikat – anélkül, hogy elhagynák a platformot...

kedd 17:56

Az Infinite Campust újra támadás érte: rejtélyes adatlopás

Az Egyesült Államokban több mint 3200 iskolai körzetben használt Infinite Campus digitális diáknyilvántartó rendszert adatlopás érte, miután hackerek egy alkalmazott Salesforce-fiókjához fértek hozzá...

kedd 17:45

Az új szuperkondenzátorok letaszítják trónjáról az akkukat?

Valami elképesztő született a laborban: szuperkondenzátor, amelyben a legújabb trükk a lignin-alapú, szuperporózus szén elektróda, amit egy teljesen új, fluorozott oldószeres elektrolittal turbóztak fel...

kedd 17:34

Az MI, amely valóban helyetted dolgozik: a Claude önállósodik Macen

Képzeld el, hogy miközben épp a koktélodat kortyolod, vagy a Netflixen lazulsz, a gépeden egy MI dolgozik tovább – és ez most már nem csak sci-fi, hanem valóság...

kedd 17:24

Az iráni csapások térdre kényszerítették Katar gázexportját

A katari Ras Laffan Ipari Városban található folyékonyföldgáz-üzem, amely korábban a világ egyik legnagyobb LNG-előállító központja volt, teljesen leállította termelését az iráni légicsapások nyomán...

kedd 17:12

A Spotify már mindent tud a kedvenc dalaidról: itt a SongDNA

🎵 Na most kapaszkodj, mert a Spotify új zsenialitással robbant be: itt a SongDNA, amivel szinte szétboncolhatod bármelyik kedvenc számodat!..

kedd 17:03

Az autóhitel-válság tetőzik: sokkolóan elszálltak a havi terhek

Egyre több amerikai szembesül azzal, hogy az autóvásárlás már messze nem álom, hanem komoly anyagi teher...

kedd 16:56

Az Apple-vezér is azt mondja: tedd le végre a telefont!

📱 Az iPhone valósággal forradalmasította az életünket, de igen, könyörgöm, néha már tényleg túl sok a telefonozás...

kedd 16:46

Az Amazon rákapcsol: jön a Zoox robotaxi-invázió

Az Amazon önvezető járműveket fejlesztő leányvállalata, a Zoox, még idén elindítja robotaxi-szolgáltatását Austinban és Miamiban...

kedd 16:34

Az óriáscsillagok nagy rejtélye: fél évszázad után megszületett a megoldás

🔬 Évtizedek óta nagy fejtörést okozott a kutatóknak, hogy a vörös óriáscsillagok felszínén miként jelennek meg olyan kémiai változások, amelyek eredetileg mélyen, a csillag belsejében keletkeztek...

kedd 14:01

Az újabb LaGuardia-tragédia: végzetes hibák a reptéren

Vasárnap éjszaka az Air Canada Montrealból érkező gépe tragikus módon összeütközött egy tűzoltóautóval a New York-i LaGuardia repülőtér kifutópályáján...

kedd 13:56

A közösségi platformok rémálma: feltörték a BuddyBoss-t!

Valaki betört a BuddyBoss frissítési rendszerébe, és szó szerint tömegével fertőzött meg WordPress-oldalakat, amelyekre közösségi platformokat, tagsági oldalakat vagy e-learning-felületeket húztak...

kedd 13:45

Az adóhivatal rendszerét is feltörték: megrendült a holland pénzügy

🔐 A holland pénzügyminisztériumot múlt héten kibertámadás érte, amelynek során illetéktelenek hozzáfértek a minisztérium néhány fontos informatikai rendszeréhez...

kedd 13:34

Az aszály titkos ára: elszabadulnak az antibiotikum-rezisztens kórokozók

💧 A klímaváltozás nemcsak erdőtüzeket és elszáradó termést okoz hanem a látványos hatásokon túl a mikroszkopikus világra is komolyan kihat...

kedd 12:01

Az Apple visszahozza a WWDC-t: jönnek a nagy bejelentések

💻 Megemlíthető, hogy az Apple idén június 8–12. között rendezi meg éves Worldwide Developers Conference (WWDC) rendezvényét, amely immár online formában hozza össze a világ fejlesztőit egy hétre...

kedd 11:45

Az iPhone-ok új réme: már bárki feltörheti a telefonodat

🔒 Egy frissen kiszivárgott szoftvercsomag most minden régebbi iPhone-t veszélybe sodor. A DarkSword nevű, iPhone-okat célzó exploit egyetlen letöltéssel beszerezhető a GitHubon, használatához pedig semmiféle különleges tudás nem kell – néhány kattintással a támadók teljes hozzáférést szerezhetnek a személyes adataidhoz...

kedd 11:35

Az anyag legújabb csavarja: megszületett a fél-Möbiuszos molekula

Most először sikerült a vegyészeknek olyan, eddig ismeretlen szerkezetű molekulát létrehozni, amely fél-Möbiusz-topológiával rendelkezik...

kedd 11:23

Az inzulintabletta átírhatja a cukorbetegség kezelésének szabályait

Az inzulintabletta ötlete több mint száz éve foglalkoztatja a tudósokat, de eddig mindig kudarcba fulladt: a bélrendszer lebontotta az inzulint, mielőtt eljutott volna a vérbe, így millióknak maradt a napi injekció...

kedd 11:12

Az első érintős játékkonzol? A OnePlus nagy dobása

🕹 A mobilos játékosok világa hamarosan izgalmas újdonsággal bővülhet, mivel egy nagy gyártó, minden jel szerint a OnePlus, saját Android-alapú kézikonzol fejlesztésén dolgozik...