2026. 03. 13., 12:02

Az MI végső vizsgája: látványosan kibuktak a gépek hibái

Az MI végső vizsgája: látványosan kibuktak a gépek hibái
Miközben a mesterségesintelligencia-rendszerek egyre jobb eredményeket érnek el a hagyományos akadémiai teszteken, nyilvánvalóvá vált, hogy ezek a próbák már nem elég összetettek. Olyan vizsgák, mint a Massive Multitask Language Understanding (MMLU), amelyek korábban igazi kihívást jelentettek, mára nem mérik megfelelően a mai fejlett MI-modellek képességeit.

Egy vizsga, amit kifejezetten az MI-nek terveztek

Ekkor derült fény arra, ami addig rejtve maradt: egy nemzetközi kutatócsoport csaknem ezer szakértője – köztük egy Texas A&M Egyetem-professzor – egy teljesen új vizsgát dolgozott ki. Céljuk az volt, hogy olyan széles körű, komplex és szakértői tudáson alapuló feladatsort állítsanak össze, amellyel az aktuális MI-rendszerek még nem tudnak megbirkózni.

Az elkészült teszt, a Humanity’s Last Exam (Az Emberiség Utolsó Vizsgája), 2500 kérdésből áll, lefedve a matematikát, humán tudományokat, természettudományokat, ókori nyelveket és szakspecifikus területeket. Dr. Tung Nguyen, a texasi egyetem számítástechnikai tanszékének docense is részt vett a kérdések összeállításában. Véleménye szerint a valódi intelligencia nem merül ki a mintafelismerésben; szükség van mélységre, kontextusra és specializált tudásra is.

Nincs több trükk, csak valódi tudás

A feladatokat gondosan úgy szerkesztették, hogy csak egyetlen, ellenőrizhető megoldásuk legyen, és hogy az MI ne tudja egyszerű internetes kereséssel megoldani őket. Egyes kérdések például ókori feliratok fordítását, madáranatómiai struktúrák felismerését vagy bibliai héber kiejtési sajátosságok elemzését kérték.

Ennek megfelelően minden kérdést a legjobbnak számító MI-modelleken teszteltek. Ha valamelyik modell jól válaszolt, azt a kérdést törölték a vizsgából, így csak azok a feladatok maradtak, amelyeket a jelenlegi rendszerek nem tudnak megbízhatóan megoldani.

MI versus emberi tudás

Az eredmények megdöbbentőek: a GPT-4o mindössze 2,7 százalékos helyes megoldási arányt ért el, a Claude 3.5 Sonnet 4,1 százalékot, míg az OpenAI o1 némileg jobban, 8 százalékos pontossággal teljesített. A legjobb mai modellek, mint a Gemini 3.1 Pro vagy a Claude Opus 4.6, nagyjából 40–50 százalék közötti eredményt értek el. Ez nyilvánvalóvá teszi, hogy az emberek tudásának mélysége és sokszínűsége továbbra is elérhetetlen marad a gépi rendszerek számára.


Miért számítanak az új kihívások?

Nguyen személyesen 73 kérdést készített, főleg matematikai és informatikai témában, és hangsúlyozta: a pontos mérőeszközök hiánya miatt könnyen félreértelmezhetjük az MI képességeit. A hagyományos, embereknek szánt teszteken elért magas pontszámok megtévesztők lehetnek, mert ezek inkább tréningjellegűek, nem pedig a valódi megértés mérőeszközei.

Az együttműködés ereje

Bár a Humanity’s Last Exam (Az Emberiség Utolsó Vizsgája) neve drámai, célja nem az ember háttérbe szorítása. Inkább rámutat arra a tudásra és szakértelemre, amely még mindig csak ránk jellemző. Az MI valódi potenciálját – biztonságát és megbízhatóságát – csak akkor értjük meg, ha ismerjük a hiányosságait is. A projekt maga is az interdiszciplináris együttműködés diadalát bizonyítja: nemcsak informatikusok, hanem történészek, fizikusok, nyelvészek és orvosi kutatók is hozzájárultak, így tudták feltérképezni az MI vakfoltjait.

Tartós kihívás az MI számára

Az Emberiség Utolsó Vizsgája célja, hogy megbízható mércét adjon a jövő MI-rendszereinek is. A tesztkérdések egy része nyilvános, de a többség titkos marad, hogy a modellek ne tudják bemagolni a válaszokat. Bár a technológia rohamosan fejlődik, az MI és az emberi tudás között továbbra is feltűnően nagy a távolság.

2025, adminboss, www.sciencedaily.com alapján

Legfrissebb posztok

MA 20:34

A Gothic Remake eladásai mutatják: még mindig imádjuk a eurojankot

🖤 Lényeges, hogy a 25 éves klasszikus szerepjáték újjáélesztett verziója, a Gothic Remake, elképesztő rajttal már egy hét alatt elérte az 500 000 eladott példányt...

MA 20:23

A Sonyt kár okolni: ex–Destiny 2 CM szerint a Bungie majdnem bezárt

A Destiny 2 rajongótábora most különösen nehéz időszakon megy keresztül: a játék az utóbbi időben gyakorlatilag parkolópályára került...

MA 20:12

Az amerikai kormány 2 milliárdot rátesz a kvantumszámításra, a védelem lemarad

💸 Az USA nem kevesebb mint 730 milliárd forintot fektet be a kvantumszámítógépek fejlesztésébe, miközben a másik oldalon, a védelem oldalán veszélyesen lelassult az innováció...

MA 19:56

A vb-házigazda Kanada Bosznia-Hercegovina ellen rajtol az első pontokért

Megemlíthető továbbá, hogy Toronto péntek este igazi futballünnepet ígér, hiszen a 2026-os labdarúgó-világbajnokság egyik házigazdája, Kanada Bosznia és Hercegovina ellen kezdi meg szereplését a B csoport nyitómeccsén...

MA 19:45

Az új SKYLRK Bluetooth-hangszórók, amiket a B&O is megirigyelne

🎧 Justin Bieber legújabb fejlesztéseivel rukkolt elő saját lifestyle márkája, a SKYLRK égisze alatt, ahol most két vadonatúj Bluetooth hangszóró és egy vezeték nélküli fejhallgató jelentek meg...

MA 19:34

A holland civil perelné a Valve-ot a magasan tartott árak miatt

💳 Évek óta a Steamre gondolva hatalmas leárazások, filléres játékhegyek és véget nem érő akciók jutnak eszünkbe, nem a magas árak...

MA 19:23

A Kalshi kriptós örökös határidős ügyletei újraélesztik a határidős–swap vitát

📈 Az amerikai pénzpiacokon újra fellángolt a vita: vajon hogyan is kellene szabályozni a kriptovaluta-befektetések egyik legnépszerűbb termékét, az örökös (perpetual) szerződést?..

MA 19:12

Az apró pórusok megváltoztathatják, hogyan tisztítja a világ a vizet

💧 Egészen új távlatok nyíltak meg az ipari víztisztítás és a vegyszerek leválasztásának jövőjében, miután kutatók egy hihetetlenül pontos, egy nanométeres pórusokkal rendelkező membránt fejlesztettek ki...

MA 19:01

A pénztárcabarát, pehelykönnyű pajzs: Norton Antivirus Plus teszt

Az online fenyegetések világában egyre fontosabb az okoseszközök gyors és zökkenőmentes védelme...

MA 18:57

A Tejútrendszer peremén a Kis Magellán-felhőt nagytestvére tépi szét

A Tejútrendszer peremén jelenleg is látványos dráma zajlik: a Kis Magellán-felhőt szó szerint szétszakítja nagyobb társa, a Nagy Magellán-felhő...

MA 18:47

A nép szava: a Resident Evil Veronica milliós kívánságlistát ér el

A Resident Evil Veronica bejelentése után szinte pillanatok alatt tarolt: kevesebb mint egy hét alatt egymillió kívánságlistára került PlayStation 5-ön és PC-n is...

MA 18:36

Az alaszkai gleccserek ijesztő válasza: három héttel hosszabb az olvadás

Felmerül a kérdés, hogy mennyire érzékenyek az alaszkai gleccserek a hőmérséklet-emelkedésre...

MA 18:26

A kivonások dacára a Bitcoin ETF-befektetők többsége kitart

Nehéz elhinni, de a Bitcoin ETF-ből már mintegy 3,27 billió forint értékű tőke távozott idén, mégsem omlott össze a piac...

MA 17:35

A Silent lapjai, amelyekkel Ascension 10-ig jutottam a Slay the Spire 2-ben

Az Ascension 10 teljesítése a Slay the Spire 2-ben nem tökéletes pakliépítésen múlik, hanem azon, hogy mennyire gyorsan és hatékonyan tudod megszüntetni a kezdőpaklid gyengeségeit...

MA 17:23

A legendás Rick James fia börtönben: Tazman Johnsont droggal vádolják

Rick James fia, Tazman Johnson jelenleg a Los Angeles megyei börtönben van, súlyos vádak miatt...

MA 16:45

A SpaceX tőzsdei rajtja: zuhanás vagy rakétázás a kriptónak?

🚀 Egy lényeges szempont, hogy hónapok várakozása után ma megkezdődik a SpaceX részvényének kereskedése a Nasdaqon, miután a befektetők 75 milliárd dollárt – azaz közel 27 000 milliárd forintot – öntöttek a valaha volt legnagyobb tőzsdei bevezetésbe...

MA 16:34

Az Arm AI-s sugárkövetéssel kihívja az AMD-t és az Intelt kézikonzolokban

Noha sokan csak a telefonjukról ismerik az Arm-chipeket, most kiderült, hogy ezek jóval többre is képesek...

MA 16:23

A Top Gun: Maverick színésze, James Handy halála: kés és fojtás

🔥 A 81 éves James Handy, akit a Top Gun: Maverick (Top Gun: Maverick) című filmben is láthattunk, brutális támadás áldozata lett Los Angeles-i otthonában...

MA 16:12

A Monero 33%-ot száguldott, 438 dollárig, 120 milliós blokkláncon zajló pénzmosás közepette

📈 A Monero árfolyama hirtelen 33%-ot ugrott, elérve a 438 dollár (kb...

MA 16:01

A Havn HS 360, a HS 420 kisebb, könnyebb és okosabb kistestvére

Az asztali számítógépházak világában sokan ismerhetik a masszív és látványos HS 420-at, amelynek most megérkezett a kisebb testvére...

MA 15:35

Az üvöltés lelassíthatja a szervereket: meghökkentő tény a HDD-kről

😱 Ez a jelenség jól illusztrálható azzal, hogy minden szerverteremben ott lapulnak a kis alumínium-, réz- és kerámiadobozkák, amelyek egészen emberi tulajdonságokat hordoznak – legalábbis amikor úgy viselkednek, mint egy sértődött munkatárs: ha rájuk ordítasz, lelassulnak...

MA 15:12

A Bitcoin 63 ezernél toporog: jön a bikák kálváriája?

📈 A hét elején látványos mélységbe, 59 000 dollárig zuhant le a bitcoin árfolyama, majd visszakapaszkodott 63 000 dollár környékére...

MA 15:01

Az új AirPods EQ már elérhető — még nem érdemes frissíteni

Az Apple végre elhozta az AirPods felhasználóinak az egyéni hangszínszabályzást (EQ-t), amire sokan régóta vártak...

MA 14:45

A Google erkölcsi iránytűje elveszett: vezető lemondott a Pentagon MI-szerződései miatt

A Google Android platformbiztonságáért felelős igazgatója, René Mayrhofer lemondott, miután a vállalat lehetővé tette, hogy az amerikai Védelmi Minisztérium (DoD) titkos feladatokra felhasználja a cég MI-modelljeit...

MA 14:23

A Seed lehet a The Sims óta a legnagyobb dobás

A Seed minden korábbi életszimulátor-játékot felülmúlhat, hiszen teljesen új távlatokat nyit meg a virtuális közösségek előtt...

MA 13:34

A BlackRock bitcoinjövedelem-ETF-je jövő héten rajtolhat

Érdemes megvizsgálni, hogy a BlackRock hamarosan új korszakot nyit a hagyományos pénzügyi piacokon, hiszen bemutatja a világ első olyan bitcoin ETF-jét, amely kifejezetten jövedelemtermelésre fókuszál...

MA 13:23

Így nézheted élőben: Barcelona–Catalunya Nagydíj 2026 – menetrend, előzetes

🏁 Fontos kérdés, ki lesz képes villantani a 2026-os F1-es szezon következő, fordulatos futamán Barcelonában, ahol a történelmi pálya idén először viseli a Barcelona-Catalunya Nagydíj elnevezést...

MA 13:01

A Metaplanet felvásárolja a Siiibo Securities-t: gyorsul a bitcoin-forradalom

🚀 Érdemes megvizsgálni, hogy egy friss japán felvásárlással a Metaplanet jelentős lépést tett a digitális pénzügyi rendszer átalakítása felé...

MA 12:56

Az MI forradalmasítja a számlacsalás elleni küzdelmet

A mesterséges intelligencia (MI) néhány év alatt gyökeresen átalakította a vállalatok mindennapjait, és különösen a pénzügyi csapatok működésében hozott jelentős változásokat...