2026. 03. 13., 12:02

Az MI végső vizsgája: látványosan kibuktak a gépek hibái

Az MI végső vizsgája: látványosan kibuktak a gépek hibái
Miközben a mesterségesintelligencia-rendszerek egyre jobb eredményeket érnek el a hagyományos akadémiai teszteken, nyilvánvalóvá vált, hogy ezek a próbák már nem elég összetettek. Olyan vizsgák, mint a Massive Multitask Language Understanding (MMLU), amelyek korábban igazi kihívást jelentettek, mára nem mérik megfelelően a mai fejlett MI-modellek képességeit.

Egy vizsga, amit kifejezetten az MI-nek terveztek

Ekkor derült fény arra, ami addig rejtve maradt: egy nemzetközi kutatócsoport csaknem ezer szakértője – köztük egy Texas A&M Egyetem-professzor – egy teljesen új vizsgát dolgozott ki. Céljuk az volt, hogy olyan széles körű, komplex és szakértői tudáson alapuló feladatsort állítsanak össze, amellyel az aktuális MI-rendszerek még nem tudnak megbirkózni.

Az elkészült teszt, a Humanity’s Last Exam (Az Emberiség Utolsó Vizsgája), 2500 kérdésből áll, lefedve a matematikát, humán tudományokat, természettudományokat, ókori nyelveket és szakspecifikus területeket. Dr. Tung Nguyen, a texasi egyetem számítástechnikai tanszékének docense is részt vett a kérdések összeállításában. Véleménye szerint a valódi intelligencia nem merül ki a mintafelismerésben; szükség van mélységre, kontextusra és specializált tudásra is.

Nincs több trükk, csak valódi tudás

A feladatokat gondosan úgy szerkesztették, hogy csak egyetlen, ellenőrizhető megoldásuk legyen, és hogy az MI ne tudja egyszerű internetes kereséssel megoldani őket. Egyes kérdések például ókori feliratok fordítását, madáranatómiai struktúrák felismerését vagy bibliai héber kiejtési sajátosságok elemzését kérték.

Ennek megfelelően minden kérdést a legjobbnak számító MI-modelleken teszteltek. Ha valamelyik modell jól válaszolt, azt a kérdést törölték a vizsgából, így csak azok a feladatok maradtak, amelyeket a jelenlegi rendszerek nem tudnak megbízhatóan megoldani.

MI versus emberi tudás

Az eredmények megdöbbentőek: a GPT-4o mindössze 2,7 százalékos helyes megoldási arányt ért el, a Claude 3.5 Sonnet 4,1 százalékot, míg az OpenAI o1 némileg jobban, 8 százalékos pontossággal teljesített. A legjobb mai modellek, mint a Gemini 3.1 Pro vagy a Claude Opus 4.6, nagyjából 40–50 százalék közötti eredményt értek el. Ez nyilvánvalóvá teszi, hogy az emberek tudásának mélysége és sokszínűsége továbbra is elérhetetlen marad a gépi rendszerek számára.


Miért számítanak az új kihívások?

Nguyen személyesen 73 kérdést készített, főleg matematikai és informatikai témában, és hangsúlyozta: a pontos mérőeszközök hiánya miatt könnyen félreértelmezhetjük az MI képességeit. A hagyományos, embereknek szánt teszteken elért magas pontszámok megtévesztők lehetnek, mert ezek inkább tréningjellegűek, nem pedig a valódi megértés mérőeszközei.

Az együttműködés ereje

Bár a Humanity’s Last Exam (Az Emberiség Utolsó Vizsgája) neve drámai, célja nem az ember háttérbe szorítása. Inkább rámutat arra a tudásra és szakértelemre, amely még mindig csak ránk jellemző. Az MI valódi potenciálját – biztonságát és megbízhatóságát – csak akkor értjük meg, ha ismerjük a hiányosságait is. A projekt maga is az interdiszciplináris együttműködés diadalát bizonyítja: nemcsak informatikusok, hanem történészek, fizikusok, nyelvészek és orvosi kutatók is hozzájárultak, így tudták feltérképezni az MI vakfoltjait.

Tartós kihívás az MI számára

Az Emberiség Utolsó Vizsgája célja, hogy megbízható mércét adjon a jövő MI-rendszereinek is. A tesztkérdések egy része nyilvános, de a többség titkos marad, hogy a modellek ne tudják bemagolni a válaszokat. Bár a technológia rohamosan fejlődik, az MI és az emberi tudás között továbbra is feltűnően nagy a távolság.

2025, adminboss, www.sciencedaily.com alapján

Legfrissebb posztok

MA 16:46

Az MI végre munkába áll: a Mistral Workflows betör a vállalatokhoz

💼 A francia székhelyű Mistral AI, amelynek értékét 11,7 milliárd euróra (kb...

MA 16:34

Az amerikai infláció, háborús pánik és gyenge jen ledöntötte a bitcoint

Az év eleji menetelés után a bitcoin ára a héten 28 millió forint (76 500 dollár) környékére húzódott vissza, messze az áhított 29,5 milliós (80 000 dollár) árfolyamtól...

MA 16:22

Az izraeli digitális sékel megérkezett: stabilcoin a blokkláncon

Izrael első hivatalosan szabályozott stabilcoinja elindult: a Bits of Gold nevű tel-avivi kriptotőzsde két évnyi tesztidőszak után megkapta az engedélyt, így már stabilcoint bocsáthat ki a helyi pénznemhez, a sékelhez kötve...

MA 16:12

Az első 6K-s gamer monitor: forradalom vagy parasztvakítás?

A Samsung bemutatta az Odyssey G8-at (G80HS), amely a világ első 6K-s, 32 hüvelykes gamer monitora, és 1 499 eurós (kb...

MA 16:01

Az MI elveszi a fiatalok munkáját? Egy vezető kiutat mutat

💡 Az utóbbi években rengeteg fiatal, főként a Z generáció tagjai, épp arra ébrednek rá, mennyire semmivé vált az a tudás, amivel az iskolapadból kikerültek...

MA 15:57

Az apró távcső, amelytől ámulnak az égbolt rajongói

👀 A DwarfLab Dwarf Mini igazi újdonságnak számít azoknak, akik egyszerűen, gyorsan és minimális vesződéssel szeretnének égi fotókat készíteni...

MA 15:45

Az OpenAI új mobilja trónfosztja az iPhone-t?

📱 Az OpenAI újabb meglepetéssel készül a techvilágnak: a korábbi pletykákkal ellentétben nemcsak digitális hangrögzítőn, viselhető kiegészítőn vagy okoshangszórón dolgozik, hanem egy saját fejlesztésű mobilchipen is, ami egy teljes OpenAI-mobiltelefon eljövetelét vetítheti előre...

MA 15:34

Az áramhálózatot már robotok irányítják: startol Kína nagy dobása

⚡ A kínai hatóságok idén 8 500 vadonatúj robotot vetnek be az ország energiaellátásának megújítására...

MA 15:24

Az új DJI Mic Mini 2: kis méret, nagy tudás, baráti ár

🔊 A DJI Mic Mini 2 a vezeték nélküli mikrofonok világában friss színt hoz — szó szerint is, hiszen a transmitterein lecserélhető, színes előlapok is elérhetők...

MA 14:45

Az Arc Raidersben gyorsabban törnek a fegyverek, felfordul a PvP

⚡ A legfrissebb Arc Raiders-frissítés alaposan felforgatja a fegyverek kezelését: mostantól fegyvereink sokkal gyorsabban mennek tönkre, ráadásul az értékesebb zsákmányra vadászó játékosokat is a pálya közepére terelik...

MA 14:23

Itt az óvatosság ideje: megtört a bitcoin lendülete, zuhan a piac

A bitcoin megint elakadt a 80 000 dollár (kb. 29,5 millió forint) feletti kitörésnél, és ezzel együtt közel 0,75 százalékos esést szenvedett el, miközben az ether és a piac többi része is hasonló mozgást mutat...

MA 13:35

A nagyvállalatok új aduja: az MI-szuverenitás

🤖 A mesterséges intelligencia fejlődése villámgyors, és a korábbi kísérleti időszakot követően a világ legnagyobb vállalatai stratégiai újratervezésbe kezdtek...

MA 13:23

A világegyetem vége közelebb van, mint hinnéd

Az univerzum sorsa új fordulatot vett: friss kutatások szerint nem trillió éveink vannak hátra, hanem „csak” éppen 33 milliárd évünk van hátra, míg minden önmagába omlik...

MA 13:13

Az új Steam Deck 2 még nem hozza az áttörést

A Valve már több mint négy éve dolgozik a Steam Deck következő generációján, viszont a várva várt új gép bemutatása még mindig nem látható a láthatáron...

MA 13:01

Az ether-vásárlási roham utoléri a Bitcoin nagyágyúit

💸 Senki sem várta volna, hogy az üzleti világ két legnagyobb kriptovásárlója ennyire közel kerüljön egymáshoz...

MA 12:56

Az új visszatekerés: senki nem marad le a 8020-as irányelvről

Külön említést érdemel, hogy a Supermassive Games fejlesztői végre meghallották a rajongók egyik legnagyobb kívánságát: az Irányelv 8020-ban (Directive 8020) bevezetik a játék közbeni visszatekerés lehetőségét...

MA 12:44

A döbbenetes bitcoin-vagyon, amivel Jack Dorsey cége zsonglőrködik

💸 Jack Dorsey, a Twitter egykori vezére által alapított Block igencsak bespájzolt bitcoint: az év első negyedévében 114 új bitcoint vásárolt, amivel a vállalati kasszában már majdnem 9 000 BTC-t, vagyis körülbelül 264 milliárd forintot tart...

MA 12:34

A túlzásba vitt automatizálás megöli az értékesítést

Külön említést érdemel, hogy az értékesítési csapatok ma minden korábbinál nagyobb nyomás alatt állnak...

MA 12:24

Az MI-láz berobban: a Netcompany új korszakot nyit az INEOS Cyclingnél

Az INEOS Cycling öt évre szóló együttműködést kötött a dán Netcompanyval, hogy forradalmasítsák a profi országúti kerékpározást MI-alapú technológiával...

MA 10:37

Az új Logitech G512 X: a gamer billentyűzet, amire vártunk?

A Logitech G512 X bizonyítja, milyen sokat számítanak az okos tervezési megoldások és az innováció a gamer billentyűzetek piacán...

MA 10:29

A mesterséges intelligencia feltámasztja a halott projekteket

Érdekes felvetés, hogy a hosszú hétvégék után az e-mail-fiókunkba belépve rendre találkozunk olyan projektekkel, amelyek sem előre nem haladtak, sem nem törölték őket...

MA 10:22

Jön az újabb japán kamatemelés? Szárnyal a jen, esik a bitcoin

💰 A japán jegybank keddi döntése nyomán egyre erősebbek a várakozások, hogy már júniusban nőhetnek a hitelfelvételi költségek...

MA 10:14

Az Ondo Finance új dimenzióba repíti a tokenizált részvényeket

Az Ondo Finance forradalmasítja a tokenizált részvényeket és ETF-eket azzal, hogy bevezeti a meghatalmazotti szavazás lehetőségét...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/28

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás lehetővé teszi, hogy könnyedén megtudd, hány nap választ el két dátumot egymástól...

MA 08:57

Az MI-keresők rejtett hibái: veszélyben a vállalati rendszerek

⚠ Úgy tűnik, hogy azok a vállalati fejlesztőcsapatok, amelyek gondosan finomhangolják a RAG (Retrieval-Augmented Generation) beágyazó modelljeiket, ezzel jelentősen, akár 40%-kal is ronthatják a visszakeresés pontosságát...

MA 08:50

Az áttörés: Végre repedés nélkül fagyaszthatók a beültethető szervek

A szervátültetés sokáig versenyt futott az idővel: a donorszervek eltarthatósága szűk keresztmetszetet jelent, gyakran csak órákban mérhető...

MA 08:43

Az XRP mélyrepül: az eladók veszik át az irányítást

📉 Tipikus eset, amikor egy régóta várt támaszpont hirtelen enged el: az XRP éppen most esett 3%-ot, erős forgalom mellett 420 forint (1,40 USD) alá szakadt, és ezzel utat nyitott a további lejtmenetnek...

MA 08:36

A drága olaj és az MI fékezi a bitcoint, a Fed tétlen

📈 Kissé leült a bitcoin: 3 százalékos mínuszban, 28,6 millió forint környékén ingadozik, miközben a befektetők kivárnak a sűrű amerikai makrogazdasági hét előtt...

MA 08:29

Az olajár száguld, a kriptók mélyrepülésben

Kedd reggelre jelentős esést produkált a kriptopiac: a Bitcoin értéke 76 923 dollárra (kb...