Az MI végső vizsgája: látványosan kibuktak a gépek hibái

Miközben a mesterségesintelligencia-rendszerek egyre jobb eredményeket érnek el a hagyományos akadémiai teszteken, nyilvánvalóvá vált, hogy ezek a próbák már nem elég összetettek. Olyan vizsgák, mint a Massive Multitask Language Understanding (MMLU), amelyek korábban igazi kihívást jelentettek, mára nem mérik megfelelően a mai fejlett MI-modellek képességeit.

Egy vizsga, amit kifejezetten az MI-nek terveztek

Ekkor derült fény arra, ami addig rejtve maradt: egy nemzetközi kutatócsoport csaknem ezer szakértője – köztük egy Texas A&M Egyetem-professzor – egy teljesen új vizsgát dolgozott ki. Céljuk az volt, hogy olyan széles körű, komplex és szakértői tudáson alapuló feladatsort állítsanak össze, amellyel az aktuális MI-rendszerek még nem tudnak megbirkózni.

Az elkészült teszt, a Humanity’s Last Exam (Az Emberiség Utolsó Vizsgája), 2500 kérdésből áll, lefedve a matematikát, humán tudományokat, természettudományokat, ókori nyelveket és szakspecifikus területeket. Dr. Tung Nguyen, a texasi egyetem számítástechnikai tanszékének docense is részt vett a kérdések összeállításában. Véleménye szerint a valódi intelligencia nem merül ki a mintafelismerésben; szükség van mélységre, kontextusra és specializált tudásra is.

Nincs több trükk, csak valódi tudás

A feladatokat gondosan úgy szerkesztették, hogy csak egyetlen, ellenőrizhető megoldásuk legyen, és hogy az MI ne tudja egyszerű internetes kereséssel megoldani őket. Egyes kérdések például ókori feliratok fordítását, madáranatómiai struktúrák felismerését vagy bibliai héber kiejtési sajátosságok elemzését kérték.

Ennek megfelelően minden kérdést a legjobbnak számító MI-modelleken teszteltek. Ha valamelyik modell jól válaszolt, azt a kérdést törölték a vizsgából, így csak azok a feladatok maradtak, amelyeket a jelenlegi rendszerek nem tudnak megbízhatóan megoldani.

MI versus emberi tudás

Az eredmények megdöbbentőek: a GPT-4o mindössze 2,7 százalékos helyes megoldási arányt ért el, a Claude 3.5 Sonnet 4,1 százalékot, míg az OpenAI o1 némileg jobban, 8 százalékos pontossággal teljesített. A legjobb mai modellek, mint a Gemini 3.1 Pro vagy a Claude Opus 4.6, nagyjából 40–50 százalék közötti eredményt értek el. Ez nyilvánvalóvá teszi, hogy az emberek tudásának mélysége és sokszínűsége továbbra is elérhetetlen marad a gépi rendszerek számára.

Miért számítanak az új kihívások?

Nguyen személyesen 73 kérdést készített, főleg matematikai és informatikai témában, és hangsúlyozta: a pontos mérőeszközök hiánya miatt könnyen félreértelmezhetjük az MI képességeit. A hagyományos, embereknek szánt teszteken elért magas pontszámok megtévesztők lehetnek, mert ezek inkább tréningjellegűek, nem pedig a valódi megértés mérőeszközei.

Az együttműködés ereje

Bár a Humanity’s Last Exam (Az Emberiség Utolsó Vizsgája) neve drámai, célja nem az ember háttérbe szorítása. Inkább rámutat arra a tudásra és szakértelemre, amely még mindig csak ránk jellemző. Az MI valódi potenciálját – biztonságát és megbízhatóságát – csak akkor értjük meg, ha ismerjük a hiányosságait is. A projekt maga is az interdiszciplináris együttműködés diadalát bizonyítja: nemcsak informatikusok, hanem történészek, fizikusok, nyelvészek és orvosi kutatók is hozzájárultak, így tudták feltérképezni az MI vakfoltjait.

Tartós kihívás az MI számára

Az Emberiség Utolsó Vizsgája célja, hogy megbízható mércét adjon a jövő MI-rendszereinek is. A tesztkérdések egy része nyilvános, de a többség titkos marad, hogy a modellek ne tudják bemagolni a válaszokat. Bár a technológia rohamosan fejlődik, az MI és az emberi tudás között továbbra is feltűnően nagy a távolság.

2025, adminboss, www.sciencedaily.com alapján