
Embert próbáló kihívás az MI-modelleknek
Az emberiség utolsó vizsgája (Humanity’s Last Exam) névre keresztelt új mérce több mint 100 témakört és 2500 gondosan összeállított kérdést tartalmaz, amelyek megválaszolásában több mint 1000 szakértő segített 50 országból. Itt már nem elég egy gyors keresés a weben, minden válasz egyértelmű, pontos és nem visszakereshető az interneten – kizárva, hogy a tanuló algoritmusok már eleve tudják a helyes választ.
A vizsga során az MI-knek többek között a görög mitológiától kezdve a haladó fizikáig sokféle területen kell helytállniuk: például ki volt Iaszón anyai dédapja, vagy milyen viszonyban vannak a különböző erők egy súrlódásmentes sínen mozgó test esetén? Minden kérdést olyan szintre hoztak fel, amely doktori szinten is megállná a helyét.
Meddig jutottak el a legokosabb gépek?
A fejlesztők az OpenAI GPT-4o-t és o1-et, a Google Gemini 1.5 Pro-t, a Claude 3.5 Sonnetet és a DeepSeek R1-et is próbára tették. A januári induláskor az OpenAI o1 modell érte el a legjobb eredményt 8,3%-kal. 2026 februárjára a Google Gemini 3 Deep Think 48,4%-os pontszámot ért el – az emberi szakértők átlagosan 90% körül teljesítenek saját területükön.
A vizsgára 70 000 kérdésjavaslatot nyújtottak be a kutatók világszerte, amelyek közül 13 ezer fogott ki a legmodernebb nagynyelvű modelleken. Ezek közül szakértői bírálattal választották ki azt a 2500-at, amely tényleg minden szempontból méltó a kihívásra.
Mi számít valódi intelligenciának?
Bár a teszt az eddigieknél szélesebb körben és szigorúbb kritériumok mellett vizsgálja az MI-k képességeit, a kutatók szerint akár a 100%-os teljesítés sem bizonyítaná, hogy elértük a mesterséges általános intelligencia (AGI) szintjét. Egy sikeres vizsga igazolná, hogy az MI képes zárt végű, verifikálható tudományos kérdésekre helyesen válaszolni, de ez még nem jelenti, hogy önálló kutatásra is képes lenne vagy valódi intelligenciát mutatna.
A folytatás még ennél is izgalmasabb: miközben a gépek egyre okosabbak, lehet, hogy a legjelentősebb lépés még előttünk áll.
