2026. 02. 28., 11:21

Az utolsó nagy próba: Jön az MI történelmi fordulópontja?

Az utolsó nagy próba: Jön az MI történelmi fordulópontja?
Érdemes megvizsgálni, hol húzzuk meg a határt az emberi tudás és a modern MI-modellek képességei között. Egy új, több tudományterületet lefedő teszten a legfejlettebb rendszerek még messze elmaradnak a szakértőktől, miközben az MI rohamos fejlődését senki sem vitatja. Vajon tényleg csak idő kérdése, hogy gépeink túlnőjenek rajtunk, vagy még mindig van, amit csak az ember tud?

Embert próbáló kihívás az MI-modelleknek

Az emberiség utolsó vizsgája (Humanity’s Last Exam) névre keresztelt új mérce több mint 100 témakört és 2500 gondosan összeállított kérdést tartalmaz, amelyek megválaszolásában több mint 1000 szakértő segített 50 országból. Itt már nem elég egy gyors keresés a weben, minden válasz egyértelmű, pontos és nem visszakereshető az interneten – kizárva, hogy a tanuló algoritmusok már eleve tudják a helyes választ.

A vizsga során az MI-knek többek között a görög mitológiától kezdve a haladó fizikáig sokféle területen kell helytállniuk: például ki volt Iaszón anyai dédapja, vagy milyen viszonyban vannak a különböző erők egy súrlódásmentes sínen mozgó test esetén? Minden kérdést olyan szintre hoztak fel, amely doktori szinten is megállná a helyét.

Meddig jutottak el a legokosabb gépek?

A fejlesztők az OpenAI GPT-4o-t és o1-et, a Google Gemini 1.5 Pro-t, a Claude 3.5 Sonnetet és a DeepSeek R1-et is próbára tették. A januári induláskor az OpenAI o1 modell érte el a legjobb eredményt 8,3%-kal. 2026 februárjára a Google Gemini 3 Deep Think 48,4%-os pontszámot ért el – az emberi szakértők átlagosan 90% körül teljesítenek saját területükön.

A vizsgára 70 000 kérdésjavaslatot nyújtottak be a kutatók világszerte, amelyek közül 13 ezer fogott ki a legmodernebb nagynyelvű modelleken. Ezek közül szakértői bírálattal választották ki azt a 2500-at, amely tényleg minden szempontból méltó a kihívásra.

Mi számít valódi intelligenciának?

Bár a teszt az eddigieknél szélesebb körben és szigorúbb kritériumok mellett vizsgálja az MI-k képességeit, a kutatók szerint akár a 100%-os teljesítés sem bizonyítaná, hogy elértük a mesterséges általános intelligencia (AGI) szintjét. Egy sikeres vizsga igazolná, hogy az MI képes zárt végű, verifikálható tudományos kérdésekre helyesen válaszolni, de ez még nem jelenti, hogy önálló kutatásra is képes lenne vagy valódi intelligenciát mutatna.

A folytatás még ennél is izgalmasabb: miközben a gépek egyre okosabbak, lehet, hogy a legjelentősebb lépés még előttünk áll.

2025, adminboss, www.livescience.com alapján

Legfrissebb posztok

kedd 20:45

A Wall Street figyelmeztet: az emberi piac nem bírja a gépsebességű kereskedést

Wall Street és a kriptovilág vezetői egyre komolyabb kihívást látnak abban, hogy a modern pénzügyi piacok az emberi tempó helyett már éjjel-nappal gépek által vezérelt, automatizált rendszerekre támaszkodnak...

kedd 20:35

A Kaptár rendezője szerint Leon Kennedy hetvenévesen is visszatérhet

👷 Leon Kennedy visszatérése az A kaptár: Rekviem (Resident Evil: Requiem) ben minden rajongó számára örömteli pillanat volt...

kedd 20:23

Az illat, amely egy csapásra a középkorba ránt

🚬 Van, aki szívesen költene 70 ezer forintot egy olyan parfümre, amely egy sárban dagonyázó középkori főhős világát idézi meg?..

kedd 20:12

Az Edge szándékosan olvashatóan tárol jelszavakat – aranybánya közös gépeken

Érdemes megvizsgálni, hogy a Microsoft Edge böngészőjében tárolt jelszavak meglepően egyszerűen, olvasható formában jelenhetnek meg a számítógép memóriájában...

kedd 20:01

A Bank of America szerint többet kellene kérni a GTA 6-ért

A Grand Theft Auto-rajongók mostanában két nagy kérdésen pörögnek: vajon csúszik-e a GTA 6 megjelenése, és mennyibe fog kerülni a játék?..

kedd 19:56

A Solana felpörög, itt a Jito saját tárcás JTX-e

⚡ A Jito Labs egy vadonatúj, önőrizetű, tárcaalapú kereskedési platformot indított a Solana-hálózaton, amely villámgyors kereskedést és profi eszközöket kínál...

kedd 19:46

Az iráni háború drágít: egy eldugott kaliforniai megyében 7 dollár a benzin

Kaliforniában olyan üzemanyagárak tarolják le a benzinkutakat, amire az országban máshol sincs példa: egy távoli, vidéki megyében már 7 dollár (kb...

kedd 19:35

Az MI elbocsát, a Kongresszus tétlen – ki fog segíteni?

Amerikában egyre nő a bizonytalanság a munkahelyek jövőjét illetően, hiszen a mesterséges intelligencia térhódítása már nemcsak elméleti kérdés...

kedd 19:23

Az Arsenal–Atlético BL-elődöntő visszavágó: hol nézhető, beharangozó

A londoni Emirates Stadionban ma este minden adott egy igazi futballünnephez: az Arsenal rendkívül közel került a Premier League trófeájához, így a szurkolók körében igazi karneváli hangulat uralkodik...

kedd 19:12

Az Amazon e-mail szolgáltatásával elszabadult a tömeges adathalászat

Érdekes felvetés, hogy az Amazon egyik fontos szolgáltatása, a Simple Email Service a totális átverések célpontjává vált...

kedd 18:56

A Microsoft szerint a Windows 11 frissítések most furcsák, de rendben vannak

Az utóbbi hónapokban a Windows 11 felhasználók többsége meglepődve tapasztalhatta, hogy a szokásos havi frissítések nem egy, hanem akár két-három újraindítást is igényelnek...

kedd 18:45

A Coinbase a Centrifuge-re támaszkodik, részesedést is szerez

A Coinbase stratégiai partnerséget kötött a Centrifuge céggel, amely ezentúl a kriptoplatform alapértelmezett tokenizációs infrastruktúrája lesz...

kedd 18:34

A kriptó igazi értéke a szabályozáson kívül van – állítja Arthur Hayes

A Bitcoin valódi ereje abban rejlik, hogy teljesen kívül áll a pénzügyi szabályozásokon...

kedd 18:24

A búcsú és az új tulajdonosok: Letterman nekimegy a CBS-nek

👋 Míg az új tulajdonosok szemében a pénz a fő szempont, Letterman személyes és keserédes emlékeket idéz, és bírálja a csatorna döntéseit...

kedd 17:13

Az új Spotify-trükkök: zseniális ötletek és totális mellényúlások

Az elmúlt hetekben számos fejlesztéssel rukkolt elő a Spotify, de a platform láthatóan még mindig nem lassít, hiszen hamarosan két új funkcióval bővülhet a kínálat...

kedd 17:01

A Bitcoin fittyet hány a bizonytalanságokra: újra felfelé tör

💰 Fontos kérdés, hogy mennyire viseli meg a Bitcoin árfolyamát a világgazdasági bizonytalanság és az amerikai jegybanki kamatpolitika váratlan fordulata...

kedd 16:56

Az új Resident Evilben tényleg újjászületnek a vérfagyasztó zombik?

Az új Resident Evil: Requiem egyik legnagyobb vonzereje Leon Kennedy, ám a zombik is szinte ugyanilyen erővel vonzzák a rajongókat...

kedd 16:45

Az egyszemű óriás Matt Damonnal: a legek Odüsszeiája

Hadd ordítsam már bele a levegőbe, hogy Matt Damon ezúttal tényleg mindent belead!..

kedd 16:23

Az Airwrap túl drága? Íme a legjobb feleáras alternatívák

💰 A hajformázás világát teljesen felforgatta az Airwrap megjelenése: a forró hengerek helyett irányított légárammal formázta a hajat, így kímélve azt...

kedd 16:12

Az Andreessen Horowitz 800 milliárddal száll be a kriptóba

💸 Az Andreessen Horowitz (a16z) 2,2 milliárd dolláros, vagyis közel 800 milliárd forintos új kriptoalapot indított, hogy a következő tíz évben minden szakaszban segítse a blokklánc-startupokat...

kedd 16:02

A mesterséges intelligencia tényleg elveszi a fiatalok munkáját?

Az MIT kutatója, Andrew McAfee szerint súlyos hiba lenne a kezdő munkaköröket teljesen automatizálni MI-vel...

kedd 15:56

Az MI felforgatja a kriptovilágot: leépítésbe kezd a Coinbase

Érdekes fejlemény, hogy a kriptovaluta-ipar egyik legnagyobb szereplője jelentős létszámleépítéssel reagál a piaci kihívásokra és a mesterséges intelligencia térnyerésére...

kedd 15:45

Az OpenAI majdnem Freeman lett – Muskot a Half‑Life ihlette

Az OpenAI egyik korai, kevéssé ismert fejezete most újabb részletekkel bővült: Elon Musk komolyan fontolgatta, hogy a vállalat neve Freeman legyen, utalva a Felezési idő (Half-Life) videojáték tudós főhősére...

kedd 15:12

Az Nvidia Kína nélkül: stratégiai mesterhúzás vagy óriási öngól?

Az Nvidia teljesen elveszítette jelenlétét a kínai MI-chip­piacon, miután az amerikai exportkorlátozások életbe léptek...

kedd 15:01

Az angol óriásbank újabb milliárdos dobása a kriptófronton

💰 Érdekes felvetés, hogy a hagyományos pénzügyi óriások egyre magabiztosabban lépnek be a kriptopiacra...

kedd 14:56

Az év krimiszenzációja: összeérhetnek a Paradise-sorozatok?

Többek között évtizedek óta nem látott crossover-őrületre készülnek a BBC sikerszériái, és a Beyond Paradise negyedik évadának szereplői már teljes erőbedobással támogatják az ötletet...

kedd 14:45

A Bullish az Equiniti felvásárlásával új pénzügyi infrastruktúrát épít

💰 Jól illusztrálja a trendet, hogy a nagyobb kriptoplatformok már nem csupán a digitális pénzek cseréjére koncentrálnak, hanem egyre inkább a hagyományos tőzsdei háttérinfrastruktúra teljes körű átalakítására is...

kedd 14:24

Az eltűnt kanadai Emoji-tó nyomában: sosem látott katasztrófa

💧 Kanada egyik leglátványosabb tava, a Quebec tartományban található Lac Rouge, különös módon, néhány nap leforgása alatt teljesen eltűnt...

kedd 13:56

Az Apple Wallet tényleg hamarosan kiváltja a plasztikkártyákat?

💳 A közelgő iOS-frissítések számos hasznos újítást hoznak az iPhone-felhasználók mindennapjaiba. Az iOS 26...