2026. 06. 11., 07:47

Az Ügynökök Utolsó Vizsgáján GPT-5.5 lenyomta a Claude Fable 5-öt

Tipikus eset, amikor egy friss nemzetközi kutatás valósággal földbe döngöli a legmenőbb MI-rendszerek státuszát: az Agents’ Last Exam (ALE) nevű új, kőkemény mérési benchmarkon a legjobb nagy nyelvi modellek is legfeljebb 24%-os teljesítményt produkáltak. A kihívást a Berkeley-i Egyetem kutatói dolgozták ki, több mint 300 iparági szakember közreműködésével, hogy kiderüljön: a mesterséges intelligencia készen áll-e valódi, GDP-t termelő, összetett szakmai munkafolyamatok elvégzésére.

A trónfosztás: GPT-5.5 lenyomja a Claude-ot

Az OpenAI GPT-5.5-je a Codex keretrendszeren keresztül, 24,0%-os átmenő aránnyal szerezte meg az első helyet, megelőzve az Anthropic vadonatúj, tegnap indított Claude Fable 5-jét, amely mindössze 22,0%-kal végzett. Lényeges hangsúlyozni, hogy a hagyományos kódolós feladványokat elfelejthetjük: az ALE azt méri, hogy egy ügynök képes-e összetett, több lépésből álló, valódi céges szituációkban helytállni, nem csak elméleti feladatokat megoldani. Még a legfejlettebb modellek is sorra elbuknak a vizsgán – különösen a legnehezebb szinteken, ahol például a Claude Opus 4.8 és a Google Gemini CLI lefagy – 0,0%-os sikeraránnyal.

Mi teszi ennyire keménnyé az ALE-t?

Az ALE új mércét állít: az értékelés már nem engedi a régi trükköket, ahol egy modell megkerülhette a nehézségeket. Korábban több MI-modell „csalt” is, például elrejtett válaszokat olvasott ki a feladatsorokból. Az ALE azonban kizárja ezeket a kiskapukat, és egy Generalista Számítógép-használó Ügynök (GCUA) keretrendszert követel meg, ahol az MI csak úgy boldogulhat, ha egyesíti a logikát, a vizuális érzékelést, az irányítást, az eszközhasználatot és a végrehajtást (Brain, Eyes, Body, Hands, Feet rétegek szerint). Az ügynököknek navigálniuk kell Linux- vagy Windows-virtuális gépeken, és egyaránt használniuk kell parancssori eszközöket, valamint grafikus programokat.

Emellett a megszokott, szubjektív szövegalapú értékelést szinte teljesen mellőzi: az esetek mindössze 6,8%-ában alkalmaznak LLM-alapú bírálatot, a többi feladatnál szigorúan objektív, kódalapú értékelés zajlik. Például egy 3D-objektum generálásánál a rendszer automatikusan hasonlítja össze az MI eredményét egy szakértő által készített referenciafeladattal.

Valódi munkafolyamatok alapján, 55 ágazatban tesztelnek

Az ALE jelenleg 1490 feladattal indult, de ez hamarosan eléri az 5000-es célt. Különlegessége, hogy minden munkafolyamat valódi szakemberek munkanaplóiból származik, életszerű helyzetek – például 3D tervezés Siemens NX-ben, jelenetépítés Unreal Engine-ben, neuroimaging FSLeyes-ben vagy vizuális effektek készítése Adobe After Effectsben. A kihívások három nehézségi szintre vannak osztva: Near-Term, Full-Spectrum és Last-Exam, utóbbin még a legnagyobb MI-óriások is rendre elvéreznek.

Friss eredmények és tartós biztonság

Az új top 5 így alakult:
1. Codex/GPT-5.5 (24,0%),
2. ALE Claw/GPT-5.5 (23,0%),
3. Claude Code/Claude Fable 5 (22,0%),
4. OpenClaw/GPT-5.5 (21,1%),
5. Cursor CLI/Composer 2.5 (20,4%).

Az OpenAI előnye abban mutatkozik, hogy modellje következetesebben teljesíti a több lépésből álló utasításokat, míg a Claude-architektúra hajlamos „elfelejteni” részfeladatokat – végzetes hiba ebben a rendszerben.

Hogyan védenek a tanulási csalások ellen?

A modern MI-tesztelés egyik nagy kérdése a benchmark-kontamináció: amikor a tesztkérdések szivárognak vissza a tréningadatokba, a modellek pusztán bemagolják a jó megoldást. Az ALE ezt úgy akadályozza meg, hogy csak az adatok 10%-át – kb. 150 feladatot – teszi közzé GitHubon és Hugging Face-en, a többi szigorúan zárt marad. Ezek folyamatosan cserélődnek, így minden új modell valódi vizsgán teljesít. Sőt, kétféle toplista készül: a „Full” változat a fizetős szoftvereket is beszámítja, míg az „Unlicensed” csak szabadon elérhető eszközökkel dolgozik.

Még a legjobbak is messze a céltól

Az ALE egyértelműen bizonyítja: a jelenlegi MI-csodák sem állnak készen a valódi, összetett szakmai munkára. Az összesítésben megdöbbentően alacsony, legfeljebb 24%-os átmenő arány jellemző, a legnehezebb feladatokon pedig szinte minden ügynök totális kudarcot vall. Míg a piacon milliárdokat öntenek MI-fejlesztésbe, ez a valóságos mérce végre tiszta képet ad: a hype mögött még rengeteg munka vár a fejlesztőkre, hogy az MI ne csak látványos demo, hanem megbízható, bevethető digitális munkaerő legyen.

2026, adminboss, venturebeat.com alapján

Legfrissebb posztok

A Microsoft kibocsátása 25%-kal nőtt – a neheze még hátravan

Tudomány

MA 09:49

A Microsoft kibocsátása 25%-kal nőtt – a neheze még hátravan

💨 A Microsoft károsanyag-kibocsátása tavaly 25%-kal nőtt, ami főleg az adatközpontok gyors terjeszkedésének köszönhető...

Az adataid a telefonodon maradnak: a Google új AI-dobása a Pixelen

MI Hírek

MA 09:37

Az adataid a telefonodon maradnak: a Google új AI-dobása a Pixelen

📱 A Google ismét újat mutat a Pixel okostelefonok világában – mostantól az eszközökön futó mesterséges intelligencia még erősebbé teszi a mobilokat, úgy, hogy közben védi a felhasználók adatait...

APP

MA 09:11

APPok, Amik Ingyenesek MA, 7/15

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás egyszerű és gyors megoldást kínál két dátum közötti napok kiszámítására...

Az északkeleti levegő veszélyes: minnesotai erdőtüzek szennyezik

Színes

MA 09:01

Az északkeleti levegő veszélyes: minnesotai erdőtüzek szennyezik

Az Észak-Minnesotában pusztító erdőtüzek füstje hamarosan elérheti az Egyesült Államok északkeleti nagyvárosait, többek között Detroitot, Milwaukee-t, Clevelandet, Philadelphiát és New Yorkot...

Az első szintetikus sejt: tényleg megszületett a mesterséges élet?

Tudomány

MA 08:49

Az első szintetikus sejt: tényleg megszületett a mesterséges élet?

A Minnesotai Egyetem laboratóriumában újszerű biológiai eredmény született: egy aprócska SpudCell nevű képződmény képes táplálkozni, növekedni, versengeni, osztódni és lemásolni önmagát – vagyis szinte mindent tud, amit egy élő sejt is...

MI Hírek

MA 08:36

Az új Google Képek Pinterest-szerű, felfedezésre kihegyezett átalakítást kapott

A Google Képek (Google Images) megújult külsőt kapott: mostantól személyre szabott galériákat kínál a felhasználóknak, így még könnyebben fedezhetik fel az őket érdeklő képeket...

MI Hírek

MA 08:12

A Google DeepMind az USA-t tenné az MI-szabványok élére

A Google DeepMind vezére, Demis Hassabis szerint az új generációs mesterséges intelligencia egyre komolyabb veszélyeket rejt magában, például a kiberbiztonság és a biológiai fenyegetések terén...

Tudomány

MA 08:01

Az új Alzheimer-gyógyszer felforgatja a megszokott kezeléseket

💊 Fontos kérdés, hogy meg lehet-e állítani vagy lassítani az Alzheimer-kór lefolyását, hiszen a demencia legfőbb oka, az Alzheimer-kór, világszerte rengeteg embert érint...

Tudomány

MA 07:49

Az űrben tovább tart az amerikai–orosz űrhajósok összefogása

🚀 Sikeresen megérkezett kedden a Nemzetközi Űrállomásra egy amerikai–orosz személyzet, miután a kazahsztáni Bajkonurból indultak a Roszkoszmosz által üzemeltetett Szojuz MS-29 fedélzetén...

A Microsoft Secure Bootja tíz éve lyukas, észre sem vették

Tudomány

MA 07:37

A Microsoft Secure Bootja tíz éve lyukas, észre sem vették

🔒 Az informatika egyik legfontosabb biztonsági eleme, a Secure Boot, már csaknem tíz éve lényegében védtelenné vált – és ezt eddig senki sem vette észre...

A csípős paprika növelheti egy halálos rák kockázatát?

Tudomány

MA 07:24

A csípős paprika növelheti egy halálos rák kockázatát?

Bár a csípős paprika számos kultúra elválaszthatatlan része, és egyes laboratóriumi kísérletek a bennük található vegyületeket, például a kapszaicint gyulladáscsökkentőnek vagy akár daganatellenesnek mutatják, az utóbbi évek humán kutatásai nem ennyire egyértelműek...

Az Artemis II: „Furcsán nézett ki a Hold” 250 ezer mérföldről

Tudomány

MA 07:02

Az Artemis II: „Furcsán nézett ki a Hold” 250 ezer mérföldről

Április 6-án négy űrhajós indult el az Artemis II misszió keretében az Orion űrhajóval, és körülbelül 40 percig teljesen eltűntek a Föld látóteréből...

A Microsoft rekordméretű javításözöne: 570 hiba és 3 zero-day

Színes

MA 06:38

A Microsoft rekordméretű javításözöne: 570 hiba és 3 zero-day

🔧 Szinte példátlanul nagy frissítési csomagot adott ki a Microsoft a 2026...

MI Hírek

MA 06:25

A volt dolgozók részrehajló MI-t sejtenek a leépítések mögött – perelik a Metát

💼 Májusban a Meta megvált dolgozóinak 10 százalékától, közel 8 000 alkalmazottat küldött el, ami jelentős átszervezéssel járt a vállalat MI-re és adatközpontokra irányuló fejlesztései miatt...

HistoryToday

MA 06:05

Történelmi események a mai napon (Július 15.)

Időutazás egyetlen napon: Jeruzsálem falainak áttörésétől 🏰 a Rosetta-kő 🗿 megtalálásán és Napoleon 🚢 megadásán át a Grunwaldnál vívott döntő ütközetig ⚔️, sőt a modern korszakban a törökországi puccskísérletig 🇹🇷 és a Mozilla alapításáig 🦊...

Az Ozempic és a Wegovy tényleg lassíthatják a biológiai öregedést?

Tudomány

kedd 18:31

Az Ozempic és a Wegovy tényleg lassíthatják a biológiai öregedést?

Tipikus eset, amikor egy ismert gyógyszer egészen váratlan előnyöket kínál. A GLP-1 típusú szerek, mint az Ozempic, a Wegovy vagy a Rybelsus, eredetileg a fogyás, a jobb vércukorszint-szabályozás és a szívbetegségek kockázatának csökkentése miatt váltak népszerűvé...

Tudomány

kedd 17:30

Az indiai tudósok megalkották az emberi agytörzs eddigi legrészletesebb 3D-atlaszát

Indiai kutatók a világ eddigi legrészletesebb, háromdimenziós agytörzs-atlaszát hozták létre, amelyben MRI-felvételeket több mint 500 mikroszkópos szövetrészlettel kapcsoltak össze...

Tudomány

kedd 17:01

A Tejútrendszer mélyén cukrot találtak a kutatók

Többek között különleges eredményre jutottak a kutatók: a Tejútrendszer középpontjához közel egy óriási gázfelhőben felfedeztek egy ritka cukorfélét, az eritrózt, amely nemcsak málnában, hanem barnító krémekben is megtalálható...

Az IBM 23%-ot zuhant a második negyedéves profitfigyelmeztetés után

Kriptó

kedd 16:01

Az IBM 23%-ot zuhant a második negyedéves profitfigyelmeztetés után

Ami kezdetben ártalmatlannak tűnt, végül az IBM történetének egyik legsötétebb napjához vezetett a tőzsdén...

A NASA Perseverance-je célba ért: megvan a marsi maraton

Tudomány

kedd 15:01

A NASA Perseverance-je célba ért: megvan a marsi maraton

🚀 Történelmi teljesítmény született a Marson: a Perseverance marsjáró öt év és négy hónap után elérte a 42,195 kilométeres maratoni távot...

Színes

kedd 12:01

A régi T‑Mobile-csomagoknak vége: kényszerváltás már ezen a héten

Ami kezdetben ártalmatlannak tűnt, most minden régi T-Mobile-előfizető számára valódi változás: a társaság e héttől kezdve automatikusan átsorolja a 10–15 éves tarifákat – például a Simple Choice, T-Mobile One, One Plus, a Magenta családhoz tartozó, valamint a Sprintből áthozott régi csomagokat – modernebb tarifákra...

Az inflációs adat előtt megroggyan a Bitcoin

Kriptó

kedd 11:31

Az inflációs adat előtt megroggyan a Bitcoin

A legnagyobb kriptovaluták teljesítménye az elmúlt 24 órában jelentősen visszaesett, miután egyre többen valószínűsítik, hogy az amerikai jegybank akár már júliusban kamatemelés mellett dönt...

Az analóg fotózás visszatér: a fiatalok újra tekercsre lőnek

Színes

kedd 11:02

Az analóg fotózás visszatér: a fiatalok újra tekercsre lőnek

Az elmúlt pár évben váratlan fordulat történt a fotózás világában: a fiatal generáció újra felfedezte a filmes fényképezőgépeket...

MI Hírek

kedd 10:49

A Turing-mítosz vége: lehet, hogy tévedett a mesterséges intelligenciáról?

🤔 A mesterséges intelligencia kutatása 75 éve követi Alan Turing útmutatását, aki két alapvető feltételezést tett: az intelligencia létrehozható szoftverből, függetlenül a testtől, és hogy egy gép intelligensnek számít, ha sikerrel utánozni tudja az embert, például egy beszélgetés során...

MI Hírek

kedd 10:37

Az MI átírja a marketinget: a régi szabályoknak befellegzett

💡 A Fortune 500 cégek vezető marketingesei kénytelenek szembenézni azzal a ténnyel, hogy a korábbi, jól bevált módszerek egyszerűen elavultak...

A júliusi Google-frissítés felturbózza a Play Áruházat, Wear OS-t és a Térképet

Színes

kedd 10:25

A júliusi Google-frissítés felturbózza a Play Áruházat, Wear OS-t és a Térképet

🚀 A legújabb Google System-frissítés idén nyáron ismét ráncfelvarrást hoz az Android-felhasználóknak...

Színes

kedd 10:01

Végre itt a hideg vízzel elkészíthető Cup Noodles!

🍹 Lényeges szempont, hogy az instant tészták villámgyors megoldást kínálnak, legyen szó egyetemista vacsoráról vagy gyors munkahelyi ebédről...

A Pixel frissítése végre kézre álló csengőhang-, ébresztő- és értesítéskezelést ad

Színes

kedd 09:48

A Pixel frissítése végre kézre álló csengőhang-, ébresztő- és értesítéskezelést ad

A Google a Pixel telefonokon jelentősen megkönnyíti a csengőhangok, az ébresztők és az értesítések hangerejének szabályozását...

Színes

kedd 09:37

A legnagyobb japán taxitársaság leállította rendszereit kibertámadás után

Felmerül a kérdés, hogy mi történik egy nagyvállalattal, ha leáll a teljes informatikai rendszere?..