MA 07:47

Az Ügynökök Utolsó Vizsgáján GPT-5.5 lenyomta a Claude Fable 5-öt

Az Ügynökök Utolsó Vizsgáján GPT-5.5 lenyomta a Claude Fable 5-öt
Tipikus eset, amikor egy friss nemzetközi kutatás valósággal földbe döngöli a legmenőbb MI-rendszerek státuszát: az Agents’ Last Exam (ALE) nevű új, kőkemény mérési benchmarkon a legjobb nagy nyelvi modellek is legfeljebb 24%-os teljesítményt produkáltak. A kihívást a Berkeley-i Egyetem kutatói dolgozták ki, több mint 300 iparági szakember közreműködésével, hogy kiderüljön: a mesterséges intelligencia készen áll-e valódi, GDP-t termelő, összetett szakmai munkafolyamatok elvégzésére.

A trónfosztás: GPT-5.5 lenyomja a Claude-ot

Az OpenAI GPT-5.5-je a Codex keretrendszeren keresztül, 24,0%-os átmenő aránnyal szerezte meg az első helyet, megelőzve az Anthropic vadonatúj, tegnap indított Claude Fable 5-jét, amely mindössze 22,0%-kal végzett. Lényeges hangsúlyozni, hogy a hagyományos kódolós feladványokat elfelejthetjük: az ALE azt méri, hogy egy ügynök képes-e összetett, több lépésből álló, valódi céges szituációkban helytállni, nem csak elméleti feladatokat megoldani. Még a legfejlettebb modellek is sorra elbuknak a vizsgán – különösen a legnehezebb szinteken, ahol például a Claude Opus 4.8 és a Google Gemini CLI lefagy – 0,0%-os sikeraránnyal.

Mi teszi ennyire keménnyé az ALE-t?

Az ALE új mércét állít: az értékelés már nem engedi a régi trükköket, ahol egy modell megkerülhette a nehézségeket. Korábban több MI-modell „csalt” is, például elrejtett válaszokat olvasott ki a feladatsorokból. Az ALE azonban kizárja ezeket a kiskapukat, és egy Generalista Számítógép-használó Ügynök (GCUA) keretrendszert követel meg, ahol az MI csak úgy boldogulhat, ha egyesíti a logikát, a vizuális érzékelést, az irányítást, az eszközhasználatot és a végrehajtást (Brain, Eyes, Body, Hands, Feet rétegek szerint). Az ügynököknek navigálniuk kell Linux- vagy Windows-virtuális gépeken, és egyaránt használniuk kell parancssori eszközöket, valamint grafikus programokat.

Emellett a megszokott, szubjektív szövegalapú értékelést szinte teljesen mellőzi: az esetek mindössze 6,8%-ában alkalmaznak LLM-alapú bírálatot, a többi feladatnál szigorúan objektív, kódalapú értékelés zajlik. Például egy 3D-objektum generálásánál a rendszer automatikusan hasonlítja össze az MI eredményét egy szakértő által készített referenciafeladattal.

Valódi munkafolyamatok alapján, 55 ágazatban tesztelnek

Az ALE jelenleg 1490 feladattal indult, de ez hamarosan eléri az 5000-es célt. Különlegessége, hogy minden munkafolyamat valódi szakemberek munkanaplóiból származik, életszerű helyzetek – például 3D tervezés Siemens NX-ben, jelenetépítés Unreal Engine-ben, neuroimaging FSLeyes-ben vagy vizuális effektek készítése Adobe After Effectsben. A kihívások három nehézségi szintre vannak osztva: Near-Term, Full-Spectrum és Last-Exam, utóbbin még a legnagyobb MI-óriások is rendre elvéreznek.


Friss eredmények és tartós biztonság

Az új top 5 így alakult:
1. Codex/GPT-5.5 (24,0%),
2. ALE Claw/GPT-5.5 (23,0%),
3. Claude Code/Claude Fable 5 (22,0%),
4. OpenClaw/GPT-5.5 (21,1%),
5. Cursor CLI/Composer 2.5 (20,4%).

Az OpenAI előnye abban mutatkozik, hogy modellje következetesebben teljesíti a több lépésből álló utasításokat, míg a Claude-architektúra hajlamos „elfelejteni” részfeladatokat – végzetes hiba ebben a rendszerben.

Hogyan védenek a tanulási csalások ellen?

A modern MI-tesztelés egyik nagy kérdése a benchmark-kontamináció: amikor a tesztkérdések szivárognak vissza a tréningadatokba, a modellek pusztán bemagolják a jó megoldást. Az ALE ezt úgy akadályozza meg, hogy csak az adatok 10%-át – kb. 150 feladatot – teszi közzé GitHubon és Hugging Face-en, a többi szigorúan zárt marad. Ezek folyamatosan cserélődnek, így minden új modell valódi vizsgán teljesít. Sőt, kétféle toplista készül: a „Full” változat a fizetős szoftvereket is beszámítja, míg az „Unlicensed” csak szabadon elérhető eszközökkel dolgozik.

Még a legjobbak is messze a céltól

Az ALE egyértelműen bizonyítja: a jelenlegi MI-csodák sem állnak készen a valódi, összetett szakmai munkára. Az összesítésben megdöbbentően alacsony, legfeljebb 24%-os átmenő arány jellemző, a legnehezebb feladatokon pedig szinte minden ügynök totális kudarcot vall. Míg a piacon milliárdokat öntenek MI-fejlesztésbe, ez a valóságos mérce végre tiszta képet ad: a hype mögött még rengeteg munka vár a fejlesztőkre, hogy az MI ne csak látványos demo, hanem megbízható, bevethető digitális munkaerő legyen.

2026, adminboss, venturebeat.com alapján

Legfrissebb posztok

MA 09:10

A kutatók mindössze 1500 dollárból tanítottak be egy alapmodellt a semmiből

A nagy nyelvi modellek (LLM-ek) fejlesztése eddig csak a leggazdagabb technológiai óriások privilégiuma volt, hiszen ezek betanítása brutális számítási kapacitást és világszintű adathalmazokat igényel...

MA 09:01

Az adatvédelem újra fókuszban: új token-szabványokat vizsgálnak az Ethereumon

Ami kezdetben ártalmatlannak tűnt, mára a blokklánc-technológia egyik legradikálisabb fordulatává vált: ismét a felhasználók adatvédelme került reflektorfénybe...

MA 08:48

Az első teljes vírusgenom kvantumszámítógépen: új korszak kezdődik

🚀 Történelmi pillanatnak lehetünk tanúi: először töltöttek fel teljes vírusgenomot egy kvantumszámítógépre, új távlatokat nyitva a biológiai kutatásokban...

MA 08:37

Az XRP 1,10 dollár fölött, szárnyalnak az ETF-beáramlások, mégis óvatosak a befektetők

Az XRP enyhén emelkedik, de továbbra is jelentős lemaradásban van a kriptopiac egészéhez képest...

MA 08:28

A bitcoin nem csak ETF-fronton szenved: a céges vétel elapadt

A bitcoin árfolyama néhány hét alatt közel 74 000 dollárról 60 000 dollár alá zuhant, és nemcsak az ETF-ekből menekülnek a befektetők...

MA 08:19

Az MI-re jön az FAA-szabályozás? Mit jelent a cégeknek?

Az MI fejlődése olyan tempót diktál, amire már nem lehet hagyományos módon reagálni...

MA 08:01

A BlackRock és a Fidelity uralják az amerikai bitcoin ETF-piacot

A bitcoin ETF-ek piaca teljesen átrendeződött az elmúlt másfél évben. A kezdeti hatalmas választék után mára két óriás, a BlackRock és a Fidelity szinte teljesen uralja a piacot az intézményi befektetők körében...

MA 07:56

A polgármester testvére perli Los Angelest a Palisades-tűz után

🔥 Érdemes megvizsgálni, milyen következményekkel jár, amikor egy súlyos tűzeset után még a polgármester családtagja is bepereli a várost, amelyet a saját testvére vezet...

MA 07:37

Az Xbox-vezér látta az Elder Scrolls 6-ot: lenyűgöző, jól halad

Nyolc év telt el azóta, hogy a Bethesda bejelentette a The Elder Scrolls 6 fejlesztését, amire a rajongók már régóta tűkön ülve várnak...

MA 07:28

A Valheim 1.0-ra várva próbáld ki ezt a hatalmas RPG-vé alakító térképet

🗺 Valheim világa már önmagában lenyűgöző, hiszen minden új kaland kezdete az ismeretlenbe vezet, ahol a természet, a vadállatok és megannyi kihívás vár...

MA 07:19

A japán holdrobot, amely történelmi fotót készített a felborult szondáról

A Hold felszínét bejáró intelligens japán robot 2024-ben száz percen át működött, miközben sorsdöntő fotókat készített arról, hogyan került oldalára, majd feje tetejére a leszállóegység...

MA 07:02

A nagy fordulat: Russell T Davies távozik – mi lesz a Dokival?

Fontos kérdés, hogy mi vár a Ki vagy, Doki? (Doctor Who) sorozat rajongóira, miután Russell T Davies, a legendás showrunner ismét búcsút intett a sorozatnak, ráadásul a Bad Wolf produkciós céggel együtt...

MA 06:49

Az áttörést ígérő rák-vérteszt megbukott a nagyszabású vizsgálaton

😞 A rák korai felismerését célzó innovatív tesztek már évekkel ezelőtt izgalomba hozták az orvostudományt: sokan remélték, hogy ezek segítségével egyszerű vérvétellel még idejében felfedezhető a legtöbb daganat...

MA 06:37

A Yellowstone-ból videojáték készülhet – apád kedvenc sorozata jön konzolra?

A Yellowstone (Yellowstone) körüli világ most új irányba bővül: videójáték-adaptáció készülhet a kultikus családi westernből...

MA 06:28

A MassMutual MI-stratégiája: 12 hónapos szerződések, 30%-os ugrás, nulla kötöttség

A MassMutual az MI-korszak gyors változásaira rugalmas és ötletes választ talált...

MA 06:21

Az Xbox mélyrepülése új fokozatba kapcsol: ingyen konzolok, leépítések

💥 A Microsoft fényűző Los Angeles-i bemutatóval indította a nyarat, ahol a közelgő játékcímekkel lelkesítette a közönséget: vadonatúj Halo, Gears of War-előzmény és egy friss, Senua főszereplésével készülő akciójáték is terítékre került...

MA 06:05

Történelmi események a mai napon (Június 11.)

Átívelve évszázadokon, ezen a napon felszabadult 80 ezer kínai fogoly, meghalt egy skót király, a szövetségesek nyomására trónváltás történt Görögországban, és az USA létfontosságú segítséget küldött a Szovjetuniónak a II...

szerda 20:55

A WSOP-on már Solanával is fizethető a nevezés

🃋 A Las Vegas-i World Series of Poker idei versenyén már digitális valutával, a Solanával is lehet nevezési díjat fizetni...

szerda 20:34

A stadion Wi-Fi az igazi veszély: hétből tíz VB-szurkoló kockáztatja adatait

A közelgő 2026-os labdarúgó-világbajnokság apropóján milliók készülnek arra, hogy a stadionokban és környékükön közös élményeken osztozzanak – de nem zárható ki annak a lehetősége, hogy épp ez a lelkesedés teszi őket a digitális bűnözők célpontjaivá...

szerda 20:23

Az új Fable-ben nincs többé szarv vagy glória – mert újraalkothatod magad

💫 Fontos kérdés, mitől lesz igazán egyedi az érkező Mese (Fable) újraértelmezés, amely ezúttal szakít a régi játékokra jellemző, látványos erkölcsi skálákkal...

szerda 20:12

Az első amerikai szabálytervezet: a CFTC felrázza az előrejelző piacokat

Erre utal többek között az, hogy az Amerikai Árutőzsdei Kereskedelmi Bizottság (CFTC) nyilvánosságra hozta az első, előrejelző piacokat érintő szabályozási javaslatát, amely jelentős változást hozhat a sport- és politikai fogadások világában...

szerda 20:01

A végső frissítés: mind a 26 új katalizátor a Destiny 2-ben

⚡ A Destiny 2 végső nagy frissítése minden eddiginél izgalmasabbá varázsolja a fegyvereket...

szerda 19:56

A három pénisszel született férfi, aki halála után felajánlotta testét – orvosi rejtély

A brit egyetem orvostanhallgatóit különleges felfedezés várta, amikor egy 78 éves férfi holttestét boncolták: a férfi nem egy, hanem három pénisszel született...

szerda 19:45

Az atlanti hidegfolt a Golf-áramlat gyengülését jelzi

Az Atlanti-óceán északi részén, Grönland és Izland déli vizein egy furcsa, lehűlt terület jelent meg, amelyet évek óta vizsgálnak a kutatók...

szerda 19:34

Az otthoni iroda új királya: itt a Secretlab Atlas

💼 Fontos kérdés, hogyan tehetjük kényelmessé és praktikusabbá az otthoni munkavégzést. A Secretlab új széke pontosan ezt célozza: az Atlas egy kifejezetten otthoni irodába tervezett szék, amely a kényelmet és az egészséges tartást ötvözi...

szerda 19:23

A testben közvetlenül termel és juttat gyógyszert a génmódosított féreg

🐍 Genetikailag módosított fonálférgek forradalmasíthatják a gyógyszerbevitelt, miután a kutatóknak sikerült olyan horogférget alkotniuk, amely képes létfontosságú antitoxint termelni az élő szervezetben...

szerda 19:12

A Logitech új, összehajtható egere saját hordtáskával érkezik

🖱 A hordozható eszközök forradalma újabb meglepetéssel bővült: a Logitech megalkotta az első összecsukható gamer egeret...

szerda 19:01

A kvantumóra ketyeg: a veszély a Bitcoint fenyegeti, nem az Ethereumot

⌛ Különösen említést érdemel, hogy az utóbbi hónapokban új lendületet kapott a digitális eszközök biztonsági kockázatainak vizsgálata...

szerda 18:44

A CoinDesk 20 esik 1,4%-ot, minden tag mínuszban

📉 A piac egészét rövid idő alatt pirosba borította az eladási hullám, a CoinDesk 20 indexe pedig 1,4%-kal, 1663,81 pontra csökkent a kedd délutáni állapothoz képest...