
A trónfosztás: GPT-5.5 lenyomja a Claude-ot
Az OpenAI GPT-5.5-je a Codex keretrendszeren keresztül, 24,0%-os átmenő aránnyal szerezte meg az első helyet, megelőzve az Anthropic vadonatúj, tegnap indított Claude Fable 5-jét, amely mindössze 22,0%-kal végzett. Lényeges hangsúlyozni, hogy a hagyományos kódolós feladványokat elfelejthetjük: az ALE azt méri, hogy egy ügynök képes-e összetett, több lépésből álló, valódi céges szituációkban helytállni, nem csak elméleti feladatokat megoldani. Még a legfejlettebb modellek is sorra elbuknak a vizsgán – különösen a legnehezebb szinteken, ahol például a Claude Opus 4.8 és a Google Gemini CLI lefagy – 0,0%-os sikeraránnyal.
Mi teszi ennyire keménnyé az ALE-t?
Az ALE új mércét állít: az értékelés már nem engedi a régi trükköket, ahol egy modell megkerülhette a nehézségeket. Korábban több MI-modell „csalt” is, például elrejtett válaszokat olvasott ki a feladatsorokból. Az ALE azonban kizárja ezeket a kiskapukat, és egy Generalista Számítógép-használó Ügynök (GCUA) keretrendszert követel meg, ahol az MI csak úgy boldogulhat, ha egyesíti a logikát, a vizuális érzékelést, az irányítást, az eszközhasználatot és a végrehajtást (Brain, Eyes, Body, Hands, Feet rétegek szerint). Az ügynököknek navigálniuk kell Linux- vagy Windows-virtuális gépeken, és egyaránt használniuk kell parancssori eszközöket, valamint grafikus programokat.
Emellett a megszokott, szubjektív szövegalapú értékelést szinte teljesen mellőzi: az esetek mindössze 6,8%-ában alkalmaznak LLM-alapú bírálatot, a többi feladatnál szigorúan objektív, kódalapú értékelés zajlik. Például egy 3D-objektum generálásánál a rendszer automatikusan hasonlítja össze az MI eredményét egy szakértő által készített referenciafeladattal.
Valódi munkafolyamatok alapján, 55 ágazatban tesztelnek
Az ALE jelenleg 1490 feladattal indult, de ez hamarosan eléri az 5000-es célt. Különlegessége, hogy minden munkafolyamat valódi szakemberek munkanaplóiból származik, életszerű helyzetek – például 3D tervezés Siemens NX-ben, jelenetépítés Unreal Engine-ben, neuroimaging FSLeyes-ben vagy vizuális effektek készítése Adobe After Effectsben. A kihívások három nehézségi szintre vannak osztva: Near-Term, Full-Spectrum és Last-Exam, utóbbin még a legnagyobb MI-óriások is rendre elvéreznek.
Friss eredmények és tartós biztonság
Az új top 5 így alakult:
1. Codex/GPT-5.5 (24,0%),
2. ALE Claw/GPT-5.5 (23,0%),
3. Claude Code/Claude Fable 5 (22,0%),
4. OpenClaw/GPT-5.5 (21,1%),
5. Cursor CLI/Composer 2.5 (20,4%).
Az OpenAI előnye abban mutatkozik, hogy modellje következetesebben teljesíti a több lépésből álló utasításokat, míg a Claude-architektúra hajlamos „elfelejteni” részfeladatokat – végzetes hiba ebben a rendszerben.
Hogyan védenek a tanulási csalások ellen?
A modern MI-tesztelés egyik nagy kérdése a benchmark-kontamináció: amikor a tesztkérdések szivárognak vissza a tréningadatokba, a modellek pusztán bemagolják a jó megoldást. Az ALE ezt úgy akadályozza meg, hogy csak az adatok 10%-át – kb. 150 feladatot – teszi közzé GitHubon és Hugging Face-en, a többi szigorúan zárt marad. Ezek folyamatosan cserélődnek, így minden új modell valódi vizsgán teljesít. Sőt, kétféle toplista készül: a „Full” változat a fizetős szoftvereket is beszámítja, míg az „Unlicensed” csak szabadon elérhető eszközökkel dolgozik.
Még a legjobbak is messze a céltól
Az ALE egyértelműen bizonyítja: a jelenlegi MI-csodák sem állnak készen a valódi, összetett szakmai munkára. Az összesítésben megdöbbentően alacsony, legfeljebb 24%-os átmenő arány jellemző, a legnehezebb feladatokon pedig szinte minden ügynök totális kudarcot vall. Míg a piacon milliárdokat öntenek MI-fejlesztésbe, ez a valóságos mérce végre tiszta képet ad: a hype mögött még rengeteg munka vár a fejlesztőkre, hogy az MI ne csak látványos demo, hanem megbízható, bevethető digitális munkaerő legyen.
