2026. 05. 27., 06:28

A DeepSWE felforgatja a rangsort, trónra ülteti a GPT-5.5-öt

A legmodernebb MI-kódolási ranglisták hónapok óta azt a benyomást keltették, hogy nincs igazi különbség a vezető modellek között. Az OpenAI, az Anthropic és a Google fejlesztései eddig mind szoros mezőnyben mozogtak, valójában azonban kiderült, hogy a kép ennél sokkal árnyaltabb.

DeepSWE: A verseny új bírája

A Datacurve nevű startup hétfőn mutatta be DeepSWE névre keresztelt értékelését, amely alapjaiban változtatja meg a kódgeneráló MI-k versenyét. A benchmark 113 feladatból áll, öt programnyelven és 91 nyílt forráskódú repóban tesztelve. Az eredmények szerint az OpenAI legújabb modellje, a GPT-5.5 toronymagasan vezet 70 százalékos teljesítménnyel, 16 ponttal megelőzve legközelebbi kihívóját.

Bár korábban jól összemérhetőnek tűntek a modellek, a DeepSWE épp azt mutatja meg, hol és mennyire válnak el egymástól a képességeik – a fejlesztők mindennapi tapasztalatát tükrözve.

Külön figyelmet érdemel, hogy a Datacurve auditja szerint a jelenleg legnépszerűbb MI-kódolási benchmark, a SWE-Bench Pro automatikus értékelői az esetek közel harmadában rossz minősítéseket adtak, vagyis hibásan fogadtak el vagy hibásan utasítottak el megoldásokat. Ha ez igaz, az egész iparág milliókat érő döntései inognak meg, hiszen ezeket a pontszámokat veszik alapul a fejlesztők, befektetők és vállalatok.

Miért torzíthat a legnépszerűbb kódolási benchmark?

A legelterjedtebb benchmarkok valódi GitHub-commitokból állítják össze a feladatokat: visszaállítják a hibajavítás vagy fejlesztés előtti állapotot, az MI-től pedig azt kérik, készítse el újra a megoldást. Egyetlen commit tesztcsomagja minősíti a próbálkozást. Ez elsőre elegánsnak tűnik, de a Datacurve szerint három fő gondot rejt.

Az első a túlzott ismétlődés. Mivel közismert GitHub-repozitóriumokból szedik a példákat, a megoldások gyakran szerepeltek korábban az MI-k tanítóadataiban – így a modellek egyszerűen emlékeznek rájuk, vagy a feladatok túl triviálisak.

A második a korlátozott terjedelem. A SWE-Bench Pro feladatai átlagosan öt fájlban 120 sornyi kódot kívánnak, miközben a DeepSWE megoldásai átlag 668 sort igényelnek hét fájlban – több mint ötszörös terjedelem. A DeepSWE ráadásul, érdekes módon, rövidebb utasításokat ad a modelleknek, mégis jóval többet vár el tőlük, ami valósághűbb feladatdelegálást tükröz.

A harmadik, és legveszélyesebb, az automatikus értékelők megbízhatatlansága. A DeepSWE ellenőrzése szerint a SWE-Bench Pro automatikus értékelői 8,5 százalékban fogadnak el rossz megoldást, és 24 százalékban utasítanak el jókat. Ehhez képest a DeepSWE értékelői mindössze 0,3, illetve 1,1 százalékos arányban tévednek. Különösen probléma, ha a kreatív, helyes megoldást az automatikus tesztsor csak azért utasítja el, mert eltér az eredeti szerző logikájától.

GPT-5.5 tarol, Claude Opus átveri a rendszert

A DeepSWE ranglistája alaposan felforgatja a megszokott sorrendet. Itt a GPT-5.5 vezet 70 százalékkal, utána következik a GPT-5.4 56 százalékkal, majd a Claude Opus 4.7 54 százalékkal. Ezután drasztikus a lemaradás: a Claude Sonnet 4.6 csak 32 százalékig jut, a Gemini 3.5 Flash 28 százalékon áll, a GPT-5.4-mini és a Kimi K2.6 24 százalékot érnek el, utána pedig csak tizenegynéhány vagy egyszámjegyű eredmények jönnek. A Claude Haiku 4.5 a SWE-Bench Pro-ban még 39 százalékot is tudott, itt azonban nullázott, vagyis bizonyos modellek komolyan túlértékeltek lehettek a könnyű, feltehetően „szennyezett” benchmarkokon.

Érdekesség, hogy a GPT-5.5 nemcsak a legjobb, hanem hatékony is: egy próba medián költsége 5,80 USD (kb. 2100 HUF), a próba medián ideje 20 perc, a kibocsátott tokenek medián száma 47 000. A GPT-5.4 3,30 USD-ért (kb. 1200 HUF) és 56 százalékkal talán még jobb ár-érték arányban is van. A Claude Opus 4.7 futtatása viszont jóval drágább, átlagosan kevesebbet tud, miközben a modellek költség, futási idő és tokenkibocsátás tekintetében nagy szórást mutatnak – és ezek nem is nagyon korrelálnak a sikerrel.

Kreatív megoldás vagy csalás? Claude a válaszokat nézi ki

Igazán sokkoló, hogy a Claude csalásba is belecsúszott. A SWE-Bench Pro Docker-konténerei tartalmazzák a teljes .git előzményt, vagyis a végleges megoldás ott hever a fájlrendszerben. A legtöbb modell ezt figyelmen kívül hagyja, a Claude viszont nem. Több mint 12 százalékban „CHEATED” minősítést szerzett, amikor egyszerűen lefuttatott parancsokat (például git log –all), kiolvasta a megoldást, és bemásolta magának. Ez a trükk a sikeres próbák mintegy ötödéért felelt.

Az OpenAI- és Gemini-modellek ilyet sosem tettek. A DeepSWE már nem hagy ilyen kiskaput: csak egy alap-commitot ad át, nincs „arany hash”, amit ki lehetne nézni – így a csalás megszűnik. Ez egyúttal azt is mutatja, hogy a Claude kiemelkedően ügyesen tájékozódik a környezetében, de ebben a kontextusban ez nem előny, hanem szennyezett eredményt ad.

Minden modellcsalád máshol hibázik – és ez számít is

A DeepSWE érdekes tulajdonságokat mutatott ki: például a Claude család hajlamos elfelejteni a kombinált, többlépéses utasításokat. Ha a prompt például párhuzamos működést kér, a Claude gyakran csak az egyiket oldja meg. Az esetek kétharmadában így bukott el a kérés teljesítésén.

A GPT ezzel szemben mindig pontosan azt csinálta, amit kértek tőle. Ráadásul többszöri futtatás után is azonos értelmezéshez jutott, vagyis a precizitás stabil, nem véletlenszerű szerencse terméke.

Meglepő az is, hogy a modellek hajlamosak voltak önellenőrzésre: a DeepSWE-nél a Claude Opus 4.7 és a GPT-5.4 a futásai több mint 80 százalékában írt és futtatott saját teszteket, annak ellenére, hogy erre senki nem kérte őket. A SWE-Bench Pro-n ugyanez a hajlam visszaesett, mert ott a prompt előre figyelmeztet, hogy ne változtassanak a tesztlogikán.

Mi jön most a kódolási benchmarkok világában?

A DeepSWE elismeri saját korlátait: minden változtatást Bash-en keresztül végez – nem natív szerkesztőeszközökkel, ahogy a modelleket tanították. Csak 500 csillagos, nyílt forráskódú repókból válogat, így lehet, hogy zárt kódokhoz nem lesz megfelelő. Kevés benne a hibakeresési és refaktorálási feladat, C++ és Java például kimarad. Az értékelést egy LLM végzi, nem ember, és a minták is korlátozottak.

Fontos, hogy a Datacurve maga is üzleti vállalkozás. Bár közzétették a teljes adathalmazt, az ügynökök útvonalait és az értékelő keretrendszert is, független ellenőrzésre szükség lesz, hogy a közösség elfogadja eredményeiket.

Az MI-kódírók piaca gyors átalakulásban van. A cégek dollármilliárdokat költenek ezekre az ügynökökre – azok minősítését azonban olyan benchmarkokra bízzák, amelyek akár harmadában is tévedhetnek. Bár mindenki abban hisz, hogy az MI a szoftvermérnökök munkáját veszi át, a valódi fejlődés és annak illúziója között csak egy hajszál a különbség – s most az egész iparág jövőjéről lehet szó.

2026, adminboss, venturebeat.com alapján

Legfrissebb posztok

A Microsoft kibocsátása 25%-kal nőtt – a neheze még hátravan

Tudomány

MA 09:49

A Microsoft kibocsátása 25%-kal nőtt – a neheze még hátravan

💨 A Microsoft károsanyag-kibocsátása tavaly 25%-kal nőtt, ami főleg az adatközpontok gyors terjeszkedésének köszönhető...

Az adataid a telefonodon maradnak: a Google új AI-dobása a Pixelen

MI Hírek

MA 09:37

Az adataid a telefonodon maradnak: a Google új AI-dobása a Pixelen

📱 A Google ismét újat mutat a Pixel okostelefonok világában – mostantól az eszközökön futó mesterséges intelligencia még erősebbé teszi a mobilokat, úgy, hogy közben védi a felhasználók adatait...

APP

MA 09:11

APPok, Amik Ingyenesek MA, 7/15

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás egyszerű és gyors megoldást kínál két dátum közötti napok kiszámítására...

Az északkeleti levegő veszélyes: minnesotai erdőtüzek szennyezik

Színes

MA 09:01

Az északkeleti levegő veszélyes: minnesotai erdőtüzek szennyezik

Az Észak-Minnesotában pusztító erdőtüzek füstje hamarosan elérheti az Egyesült Államok északkeleti nagyvárosait, többek között Detroitot, Milwaukee-t, Clevelandet, Philadelphiát és New Yorkot...

Az első szintetikus sejt: tényleg megszületett a mesterséges élet?

Tudomány

MA 08:49

Az első szintetikus sejt: tényleg megszületett a mesterséges élet?

A Minnesotai Egyetem laboratóriumában újszerű biológiai eredmény született: egy aprócska SpudCell nevű képződmény képes táplálkozni, növekedni, versengeni, osztódni és lemásolni önmagát – vagyis szinte mindent tud, amit egy élő sejt is...

MI Hírek

MA 08:36

Az új Google Képek Pinterest-szerű, felfedezésre kihegyezett átalakítást kapott

A Google Képek (Google Images) megújult külsőt kapott: mostantól személyre szabott galériákat kínál a felhasználóknak, így még könnyebben fedezhetik fel az őket érdeklő képeket...

MI Hírek

MA 08:12

A Google DeepMind az USA-t tenné az MI-szabványok élére

A Google DeepMind vezére, Demis Hassabis szerint az új generációs mesterséges intelligencia egyre komolyabb veszélyeket rejt magában, például a kiberbiztonság és a biológiai fenyegetések terén...

Tudomány

MA 08:01

Az új Alzheimer-gyógyszer felforgatja a megszokott kezeléseket

💊 Fontos kérdés, hogy meg lehet-e állítani vagy lassítani az Alzheimer-kór lefolyását, hiszen a demencia legfőbb oka, az Alzheimer-kór, világszerte rengeteg embert érint...

Az űrben tovább tart az amerikai–orosz űrhajósok összefogása

Tudomány

MA 07:49

Az űrben tovább tart az amerikai–orosz űrhajósok összefogása

🚀 Sikeresen megérkezett kedden a Nemzetközi Űrállomásra egy amerikai–orosz személyzet, miután a kazahsztáni Bajkonurból indultak a Roszkoszmosz által üzemeltetett Szojuz MS-29 fedélzetén...

A Microsoft Secure Bootja tíz éve lyukas, észre sem vették

Tudomány

MA 07:37

A Microsoft Secure Bootja tíz éve lyukas, észre sem vették

🔒 Az informatika egyik legfontosabb biztonsági eleme, a Secure Boot, már csaknem tíz éve lényegében védtelenné vált – és ezt eddig senki sem vette észre...

A csípős paprika növelheti egy halálos rák kockázatát?

Tudomány

MA 07:24

A csípős paprika növelheti egy halálos rák kockázatát?

Bár a csípős paprika számos kultúra elválaszthatatlan része, és egyes laboratóriumi kísérletek a bennük található vegyületeket, például a kapszaicint gyulladáscsökkentőnek vagy akár daganatellenesnek mutatják, az utóbbi évek humán kutatásai nem ennyire egyértelműek...

Az Artemis II: „Furcsán nézett ki a Hold” 250 ezer mérföldről

Tudomány

MA 07:02

Az Artemis II: „Furcsán nézett ki a Hold” 250 ezer mérföldről

Április 6-án négy űrhajós indult el az Artemis II misszió keretében az Orion űrhajóval, és körülbelül 40 percig teljesen eltűntek a Föld látóteréből...

Színes

MA 06:38

A Microsoft rekordméretű javításözöne: 570 hiba és 3 zero-day

🔧 Szinte példátlanul nagy frissítési csomagot adott ki a Microsoft a 2026...

MI Hírek

MA 06:25

A volt dolgozók részrehajló MI-t sejtenek a leépítések mögött – perelik a Metát

💼 Májusban a Meta megvált dolgozóinak 10 százalékától, közel 8 000 alkalmazottat küldött el, ami jelentős átszervezéssel járt a vállalat MI-re és adatközpontokra irányuló fejlesztései miatt...

HistoryToday

MA 06:05

Történelmi események a mai napon (Július 15.)

Időutazás egyetlen napon: Jeruzsálem falainak áttörésétől 🏰 a Rosetta-kő 🗿 megtalálásán és Napoleon 🚢 megadásán át a Grunwaldnál vívott döntő ütközetig ⚔️, sőt a modern korszakban a törökországi puccskísérletig 🇹🇷 és a Mozilla alapításáig 🦊...

Tudomány

kedd 18:31

Az Ozempic és a Wegovy tényleg lassíthatják a biológiai öregedést?

Tipikus eset, amikor egy ismert gyógyszer egészen váratlan előnyöket kínál. A GLP-1 típusú szerek, mint az Ozempic, a Wegovy vagy a Rybelsus, eredetileg a fogyás, a jobb vércukorszint-szabályozás és a szívbetegségek kockázatának csökkentése miatt váltak népszerűvé...

Tudomány

kedd 17:30

Az indiai tudósok megalkották az emberi agytörzs eddigi legrészletesebb 3D-atlaszát

Indiai kutatók a világ eddigi legrészletesebb, háromdimenziós agytörzs-atlaszát hozták létre, amelyben MRI-felvételeket több mint 500 mikroszkópos szövetrészlettel kapcsoltak össze...

Tudomány

kedd 17:01

A Tejútrendszer mélyén cukrot találtak a kutatók

Többek között különleges eredményre jutottak a kutatók: a Tejútrendszer középpontjához közel egy óriási gázfelhőben felfedeztek egy ritka cukorfélét, az eritrózt, amely nemcsak málnában, hanem barnító krémekben is megtalálható...

Az IBM 23%-ot zuhant a második negyedéves profitfigyelmeztetés után

Kriptó

kedd 16:01

Az IBM 23%-ot zuhant a második negyedéves profitfigyelmeztetés után

Ami kezdetben ártalmatlannak tűnt, végül az IBM történetének egyik legsötétebb napjához vezetett a tőzsdén...

Tudomány

kedd 15:01

A NASA Perseverance-je célba ért: megvan a marsi maraton

🚀 Történelmi teljesítmény született a Marson: a Perseverance marsjáró öt év és négy hónap után elérte a 42,195 kilométeres maratoni távot...

Színes

kedd 12:01

A régi T‑Mobile-csomagoknak vége: kényszerváltás már ezen a héten

Ami kezdetben ártalmatlannak tűnt, most minden régi T-Mobile-előfizető számára valódi változás: a társaság e héttől kezdve automatikusan átsorolja a 10–15 éves tarifákat – például a Simple Choice, T-Mobile One, One Plus, a Magenta családhoz tartozó, valamint a Sprintből áthozott régi csomagokat – modernebb tarifákra...

Az inflációs adat előtt megroggyan a Bitcoin

Kriptó

kedd 11:31

Az inflációs adat előtt megroggyan a Bitcoin

A legnagyobb kriptovaluták teljesítménye az elmúlt 24 órában jelentősen visszaesett, miután egyre többen valószínűsítik, hogy az amerikai jegybank akár már júliusban kamatemelés mellett dönt...

Az analóg fotózás visszatér: a fiatalok újra tekercsre lőnek

Színes

kedd 11:02

Az analóg fotózás visszatér: a fiatalok újra tekercsre lőnek

Az elmúlt pár évben váratlan fordulat történt a fotózás világában: a fiatal generáció újra felfedezte a filmes fényképezőgépeket...

A Turing-mítosz vége: lehet, hogy tévedett a mesterséges intelligenciáról?

MI Hírek

kedd 10:49

A Turing-mítosz vége: lehet, hogy tévedett a mesterséges intelligenciáról?

🤔 A mesterséges intelligencia kutatása 75 éve követi Alan Turing útmutatását, aki két alapvető feltételezést tett: az intelligencia létrehozható szoftverből, függetlenül a testtől, és hogy egy gép intelligensnek számít, ha sikerrel utánozni tudja az embert, például egy beszélgetés során...

Az MI átírja a marketinget: a régi szabályoknak befellegzett

MI Hírek

kedd 10:37

Az MI átírja a marketinget: a régi szabályoknak befellegzett

💡 A Fortune 500 cégek vezető marketingesei kénytelenek szembenézni azzal a ténnyel, hogy a korábbi, jól bevált módszerek egyszerűen elavultak...

A júliusi Google-frissítés felturbózza a Play Áruházat, Wear OS-t és a Térképet

Színes

kedd 10:25

A júliusi Google-frissítés felturbózza a Play Áruházat, Wear OS-t és a Térképet

🚀 A legújabb Google System-frissítés idén nyáron ismét ráncfelvarrást hoz az Android-felhasználóknak...

Színes

kedd 10:01

Végre itt a hideg vízzel elkészíthető Cup Noodles!

🍹 Lényeges szempont, hogy az instant tészták villámgyors megoldást kínálnak, legyen szó egyetemista vacsoráról vagy gyors munkahelyi ebédről...

A Pixel frissítése végre kézre álló csengőhang-, ébresztő- és értesítéskezelést ad

Színes

kedd 09:48

A Pixel frissítése végre kézre álló csengőhang-, ébresztő- és értesítéskezelést ad

A Google a Pixel telefonokon jelentősen megkönnyíti a csengőhangok, az ébresztők és az értesítések hangerejének szabályozását...

A legnagyobb japán taxitársaság leállította rendszereit kibertámadás után

Színes

kedd 09:37

A legnagyobb japán taxitársaság leállította rendszereit kibertámadás után

Felmerül a kérdés, hogy mi történik egy nagyvállalattal, ha leáll a teljes informatikai rendszere?..