Tag: SWE-bench Verified
kedd 07:58
Megjött a még olcsóbb, még erősebb Opus 4.5
Az Anthropic bemutatta új zászlóshajó-modelljét, az Opus 4.5-öt, amely a korábbiaknál hatékonyabb, több funkcióval bővült, olcsóbb lett, és sokkal jobb kódolási teljesítményt nyújt....
csütörtök 13:17
Az OpenAI új MI-je órákig önállóan programoz – ember nem kell
Az OpenAI kiadta a GPT-5.1 Codex-Max verzióját, amely lényegesen jobb teljesítményt nyújt a programozási feladatokban. Ez a modell már órákon át képes önállóan...
szombat 10:36
A félrevezető MI-teszteken a nagy cégek csak nevetnek
Az MI-cégek előszeretettel hivatkoznak benchmarkjaikra, hogy modelleiket a technológiai fejlődés csúcsaként tüntessék fel. Figyelemre méltó, hogy az Oxford Internet Institute (OII) és több...
csütörtök 20:03
Egy mesterséges intelligencia, amely könnyedén lekörözi az emberi fejlesztőket
A Qodo Command, a Qodo parancssori MI-ügynöke 71,2%-os eredményt ért el a SWE-bench Verified teszten – a szoftvermérnöki MI-megoldások egyik legrangosabb, valós környezetben...
