
Claude Opus 4.1: mindenkit lekörözött
A legújabb tesztek igencsak meglepő eredményt hoztak, ugyanis nem az OpenAI saját fejlesztésű GPT-5-ös rendszere, hanem az Anthropic által készített Claude Opus 4.1 bizonyult a legjobbnak. A GDPval nyerési arányai alapján a Claude Opus 4.1 47,6 százalékot ért el, míg a „ChatGPT-5 high” csak 38,8 százalékot, a ChatGPT o3 high pedig 34,1-et. Az OpenAI ChatGPT-4o fejlesztése szinte lesújtóan alacsony, 12,4 százalékos eredményt produkált, bőven elmaradva még a Grok 4 és a Gemini 2.5 Pro mögött is.
Valódi munkafeladatokban vizsgáztak
A feladatsorok a mindennapi munkahelyi helyzeteket tükrözték: például hogyan írjon választ egy reklamáló ügyfélnek, hogyan optimalizáljon egy asztalelrendezést egy tavaszi vásárra, vagy éppen hogyan szűrje ki egy beszerzési lista árazási hibáit. Az eredmények azt mutatják, hogy a Claude Opus 4.1 a vállalatok és intézmények túlnyomó többségénél – így az állami szektorban, az egészségügyben és a szociális ellátás területén is – a legjobban teljesített.
Mi is az a GDPval?
Az új rendszer elnevezése a bruttó hazai termék (gross domestic product – GDP) analógiájára született. Az OpenAI célja, hogy ezzel a mérőszámmal végre valódi, adatokon alapuló diskurzus folyjon az MI fejlődéséről – hogy ne csak benyomások és találgatások alakítsák a véleményeket. Az átláthatóság érdekében az OpenAI az összes eredményt nyilvánosságra hozta, még akkor is, ha ebben a versenyben éppen a fő riválisuk győzedelmeskedett.
Mi jöhet ezután?
A vizsgálatot az OpenAI gazdaságkutató csapata és a Harvard közgazdásza, David Deming végezte el. Az eredmények nemcsak a szakmát, hanem a felhasználókat is meglepték, hiszen eddig a ChatGPT fejlesztéseitől várták, hogy forradalmasítják a munkavégzést. Most, hogy a Claude Opus 4.1 minden konkurensét lekörözte a gyakorlatban is, lehet, hogy az OpenAI-nak újra kell gondolnia saját stratégiáját és termékét – hiszen a felhasználók igényei is gyorsan változnak.