Az MI, amely legyőzte a ChatGPT-5-öt a munkahelyeken

Az MI, amely legyőzte a ChatGPT-5-öt a munkahelyeken
A mesterséges intelligencia teljesítményét mérő tesztek többsége eddig nem tükrözte igazán, hogy ezek a rendszerek a való életben, munka közben mire képesek. Az OpenAI azonban most új szintre emelte a mércét, amikor elindította GDPval nevű értékelőrendszerét. Ezzel negyvennégy különféle szakmában – a szoftverfejlesztőtől az ügyvédig, az ápolón át a gépészmérnökig – emberek és különböző MI-modellek teljesítményét vetették össze valódi munkahelyi feladatok során.

Claude Opus 4.1: mindenkit lekörözött

A legújabb tesztek igencsak meglepő eredményt hoztak, ugyanis nem az OpenAI saját fejlesztésű GPT-5-ös rendszere, hanem az Anthropic által készített Claude Opus 4.1 bizonyult a legjobbnak. A GDPval nyerési arányai alapján a Claude Opus 4.1 47,6 százalékot ért el, míg a „ChatGPT-5 high” csak 38,8 százalékot, a ChatGPT o3 high pedig 34,1-et. Az OpenAI ChatGPT-4o fejlesztése szinte lesújtóan alacsony, 12,4 százalékos eredményt produkált, bőven elmaradva még a Grok 4 és a Gemini 2.5 Pro mögött is.

Valódi munkafeladatokban vizsgáztak

A feladatsorok a mindennapi munkahelyi helyzeteket tükrözték: például hogyan írjon választ egy reklamáló ügyfélnek, hogyan optimalizáljon egy asztalelrendezést egy tavaszi vásárra, vagy éppen hogyan szűrje ki egy beszerzési lista árazási hibáit. Az eredmények azt mutatják, hogy a Claude Opus 4.1 a vállalatok és intézmények túlnyomó többségénél – így az állami szektorban, az egészségügyben és a szociális ellátás területén is – a legjobban teljesített.

Mi is az a GDPval?

Az új rendszer elnevezése a bruttó hazai termék (gross domestic product – GDP) analógiájára született. Az OpenAI célja, hogy ezzel a mérőszámmal végre valódi, adatokon alapuló diskurzus folyjon az MI fejlődéséről – hogy ne csak benyomások és találgatások alakítsák a véleményeket. Az átláthatóság érdekében az OpenAI az összes eredményt nyilvánosságra hozta, még akkor is, ha ebben a versenyben éppen a fő riválisuk győzedelmeskedett.


Mi jöhet ezután?

A vizsgálatot az OpenAI gazdaságkutató csapata és a Harvard közgazdásza, David Deming végezte el. Az eredmények nemcsak a szakmát, hanem a felhasználókat is meglepték, hiszen eddig a ChatGPT fejlesztéseitől várták, hogy forradalmasítják a munkavégzést. Most, hogy a Claude Opus 4.1 minden konkurensét lekörözte a gyakorlatban is, lehet, hogy az OpenAI-nak újra kell gondolnia saját stratégiáját és termékét – hiszen a felhasználók igényei is gyorsan változnak.

2025, adrienne, www.techradar.com alapján

  • Te bízol abban, hogy ezeket a teszteket etikusan értékelik?
  • Szerinted fontos, hogy az eredményeket mindenki számára elérhetővé tegyék?
  • Te mit tennél, ha a céged MI-rendszere rosszabbul teljesítene, mint a riválisé?



Legfrissebb posztok

szerda 15:59

Most már flörtölnek a mesterséges intelligenciák, és pénzt is termelnek

😉 Az OpenAI vezérigazgatója, Sam Altman nemrégiben bejelentette, hogy a ChatGPT hamarosan képes lesz felnőtt felhasználók számára erotikus tartalmakat is létrehozni, miután a vállalat szerinte már orvosolta a mesterséges intelligenciával folytatott beszélgetések okozta mentális egészségi kockázatokat...



MA 18:29

Az eddigi legsúlyosabb ASP.NET Core sérülékenység javítása

⚠ A hét elején a Microsoft orvosolta az ASP.NET Core keretrendszer eddigi legmagasabb besorolást kapott biztonsági hibáját...

MA 18:01

Az 5000 éves koponyamaszkok titka: mit rejt Liangzhu?

😎 Különös emberi csontmaradványokra, köztük koponyacsészékre és csontmaszkokra bukkantak kínai régészek az 5000 éves Liangzhu-kultúra területén...

MA 17:59

Az MI-alapú óravázlatoktól nem lesznek lelkesebbek a diákok

A tanárok egyre gyakrabban vetik be a mesterséges intelligenciát, főként olyan feladatokra, mint az óravázlatok elkészítése vagy a tanítási előkészületek...

MA 17:30

Az új Netflix-dokumentumfilm letarolja a streaminget

A A tökéletes szomszéd (The Perfect Neighbor) című új dokumentumfilm már elérhető a Netflixen, és egészen más, mint amit eddig láthattunk a műfajban...

MA 17:01

Egy váratlan kamera nyerte az év természetfotósa díjat

📷 A Wildlife Photographer of the Year 2025 versenyen egy meglepő főszereplő vitte el a pálmát a használt eszközök terén...

MA 17:00

A majmokat is sújtotta az ólommérgezés régen

🐒 Évezredekkel ezelőtt őseinknek nemcsak a ragadozókkal és az éhínséggel kellett szembenézniük, hanem a környezetükben előforduló mérgező anyagokkal is...

MA 16:31

Az aktív galaxisok titka, amit szabad szemmel is láthatunk

💫 Aki éjszaka felnéz az égre, annak a Tejútrendszer nyugodt, csendes otthonnak tűnik...

MA 16:04

Az eltűnt szomáliai meteorit, tudományos szenzációból feketepiaci kincs lett

🚀 Egy hatalmas szomáliai meteorit, amely három eddig ismeretlen ásványt tartalmaz, váratlanul a feketepiacon kötött ki, és súlyos etikai kérdéseket vet fel a tudományos közösség felelősségéről és a tulajdonjogról...



MA 15:29

Az amerikai kormány titkos műholdjai zavarják az űrt?

Az amerikai kormány megbízásából épített titkos SpaceX-műholdak szokatlan rádiójeleket sugároznak a Föld felé, amelyek veszélyes interferenciát okozhatnak más műholdak számára...



MA 15:01

Az űrfelmérések adatai az Azure felhőjében landoltak

🚀 A Microsoft mostantól elérhetővé tette a NASA hatalmas Harmonizált Landsat és Sentinel-2 (HLS) műholdas adatbázisát az Azure felhőszolgáltatáson, a Planetary Computer platformon keresztül...

MA 14:30

Az oxigénhiányhoz alkalmazkodó sejtek titka: az epigenetika játszik főszerepet

A Karolinska Intézet kutatói áttörést értek el abban, hogyan képesek a sejtek átállítani a génműködésüket, amikor kevés az oxigén...



MA 14:01

Az Apple átveszi az F1-et Amerikában, érdemes nézni

🏎 Az Apple és a Formula 1 összefogása 2026-tól az Apple öt évre szóló, exkluzív megállapodást köt a Formula 1-gyel, így minden F1-verseny kizárólag az Apple TV-n lesz elérhető az Egyesült Államokban...



MA 13:59

Az Orionidák és két új üstökös ragyogja be az eget

Október 20-ról 21-re virradó éjszaka érdemes lesz figyelni az eget: az Orionidák meteorraj látványos maximuma és két új üstökös fényesedése egyszerre teszi különlegessé az idei őszt...

MA 13:29

Az Amazon Ring és a rendőrség kedvenc MI-kamerái összefognak

Az Amazon tulajdonában lévő Ring új együttműködésbe kezdett a Flock Safety-vel, amely egyre inkább terjedő, MI-alapú kamerarendszert kínál elsősorban rendvédelmi szervek számára...

MA 13:00

Így örökítheted meg az év leglátványosabb üstököseit, Lemmont és a 3I/ATLASt

Az elkövetkező hetek tökéletes alkalmat kínálnak arra, hogy elővedd a fényképezőgéped, és megörökíts két különleges égi jelenséget...

MA 12:30

A Facebook most már a telefonod fotóit is nézi

A Facebook új, MI-alapú funkciója lehetővé teszi, hogy a telefonod fotótárát átvizsgálva ajánljon fel eddig rejtett emlékeket, amelyeket aztán automatikusan kollázzsá vagy szerkesztett képpé alakít...



MA 12:02

Jane Goodall öröksége, az ember aki barátokat szerzett a csimpánzoknak

🐒 Jane Goodall néhány hete hunyt el, de neve már most örökre összeforrt a természetkutatással és azzal, ahogyan az emberiség ma viszonyul a vadon élő állatokhoz...

MA 11:58

Az Office 2016 és 2019 végleg kifutott – ideje továbblépni

🛏 Október 14-én hivatalosan is véget ért az Office 2016 és az Office 2019 hosszabbított támogatása...