Az MI, amely legyőzte a ChatGPT-5-öt a munkahelyeken

Az MI, amely legyőzte a ChatGPT-5-öt a munkahelyeken
A mesterséges intelligencia teljesítményét mérő tesztek többsége eddig nem tükrözte igazán, hogy ezek a rendszerek a való életben, munka közben mire képesek. Az OpenAI azonban most új szintre emelte a mércét, amikor elindította GDPval nevű értékelőrendszerét. Ezzel negyvennégy különféle szakmában – a szoftverfejlesztőtől az ügyvédig, az ápolón át a gépészmérnökig – emberek és különböző MI-modellek teljesítményét vetették össze valódi munkahelyi feladatok során.

Claude Opus 4.1: mindenkit lekörözött

A legújabb tesztek igencsak meglepő eredményt hoztak, ugyanis nem az OpenAI saját fejlesztésű GPT-5-ös rendszere, hanem az Anthropic által készített Claude Opus 4.1 bizonyult a legjobbnak. A GDPval nyerési arányai alapján a Claude Opus 4.1 47,6 százalékot ért el, míg a „ChatGPT-5 high” csak 38,8 százalékot, a ChatGPT o3 high pedig 34,1-et. Az OpenAI ChatGPT-4o fejlesztése szinte lesújtóan alacsony, 12,4 százalékos eredményt produkált, bőven elmaradva még a Grok 4 és a Gemini 2.5 Pro mögött is.

Valódi munkafeladatokban vizsgáztak

A feladatsorok a mindennapi munkahelyi helyzeteket tükrözték: például hogyan írjon választ egy reklamáló ügyfélnek, hogyan optimalizáljon egy asztalelrendezést egy tavaszi vásárra, vagy éppen hogyan szűrje ki egy beszerzési lista árazási hibáit. Az eredmények azt mutatják, hogy a Claude Opus 4.1 a vállalatok és intézmények túlnyomó többségénél – így az állami szektorban, az egészségügyben és a szociális ellátás területén is – a legjobban teljesített.

Mi is az a GDPval?

Az új rendszer elnevezése a bruttó hazai termék (gross domestic product – GDP) analógiájára született. Az OpenAI célja, hogy ezzel a mérőszámmal végre valódi, adatokon alapuló diskurzus folyjon az MI fejlődéséről – hogy ne csak benyomások és találgatások alakítsák a véleményeket. Az átláthatóság érdekében az OpenAI az összes eredményt nyilvánosságra hozta, még akkor is, ha ebben a versenyben éppen a fő riválisuk győzedelmeskedett.


Mi jöhet ezután?

A vizsgálatot az OpenAI gazdaságkutató csapata és a Harvard közgazdásza, David Deming végezte el. Az eredmények nemcsak a szakmát, hanem a felhasználókat is meglepték, hiszen eddig a ChatGPT fejlesztéseitől várták, hogy forradalmasítják a munkavégzést. Most, hogy a Claude Opus 4.1 minden konkurensét lekörözte a gyakorlatban is, lehet, hogy az OpenAI-nak újra kell gondolnia saját stratégiáját és termékét – hiszen a felhasználók igényei is gyorsan változnak.

2025, adrienne, www.techradar.com alapján

  • Te bízol abban, hogy ezeket a teszteket etikusan értékelik?
  • Szerinted fontos, hogy az eredményeket mindenki számára elérhetővé tegyék?
  • Te mit tennél, ha a céged MI-rendszere rosszabbul teljesítene, mint a riválisé?



Legfrissebb posztok

szerda 15:59

Most már flörtölnek a mesterséges intelligenciák, és pénzt is termelnek

😉 Az OpenAI vezérigazgatója, Sam Altman nemrégiben bejelentette, hogy a ChatGPT hamarosan képes lesz felnőtt felhasználók számára erotikus tartalmakat is létrehozni, miután a vállalat szerinte már orvosolta a mesterséges intelligenciával folytatott beszélgetések okozta mentális egészségi kockázatokat...

MA 22:30

Az új Windows-frissítés mindenkit kiborított – de itt a javítás

🙁 Az utóbbi Windows-biztonsági frissítések súlyos hibát okoztak: sem a Windows 11-en, sem a Windows Server 2025 rendszeren nem lehetett HTTP/2 kapcsolattal elérni a localhost (127...

MA 22:01

Az olvadó permafroszt újra felkorbácsolja a klímaaggodalmakat

🌨 A sarkvidéki örökfagy világa most új veszélyforrást rejt: a globális felmelegedés több tízezer éves baktériumokat éleszt fel...



MA 21:59

Az MI-alapú térképezés átalakítja a földhasználat nyomon követését

A pontos földtakaró-térképezés nélkülözhetetlen a biodiverzitás védelméhez, a klímaváltozáshoz való alkalmazkodáshoz és a fenntartható földhasználathoz...



MA 21:29

Az Europol véget vetett egy nemzetközi SIM-kártyás bűnbanda tevékenységének

Az európai rendőrök a SIMCARTEL fedőnevű akcióban felszámolták azt az illegális SIM-box szolgáltatást, amely több mint 3200 csalásnak adott zöld utat, és legalább 1,7 milliárd forint kárt okozott...

MA 21:04

Újabb tech-leépítési hullám jön, tízezrek kerülnek utcára 2025-ben

💀 2025-ben sem kímél a techszektorban végigsöprő leépítési hullám. Tavaly 549 cégnél történt tömeges elbocsátás, idén pedig már több mint 22 ezren veszítették el az állásukat; csak februárban 16 084 főt érintettek a leépítések...



MA 20:59

Az Antarktisz a Grönlandéhoz hasonló jégolvadással fenyeget

🌨 Az 1990-es években Grönland és az Északi-sark már látványosan olvadni kezdett az emberi eredetű klímaváltozás miatt, miközben az Antarktisz összehasonlíthatatlanul stabilabbnak tűnt...



MA 18:29

Az eddigi legsúlyosabb ASP.NET Core sérülékenység javítása

⚠ A hét elején a Microsoft orvosolta az ASP.NET Core keretrendszer eddigi legmagasabb besorolást kapott biztonsági hibáját...



MA 18:01

Az 5000 éves koponyamaszkok titka: mit rejt Liangzhu?

😎 Különös emberi csontmaradványokra, köztük koponyacsészékre és csontmaszkokra bukkantak kínai régészek az 5000 éves Liangzhu-kultúra területén...



MA 17:59

Az MI-alapú óravázlatoktól nem lesznek lelkesebbek a diákok

A tanárok egyre gyakrabban vetik be a mesterséges intelligenciát, főként olyan feladatokra, mint az óravázlatok elkészítése vagy a tanítási előkészületek...

MA 17:30

Az új Netflix-dokumentumfilm letarolja a streaminget

A A tökéletes szomszéd (The Perfect Neighbor) című új dokumentumfilm már elérhető a Netflixen, és egészen más, mint amit eddig láthattunk a műfajban...

MA 17:01

Egy váratlan kamera nyerte az év természetfotósa díjat

📷 A Wildlife Photographer of the Year 2025 versenyen egy meglepő főszereplő vitte el a pálmát a használt eszközök terén...



MA 17:00

A majmokat is sújtotta az ólommérgezés régen

🐒 Évezredekkel ezelőtt őseinknek nemcsak a ragadozókkal és az éhínséggel kellett szembenézniük, hanem a környezetükben előforduló mérgező anyagokkal is...

MA 16:31

Az aktív galaxisok titka, amit szabad szemmel is láthatunk

💫 Aki éjszaka felnéz az égre, annak a Tejútrendszer nyugodt, csendes otthonnak tűnik...



MA 16:04

Az eltűnt szomáliai meteorit, tudományos szenzációból feketepiaci kincs lett

🚀 Egy hatalmas szomáliai meteorit, amely három eddig ismeretlen ásványt tartalmaz, váratlanul a feketepiacon kötött ki, és súlyos etikai kérdéseket vet fel a tudományos közösség felelősségéről és a tulajdonjogról...



MA 15:29

Az amerikai kormány titkos műholdjai zavarják az űrt?

Az amerikai kormány megbízásából épített titkos SpaceX-műholdak szokatlan rádiójeleket sugároznak a Föld felé, amelyek veszélyes interferenciát okozhatnak más műholdak számára...

MA 15:01

Az űrfelmérések adatai az Azure felhőjében landoltak

🚀 A Microsoft mostantól elérhetővé tette a NASA hatalmas Harmonizált Landsat és Sentinel-2 (HLS) műholdas adatbázisát az Azure felhőszolgáltatáson, a Planetary Computer platformon keresztül...

MA 14:30

Az oxigénhiányhoz alkalmazkodó sejtek titka: az epigenetika játszik főszerepet

A Karolinska Intézet kutatói áttörést értek el abban, hogyan képesek a sejtek átállítani a génműködésüket, amikor kevés az oxigén...



MA 14:01

Az Apple átveszi az F1-et Amerikában, érdemes nézni

🏎 Az Apple és a Formula 1 összefogása 2026-tól az Apple öt évre szóló, exkluzív megállapodást köt a Formula 1-gyel, így minden F1-verseny kizárólag az Apple TV-n lesz elérhető az Egyesült Államokban...