Az MI, amely legyőzte a ChatGPT-5-öt a munkahelyeken

Az MI, amely legyőzte a ChatGPT-5-öt a munkahelyeken
A mesterséges intelligencia teljesítményét mérő tesztek többsége eddig nem tükrözte igazán, hogy ezek a rendszerek a való életben, munka közben mire képesek. Az OpenAI azonban most új szintre emelte a mércét, amikor elindította GDPval nevű értékelőrendszerét. Ezzel negyvennégy különféle szakmában – a szoftverfejlesztőtől az ügyvédig, az ápolón át a gépészmérnökig – emberek és különböző MI-modellek teljesítményét vetették össze valódi munkahelyi feladatok során.

Claude Opus 4.1: mindenkit lekörözött

A legújabb tesztek igencsak meglepő eredményt hoztak, ugyanis nem az OpenAI saját fejlesztésű GPT-5-ös rendszere, hanem az Anthropic által készített Claude Opus 4.1 bizonyult a legjobbnak. A GDPval nyerési arányai alapján a Claude Opus 4.1 47,6 százalékot ért el, míg a „ChatGPT-5 high” csak 38,8 százalékot, a ChatGPT o3 high pedig 34,1-et. Az OpenAI ChatGPT-4o fejlesztése szinte lesújtóan alacsony, 12,4 százalékos eredményt produkált, bőven elmaradva még a Grok 4 és a Gemini 2.5 Pro mögött is.

Valódi munkafeladatokban vizsgáztak

A feladatsorok a mindennapi munkahelyi helyzeteket tükrözték: például hogyan írjon választ egy reklamáló ügyfélnek, hogyan optimalizáljon egy asztalelrendezést egy tavaszi vásárra, vagy éppen hogyan szűrje ki egy beszerzési lista árazási hibáit. Az eredmények azt mutatják, hogy a Claude Opus 4.1 a vállalatok és intézmények túlnyomó többségénél – így az állami szektorban, az egészségügyben és a szociális ellátás területén is – a legjobban teljesített.

Mi is az a GDPval?

Az új rendszer elnevezése a bruttó hazai termék (gross domestic product – GDP) analógiájára született. Az OpenAI célja, hogy ezzel a mérőszámmal végre valódi, adatokon alapuló diskurzus folyjon az MI fejlődéséről – hogy ne csak benyomások és találgatások alakítsák a véleményeket. Az átláthatóság érdekében az OpenAI az összes eredményt nyilvánosságra hozta, még akkor is, ha ebben a versenyben éppen a fő riválisuk győzedelmeskedett.


Mi jöhet ezután?

A vizsgálatot az OpenAI gazdaságkutató csapata és a Harvard közgazdásza, David Deming végezte el. Az eredmények nemcsak a szakmát, hanem a felhasználókat is meglepték, hiszen eddig a ChatGPT fejlesztéseitől várták, hogy forradalmasítják a munkavégzést. Most, hogy a Claude Opus 4.1 minden konkurensét lekörözte a gyakorlatban is, lehet, hogy az OpenAI-nak újra kell gondolnia saját stratégiáját és termékét – hiszen a felhasználók igényei is gyorsan változnak.

2025, adrienne, www.techradar.com alapján

  • Te bízol abban, hogy ezeket a teszteket etikusan értékelik?
  • Szerinted fontos, hogy az eredményeket mindenki számára elérhetővé tegyék?
  • Te mit tennél, ha a céged MI-rendszere rosszabbul teljesítene, mint a riválisé?


Legfrissebb posztok

csütörtök 12:25

A 6 legbénább szexuális célzás a marketing történelemben

A szex használata a reklámban egyidős annak létrejöttével. Ezer százalék, hogy az első reklámban ami az első kereket reklámozta, rögtön kettőt raktak egymás mellé, hogy egy pár cickóra hasonlítson...

kedd 14:10

Egy könyvvel az ellenség szívéhez – Franklin megdöbbentő módszere

Egy nap eszébe jutott valami merész és szokatlan. Tudta, hogy ellenfelének könyvtárában számos ritka és értékes kötet található, melyekre nagy becsben tartott, és az is köztudott volt, hogy igazi büszkesége egyik különleges könyv volt, amelyet csak kevesen olvashattak...

MA 11:42

Az MI-cégek sorra kiszivárogtatják titkos API-kulcsaikat

🔒 A Wiz felhőbiztonsági vállalat figyelmeztet: a legnagyobb MI-cégek sem kezelik jobban a saját titkaikat, mint bármely más szoftverfejlesztő...

MA 11:31

Újabb áremelés a Paramount Plusnál: vége az ingyenes próbának is

💸 2026 elején ismét drágul a Paramount Plus: az Essential csomag havi díja 2 950 forintról 3 300 forintra, a reklámmentes Premium csomagé pedig 4 800 forintról 5 150 forintra nő...

MA 11:22

Az anyanyelv hatással van arra, hogyan olvasunk

📖 Az olvasás egész életünkön át elkísér, a sikeres beilleszkedés pedig gyakran múlik azon, mennyire tudunk gördülékenyen olvasni egy új ország nyelvén...

MA 11:11

Az MI végre beköltözik a Google TV Streamerbe

🤖 A Google újabb szintre emeli a Google TV Streamer élményét: mostantól a Gemini nevű MI-asszisztens is elérhető rajta...

MA 11:01

Az igazi hackerkirály kitálal: így működik a kiberbűnözés

A kibervilág egyik legnagyobb bűnözője, Vjacseszlav „Tank” Pencsukov most börtönből meséli el, hogyan szerveződtek a modern hekkercsoportok, és milyen hibák vezettek a lebukásához...

MA 10:58

Az MI agyában a memorizálás és a gondolkodás másként működik

💡 Amikor a mérnökök hatalmas nyelvi modelleket, például a GPT-5-öt fejlesztenek, két látványosan eltérő képesség bukkan fel: a memorizálás, vagyis a már látott szövegek pontos visszamondása – ilyenek például idézetek vagy regényrészletek –, és az érvelés, azaz amikor a modell új helyzetekben próbál elvont összefüggések alapján megoldani problémákat...

MA 10:51

A Neutron rakéta bemutatását 2026-ra halasztják

🚀 A Rocket Lab közepes teherbírású Neutron rakétájának első indítását ismét elhalasztották; a vállalat tervei szerint legkorábban 2026 nyarán kezdődhetnek meg a próbarepülések...

MA 10:44

Észak-koreai hackerek egy gombnyomással törölhetik az Androidodat

🕵 Az utóbbi hetekben Észak-Korea hírhedt APT37-es hackercsoportja új módszerrel támad dél-koreai célpontokat: a Google Eszközkereső (Find My Device) szolgáltatást használják arra, hogy Android-készülékeket távolról töröljenek, ellehetetlenítve az áldozatok hozzáférését adataikhoz...

MA 10:37

A Gemini asszisztens lassan indul, a Google Home még zűrzavaros

💡 A Google okosotthonos eszközein új szakasz kezdődött: a lassan elérhetővé váló Gemini hangasszisztens átveszi az irányítást a Google Home hangszórói és kijelzői felett...

MA 10:30

Izraeli MI-avatárok tarolnak, a Kaltura ismét nagyot lépett

A New York-i székhelyű, MI-alapú videoplatformjairól ismert Kaltura idén közel 10 milliárd forintért (27 millió USD, kb...

MA 10:23

Kanada elvesztette a kanyarómentes státuszát: újra terjed a járvány

😷 Kanada hivatalosan elvesztette a kanyarómentes státuszát, miután a 2024-ben kezdődött, hosszan tartó járvány megszakítás nélkül terjed az országban...

MA 10:16

Az intersztelláris üstökös nem földönkívüli, mégis izgalmasabb

Az űrkutatás világában fel-fellángolnak a találgatások, amikor egy új égi jelenség tűnik fel, és az idegenek témája szinte mindig előkerül...

MA 09:57

Kanada elveszítette a kanyarómentességet, újra itt a járvány

😷 Kanada 1998-ban még teljesen felszámolta a kanyarót, most azonban a rendkívül fertőző vírus ismét endémiásnak számít az országban...

MA 09:51

Homerek özöne lepi el Springfieldet, új Fortnite-őrület söpör végig

😂 Több mint egy hét telt el azóta, hogy Springfield beköltözött a Fortnite-ba, és máris őrületes újdonságok érkeznek...

MA 09:43

Az új MI-s Google Home, káosz vagy valódi okosotthon?

A Google új, MI-alapú Gemini hangasszisztensét fokozatosan vezetik be az okoskijelzőkre és okoshangszórókra, de a felhasználói tapasztalatok alapján egyelőre rengeteg a zavar és a hiányosság...

MA 09:37

Már az MI irányítja az első műholdat az űrben

🚀 Külön figyelmet érdemel, hogy először sikerült mesterségesintelligencia-alapú vezérlővel irányítani egy műhold helyzetét az űrben...

MA 09:29

Az agy vegyülete, amely a gyermekkori traumákat őrzi

Amerikai és kanadai kutatók egy korábban ismeretlen agyi vegyület, az SGK1 fehérje szerepét tárták fel a depresszió és az öngyilkossági gondolatok kialakulásában olyan embereknél, akik gyermekként traumát vagy komoly nehézségeket éltek át...