2025. 09. 29., 20:30

Az MI, amely legyőzte a ChatGPT-5-öt a munkahelyeken

Az MI, amely legyőzte a ChatGPT-5-öt a munkahelyeken
A mesterséges intelligencia teljesítményét mérő tesztek többsége eddig nem tükrözte igazán, hogy ezek a rendszerek a való életben, munka közben mire képesek. Az OpenAI azonban most új szintre emelte a mércét, amikor elindította GDPval nevű értékelőrendszerét. Ezzel negyvennégy különféle szakmában – a szoftverfejlesztőtől az ügyvédig, az ápolón át a gépészmérnökig – emberek és különböző MI-modellek teljesítményét vetették össze valódi munkahelyi feladatok során.

Claude Opus 4.1: mindenkit lekörözött

A legújabb tesztek igencsak meglepő eredményt hoztak, ugyanis nem az OpenAI saját fejlesztésű GPT-5-ös rendszere, hanem az Anthropic által készített Claude Opus 4.1 bizonyult a legjobbnak. A GDPval nyerési arányai alapján a Claude Opus 4.1 47,6 százalékot ért el, míg a „ChatGPT-5 high” csak 38,8 százalékot, a ChatGPT o3 high pedig 34,1-et. Az OpenAI ChatGPT-4o fejlesztése szinte lesújtóan alacsony, 12,4 százalékos eredményt produkált, bőven elmaradva még a Grok 4 és a Gemini 2.5 Pro mögött is.

Valódi munkafeladatokban vizsgáztak

A feladatsorok a mindennapi munkahelyi helyzeteket tükrözték: például hogyan írjon választ egy reklamáló ügyfélnek, hogyan optimalizáljon egy asztalelrendezést egy tavaszi vásárra, vagy éppen hogyan szűrje ki egy beszerzési lista árazási hibáit. Az eredmények azt mutatják, hogy a Claude Opus 4.1 a vállalatok és intézmények túlnyomó többségénél – így az állami szektorban, az egészségügyben és a szociális ellátás területén is – a legjobban teljesített.

Mi is az a GDPval?

Az új rendszer elnevezése a bruttó hazai termék (gross domestic product – GDP) analógiájára született. Az OpenAI célja, hogy ezzel a mérőszámmal végre valódi, adatokon alapuló diskurzus folyjon az MI fejlődéséről – hogy ne csak benyomások és találgatások alakítsák a véleményeket. Az átláthatóság érdekében az OpenAI az összes eredményt nyilvánosságra hozta, még akkor is, ha ebben a versenyben éppen a fő riválisuk győzedelmeskedett.


Mi jöhet ezután?

A vizsgálatot az OpenAI gazdaságkutató csapata és a Harvard közgazdásza, David Deming végezte el. Az eredmények nemcsak a szakmát, hanem a felhasználókat is meglepték, hiszen eddig a ChatGPT fejlesztéseitől várták, hogy forradalmasítják a munkavégzést. Most, hogy a Claude Opus 4.1 minden konkurensét lekörözte a gyakorlatban is, lehet, hogy az OpenAI-nak újra kell gondolnia saját stratégiáját és termékét – hiszen a felhasználók igényei is gyorsan változnak.

2025, adrienne, www.techradar.com alapján

  • Te bízol abban, hogy ezeket a teszteket etikusan értékelik?
  • Szerinted fontos, hogy az eredményeket mindenki számára elérhetővé tegyék?
  • Te mit tennél, ha a céged MI-rendszere rosszabbul teljesítene, mint a riválisé?


Legfrissebb posztok

MA 20:55

Az új Tuxedo laptop erősebb a Macnál, mégis könnyebb

A Tuxedo bemutatta az InfinityBook Max 16-ot, amely a Linuxra váltást tervezők számára kihagyhatatlan lehetőség...

MA 20:37

Az újabb, pusztító chilei tűzvész miatt katasztrófahelyzetet hirdettek

Legalább tizenhatan vesztették életüket Chile középső részén, miután hatalmas erdőtüzek pusztítanak a Ñuble és Biobío régiókban, mintegy 500 km-re Santiagótól...

MA 20:01

Az óceánok pusztulása megduplázza a klímaválság számláját

🌊 Az óceánok eddig rejtett gazdasági költsége Évtizedeken át a klímaváltozás gazdasági költségeit úgy becsülték, mintha az óceánok értéke nulla volna...

MA 19:56

Az MI felrázza az egyetemet: új korszak a tanulásban

📚 Az elmúlt öt évben a felsőoktatás folyamatos felfordulásként élte meg a változásokat...

MA 19:38

Az űrben felturbózott vírusok lehetnek a szuperbaktériumok veszte?

Amikor kutatók a Nemzetközi Űrállomásra (ISS) küldtek E. coli-t fertőző vírusokat, meglepő változások történtek...

MA 19:20

Az ETF-csatában ki nyer: a bitcoinalapú IBIT vagy a sokszínű BITQ?

Felmerül a kérdés, hogy melyik kriptovaluta ETF érdemes igazán a figyelemre: az iShares által támogatott iShares Bitcoin Trust (IBIT), vagy a Bitwise Crypto Industry Innovators ETF (BITQ)...

MA 18:56

Az 1,2 milliárd dollár a Bitcoinba ömlik: jön az új bikapiac?

📈 Egy lényeges szempont, hogy az amerikai tőzsdén jegyzett spot Bitcoin ETF-ekbe idén eddig 1,2 milliárd dollárnyi friss pénz áramlott be, ezzel megfordítva a decemberi visszaváltásokat...

MA 18:37

Az utolsó ingyenes Windows 10-frissítések: ne maradj védelem nélkül

A Windows 10 támogatása hivatalosan 2025 októberében véget ér, emiatt sok felhasználó aggódhat, hogy mi lesz régi gépével vagy programjaival...

MA 18:19

Az éledező bitcoin-éhség: nagyok és kicsik egyszerre vásárolnak

Az elmúlt egy hónapban a közepes és nagy bitcoin-tulajdonosok 110 000 BTC-t vásároltak, ami a legnagyobb havi növekedés a 2022-es FTX-összeomlás óta...

MA 17:56

A Pandora űrtávcső forradalmasítja az élet utáni hajszát az űrben

Első pillantásra úgy tűnt, hogy a James Webb űrtávcső (JWST) már így is lenyűgöző eredményeket ér el a lakható exobolygók utáni kutatásban, de most egy új társ, a Pandora érkezése új lendületet ad ennek a küldetésnek...

MA 17:19

Az elnöki palota hadat üzen a kriptónak? A Coinbase visszavág

💸 A kriptopiacot felbolygatta a hír, hogy a Fehér Ház esetleg elfordulna a kriptovaluta-piac szabályozását célzó törvény támogatásától, ám a Coinbase vezérigazgatója, Brian Armstrong szerint ennek épp az ellenkezője igaz...

MA 17:04

A nagy Android-csúcsverseny: melyik a legjobb választás 2026-ban?

2026-ban az Android-telefonok kínálata erősebb, mint valaha: fejlett kamerák, izmos processzorok, hosszú üzemidő és akár hét évnyi rendszerfrissítés csábítja a felhasználókat...

MA 16:37

A friss kriptók többsége máris bedőlt

Az utóbbi években indított kriptovaluták több mint fele mára gyakorlatilag megszűnt, derül ki a CoinGecko friss elemzéséből...

MA 16:20

Az első lakás: ugródeszka a vagyonhoz, vagy drága zsákutca?

A lakásvásárlás hosszú évek óta az amerikai álom fontos része, de ma már egyre több fiatal számára szinte elérhetetlen...

MA 15:55

Az egész világháló leállhat egyszerre?

Senki sem várta volna, hogy az internet nélkülözhetetlenné válik a mindennapokban, legyen szó munkáról, szórakozásról vagy kommunikációról...

MA 15:38

Az utca hősei: a városok titkos fegyverei a fenntarthatóságért

🛠 A világ 330 városa nemrég közös fogadalmat tett a fenntarthatóbb és igazságosabb városi élelmiszerrendszerek kialakítására...

MA 15:21

Az okostelefonos MI-chipek: nyolc évünk volt, mégis toporgunk

📱 Az elmúlt nyolc évben gyökeresen megváltozott az okostelefonok belső világa: megjelentek a dedikált MI-chipek, a Neural Processing Unitok (NPU-k)...

MA 15:02

Az új GhostPoster-átverés már 840 ezer böngészőt fertőzött meg

Ismét 17 kártékony böngészőbővítmény bukkant fel a Chrome, Firefox és Edge áruházakban, köztük olyan népszerű kiegészítőkkel, mint a Google Translate, a YouTube Download vagy az Adblock Ultimate...

MA 14:56

Az új Galaxy Z TriFold: telefonhoz óriás, tablethez törpe

A hajlítható kijelzős telefonokban gyerekkori izgatottságomat érzem visszaköszönni. A közel egy évtizeddel ezelőtt bemutatott első Galaxy Foldnál lenyűgözött, hogy egy táblagép méretű kijelző elfért a zsebemben...