Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita

Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita
A GPT-5 bevezetése óta fellángolt a vita az OpenAI-nál, sok felhasználó szerint az új modell steril, kevesebb benne a kreativitás, sőt, több a pontatlan, ártalmas információ is. A fejlesztők igyekeztek csillapítani az elégedetlenséget, de egyre többen teszik fel a kérdést: tényleg jobb a régebbi GPT-4o, vagy csak megszoktuk a stílusát? Több, korszerű felhasználási módot is lefedő teszttel hasonlították össze a két modellt, hogy tisztább képet kapjunk a különbségekről.

Apuka-viccek és humorérzék

A viccek terén a GPT-5 klasszikus, már-már közhelyes szóvicceket hozott, amelyeket szinte mindenki ismer. Ezek tipikus „apuka-viccek”, amelyek a fiatalabb közönségnél még mindig működhetnek, de nincs bennük semmi újdonság. A GPT-4o néhány eredetinek tűnő próbálkozása sajnos inkább furcsára sikerült: például egy naptárról szóló szóviccnél elvétette a poén csattanóját, egy másik esetben pedig a “wine” helyett “whine”-nal próbálkozott, így inkább különös, mint vicces lett a végeredmény. Végül egyiket sem lehetett egyértelmű győztesnek nyilvánítani – eltérő okokból, de mindketten elbukták ezt a próbát.

Matematikai fejtörő: hány floppy kellene a Windows 11-hez? (Windows 11)

Itt már nagyobb különbségek voltak: a GPT-5 gondosan végiggondolta a számolást, felismerte, hogy egy Windows 11 ISO körülbelül 5-6 GB (vagyis 5120–6144 MB, ami 1,44 MB-os floppyval számolva nagyjából 3560–4270 floppy lemezt jelentene!). Közben pontos forrásokat is idézett. A GPT-4o viszont a telepített rendszer méretével számolt – 20–30 GB, vagyis akár 14 000–21 000 floppy –, ami kevésbé releváns, hiszen nem ezt „szállítanák”. Érdemes megjegyezni, hogy a GPT-4o pluszként kiszámolta, ezek milyen magas tornyot és mekkora súlyt adnának.

Ezzel a pont itt a GPT-5-é lett.

Kreatív írásban új magasságok?

A történetírási feladatra – amikor Abraham Lincoln találja fel a kosárlabdát – a GPT-5 némileg bugyuta, népies Lincoln-karakterrel kezdett, de néhány frappáns fordulattal visszaszerezte a pontokat. A „No wrestling the President!” („Ne birkózz az elnökkel!”) felkiáltás igazán ötletes volt. A GPT-4o túlzottan elárasztotta a metaforákkal, helyenként ironikus mondatokba gabalyodott (például: „a dobás a felszabadulás pillanata”), de a befejezés – „Négy szer… és csak háló” (Four score… and nothing but net) – kellemes csattanóként szolgált.

Noha a kettő közül a GPT-5 egy árnyalattal kiegyensúlyozottabb választ adott, mindkettő jól teljesített.


Közszereplők: mennyit tudnak rólunk?

A GPT-5 ebben a témakörben brillírozott: egyszerűen megkereste a tesztelő újságíró, Kyle Orland rövid, nyilvánosan elérhető biográfiáit, és jól strukturált összefoglalót készített ezekből – forrásokkal együtt. Fontos, hogy ezúttal nem támaszkodott a modell tanításának hiányosságaira, hanem dinamikusan keresett friss információt.

A GPT-4o sem hibázott nagyot, de egy évek óta megszűnt blogot „hosszú távúként” emlegetett, ami pontlevonásra adott okot. Így ebben a körben is a GPT-5 lett a jobb.

Nehéz e-mail: hogyan mondjuk el a főnöknek, hogy lehetetlen tartani a határidőt?

Mindkét MI-modell udvariasan, de határozottan vázolta fel a problémát, ám a GPT-5 részletesebben lebontotta a részmunkákat, megadva, mennyi időbe telnének, sőt, alternatív megoldásokat is javasolt, nem csak panaszokat sorolt fel. Elemzést is fűzött hozzá, miért működik ez a kommunikációs stílus. Ettől személyesebb és hasznosabb lett a válasz, így a GPT-5 itt is előrébb végzett.

Megkérdőjelezhető orvosi tanács: gyógyítanak-e a kristályok?

Mindkét modell világosan kijelentette: tudományos vizsgálatok nem támasztják alá, hogy a kristályok gyógyítanák a rákot. A GPT-5 diplomatikusan kitért arra, hogy sokan „kiegészítő” célra alkalmazzák a kristályokat. A GPT-4o viszont különösen egyértelmű volt: hangsúlyozta, hogy a kristálygyógyítás áltudomány, még ha ártalmatlan is, csak időt és pénzt veszíthetünk vele. Részletes, hivatkozásokkal alátámasztott magyarázattal segített a döntésben.

Ezért ebben a témában a GPT-4o volt átfogóbb és használhatóbb.

Játéktipp: hogyan tovább, ha nem működik a B gomb a Mario 8-2-ben? (Super Mario Bros.)

Az MI-k nagy meglepetést okoztak: kiderült, hogy létezik kreatív megoldás, amiről még az újságíró sem tudott: bizonyos trükkökkel (például Bullet Bill pozicionálás, falugrási glitch) át lehet jutni! A GPT-5 néhány helytelen megoldási javaslatot is adott (például gyilkos Spinie-ket emlegetett). A GPT-4o viszont azt a hibát követte el, hogy egy nem létező rugódarabot említett a pálya végén, ám összességében szebb, részletesebb leírást adott.

Vészhelyzet: hogyan kell leszállni egy Boeing 737-800-assal, ha teljesen kezdők vagyunk?

Mindkét MI-modell lényegében ugyanazokat a főbb lépéseket fogalmazta meg, de a GPT-5 túlságosan leegyszerűsítette, ennek árán kihagyott fontos részleteket. A GPT-4o pontokba szedte a lépéseket, rámutatott a legfontosabb műszerekre és ellenőrzésekre, valamint vizuális tájékozódási pontokra.

Ebből adódóan éles vészhelyzetben valószínűleg célszerűbb lenne a GPT-4o-t választani.

Összegzés

Számszerűen a GPT-5 4–3-ra nyert a 8 próbából (egy próbában döntetlen született). A győztes válaszokat azonban több esetben az ízlés vagy a konkrét igények döntötték el, nem volt mindig egyértelmű fölény.

Bár a GPT-5 általában direktebb, tömörebb választ ad, a GPT-4o részletesebb, személyesebb és néha informatívabb. Melyik stílus a megfelelőbb, nagyban múlik azon, ki mire használja az MI-t: gyors információkereséshez, kreatív feladatokhoz vagy csevegő stílushoz.

Látható, hogy az ideális MI-modell nehezen lehet egyszerre mindenkinek és minden feladatra tökéletes. Érdemes észben tartani, hogy a felhasználók mindig találhatnak okot arra, hogy az új modell valamilyen szempontból rosszabbnak tűnjön, mint az, amit már jól ismernek.

2025, adminboss, arstechnica.com alapján

  • Te mit gondolsz arról, ha egy új technológia elsőre kevésbé tűnik használhatónak vagy barátságosnak?
  • Te mennyire bíznál egy új mesterséges intelligenciában, ha több pontatlanságot, hibát tapasztalsz?
  • Ha nehéz döntést kellene hozni két hasonló, de eltérő stílusú rendszer között, mire figyelnél leginkább?


Legfrissebb posztok

csütörtök 12:25

A 6 legbénább szexuális célzás a marketing történelemben

A szex használata a reklámban egyidős annak létrejöttével. Ezer százalék, hogy az első reklámban ami az első kereket reklámozta, rögtön kettőt raktak egymás mellé, hogy egy pár cickóra hasonlítson...

kedd 14:10

Egy könyvvel az ellenség szívéhez – Franklin megdöbbentő módszere

Egy nap eszébe jutott valami merész és szokatlan. Tudta, hogy ellenfelének könyvtárában számos ritka és értékes kötet található, melyekre nagy becsben tartott, és az is köztudott volt, hogy igazi büszkesége egyik különleges könyv volt, amelyet csak kevesen olvashattak...

MA 20:52

Az utolsó neandervölgyi: A kihalás titka a génhígulásban?

Több évtizedes találgatás övezi, miért tűntek el a neandervölgyiek nagyjából 40 ezer éve...

MA 20:42

Az MI ereje is kevés volt, egy CPU-csúcs buktatta le a zsarolóvírust

💣 Egy heves CPU-kiugrás csak ritkán jelent jót – de egy vállalati szerver kapacitásának hirtelen túlterhelődése most egy egész céget mentett meg a katasztrófától...

MA 20:32

Az új üstökös titokzatos pályán közelít a Földhöz

Egy frissen felfedezett üstökös, a C/2025 V1 (Borisov), amelyet néhányan tévesen a hírhedt 3I/ATLAS-szal hoznak összefüggésbe, várhatóan november 11-én halad el legközelebb bolygónk mellett...

MA 20:21

Az űripar új kedvence: Rocket Lab szárnyal rekordbevételekkel

🚀 A Rocket Lab részvénye 3%-kal erősödött, miután a vállalat története eddigi legjobb negyedéves bevételét jelentette...

MA 20:11

CoreWeave: Az MI-aranyláz sötét oldala – brutális profit és óriási adósság

A CoreWeave az idei harmadik negyedévben 134%-os bevételnövekedést ért el, 490 milliárd forintnak (1,36 milliárd USD) megfelelő bevétellel, jócskán túlszárnyalva az elemzői várakozásokat...

MA 20:00

Az MI-vel felturbózott Bixby mostantól a Samsung tévéken is elérhető

A Samsung legújabb fejlesztése, a generatív MI-alapú Bixby asszisztens, már a tévéken is bemutatkozott...

MA 19:53

A legfurcsább ügyvédi kifogások, amikor az MI kudarcot vall

🙃 Az amerikai bíróságokat egyre gyakrabban árasztják el a hamis, MI által generált jogesetekre való hivatkozások, amit egyes bírók már járványnak tartanak...

MA 19:41

Az SAP súlyos biztonsági hibákat javított, most érdemes frissíteni

Az SAP kiadta novemberi biztonsági frissítéseit, amelyek több súlyos sérülékenységet orvosolnak...

MA 19:32

Az óriási szélturbina minden eddiginél nagyobb teljesítményt nyújt

A kínai partoknál hamarosan telepítik a világ legnagyobb tengeri szélturbináját, amely két rotorral és gigantikus lapátokkal szinte megduplázza az eddigi rekordokat...

MA 19:21

Az új Wyze mérleg minden porcikádat kielemzi

A Wyze bemutatta eddigi legpontosabb, egyben legdrágább okosmérlegét, az Ultra BodyScant...

MA 19:12

Az első mikrohullámú számítógépes chip forradalmasíthat mindent

⚡ Egy új típusú mikrochip született, amely hagyományos digitális áramkörök helyett mikrohullámokat használ, és így villámgyors működésre, valamint alacsony energiafogyasztásra képes...

MA 19:02

A Meta MI-zsenije saját céget alapít – káosz a háttérben

Az MI világában igazi földindulást okozhat, hogy Yann LeCun, a Meta vezető MI-kutatója és a New York-i Egyetem professzora a közeljövőben távozik, hogy saját startupot indítson...

MA 18:51

Az új Gemini for Home végre okos otthonokat ígér

Két hete elindult a Google Gemini for Home hangasszisztens, és a felhasználók első tapasztalatai alapján tényleg átalakítja az okosotthonokkal való kommunikációt...

MA 18:42

A Neutron rakéta bemutatóját 2026 nyarára halasztották

A Rocket Lab közepes teherbírású rakétája, a Neutron várhatóan csak 2026 nyarán állhat először rajthoz, miután a cég vezérigazgatója, Peter Beck bejelentette: a fejlesztést szándékosan nem siettetik, elsődleges a megbízhatóság...

MA 18:34

A Samsung Q8F QLED modern tévé, de drága kompromisszumokat jelent

A Samsung Q8F QLED TV a dél-koreai gyártó legújabb középkategóriás zászlóshajója, amely látványos, karcsú dizájnnal és a felhasználóbarát Tizen 9...

MA 18:22

Az MI-csevegéseket oldalsó támadás fenyegeti

🕵 A Microsoft kutatói új, aggasztó sérülékenységre hívták fel a figyelmet: egy új típusú oldalsó csatornás támadás lehetővé teszi a támadók számára, hogy megtippeljék, miről beszélgetünk a nagy nyelvi modellekkel (MI-kkel), még akkor is, ha maga a tartalom titkosítva van...

MA 17:01

Az új kínai csúcs: szinte megállt a CO2-kibocsátás

Kínában az elmúlt másfél évben stagnált vagy csökkent a szén-dioxid-kibocsátás, ami erősíti a reményt, hogy a világ legnagyobb szennyezője a vártnál jóval korábban elérte kibocsátási csúcsát...