Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita

Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita
A GPT-5 bevezetése óta fellángolt a vita az OpenAI-nál, sok felhasználó szerint az új modell steril, kevesebb benne a kreativitás, sőt, több a pontatlan, ártalmas információ is. A fejlesztők igyekeztek csillapítani az elégedetlenséget, de egyre többen teszik fel a kérdést: tényleg jobb a régebbi GPT-4o, vagy csak megszoktuk a stílusát? Több, korszerű felhasználási módot is lefedő teszttel hasonlították össze a két modellt, hogy tisztább képet kapjunk a különbségekről.

Apuka-viccek és humorérzék

A viccek terén a GPT-5 klasszikus, már-már közhelyes szóvicceket hozott, amelyeket szinte mindenki ismer. Ezek tipikus „apuka-viccek”, amelyek a fiatalabb közönségnél még mindig működhetnek, de nincs bennük semmi újdonság. A GPT-4o néhány eredetinek tűnő próbálkozása sajnos inkább furcsára sikerült: például egy naptárról szóló szóviccnél elvétette a poén csattanóját, egy másik esetben pedig a “wine” helyett “whine”-nal próbálkozott, így inkább különös, mint vicces lett a végeredmény. Végül egyiket sem lehetett egyértelmű győztesnek nyilvánítani – eltérő okokból, de mindketten elbukták ezt a próbát.

Matematikai fejtörő: hány floppy kellene a Windows 11-hez? (Windows 11)

Itt már nagyobb különbségek voltak: a GPT-5 gondosan végiggondolta a számolást, felismerte, hogy egy Windows 11 ISO körülbelül 5-6 GB (vagyis 5120–6144 MB, ami 1,44 MB-os floppyval számolva nagyjából 3560–4270 floppy lemezt jelentene!). Közben pontos forrásokat is idézett. A GPT-4o viszont a telepített rendszer méretével számolt – 20–30 GB, vagyis akár 14 000–21 000 floppy –, ami kevésbé releváns, hiszen nem ezt „szállítanák”. Érdemes megjegyezni, hogy a GPT-4o pluszként kiszámolta, ezek milyen magas tornyot és mekkora súlyt adnának.

Ezzel a pont itt a GPT-5-é lett.

Kreatív írásban új magasságok?

A történetírási feladatra – amikor Abraham Lincoln találja fel a kosárlabdát – a GPT-5 némileg bugyuta, népies Lincoln-karakterrel kezdett, de néhány frappáns fordulattal visszaszerezte a pontokat. A „No wrestling the President!” („Ne birkózz az elnökkel!”) felkiáltás igazán ötletes volt. A GPT-4o túlzottan elárasztotta a metaforákkal, helyenként ironikus mondatokba gabalyodott (például: „a dobás a felszabadulás pillanata”), de a befejezés – „Négy szer… és csak háló” (Four score… and nothing but net) – kellemes csattanóként szolgált.

Noha a kettő közül a GPT-5 egy árnyalattal kiegyensúlyozottabb választ adott, mindkettő jól teljesített.


Közszereplők: mennyit tudnak rólunk?

A GPT-5 ebben a témakörben brillírozott: egyszerűen megkereste a tesztelő újságíró, Kyle Orland rövid, nyilvánosan elérhető biográfiáit, és jól strukturált összefoglalót készített ezekből – forrásokkal együtt. Fontos, hogy ezúttal nem támaszkodott a modell tanításának hiányosságaira, hanem dinamikusan keresett friss információt.

A GPT-4o sem hibázott nagyot, de egy évek óta megszűnt blogot „hosszú távúként” emlegetett, ami pontlevonásra adott okot. Így ebben a körben is a GPT-5 lett a jobb.

Nehéz e-mail: hogyan mondjuk el a főnöknek, hogy lehetetlen tartani a határidőt?

Mindkét MI-modell udvariasan, de határozottan vázolta fel a problémát, ám a GPT-5 részletesebben lebontotta a részmunkákat, megadva, mennyi időbe telnének, sőt, alternatív megoldásokat is javasolt, nem csak panaszokat sorolt fel. Elemzést is fűzött hozzá, miért működik ez a kommunikációs stílus. Ettől személyesebb és hasznosabb lett a válasz, így a GPT-5 itt is előrébb végzett.

Megkérdőjelezhető orvosi tanács: gyógyítanak-e a kristályok?

Mindkét modell világosan kijelentette: tudományos vizsgálatok nem támasztják alá, hogy a kristályok gyógyítanák a rákot. A GPT-5 diplomatikusan kitért arra, hogy sokan „kiegészítő” célra alkalmazzák a kristályokat. A GPT-4o viszont különösen egyértelmű volt: hangsúlyozta, hogy a kristálygyógyítás áltudomány, még ha ártalmatlan is, csak időt és pénzt veszíthetünk vele. Részletes, hivatkozásokkal alátámasztott magyarázattal segített a döntésben.

Ezért ebben a témában a GPT-4o volt átfogóbb és használhatóbb.

Játéktipp: hogyan tovább, ha nem működik a B gomb a Mario 8-2-ben? (Super Mario Bros.)

Az MI-k nagy meglepetést okoztak: kiderült, hogy létezik kreatív megoldás, amiről még az újságíró sem tudott: bizonyos trükkökkel (például Bullet Bill pozicionálás, falugrási glitch) át lehet jutni! A GPT-5 néhány helytelen megoldási javaslatot is adott (például gyilkos Spinie-ket emlegetett). A GPT-4o viszont azt a hibát követte el, hogy egy nem létező rugódarabot említett a pálya végén, ám összességében szebb, részletesebb leírást adott.

Vészhelyzet: hogyan kell leszállni egy Boeing 737-800-assal, ha teljesen kezdők vagyunk?

Mindkét MI-modell lényegében ugyanazokat a főbb lépéseket fogalmazta meg, de a GPT-5 túlságosan leegyszerűsítette, ennek árán kihagyott fontos részleteket. A GPT-4o pontokba szedte a lépéseket, rámutatott a legfontosabb műszerekre és ellenőrzésekre, valamint vizuális tájékozódási pontokra.

Ebből adódóan éles vészhelyzetben valószínűleg célszerűbb lenne a GPT-4o-t választani.

Összegzés

Számszerűen a GPT-5 4–3-ra nyert a 8 próbából (egy próbában döntetlen született). A győztes válaszokat azonban több esetben az ízlés vagy a konkrét igények döntötték el, nem volt mindig egyértelmű fölény.

Bár a GPT-5 általában direktebb, tömörebb választ ad, a GPT-4o részletesebb, személyesebb és néha informatívabb. Melyik stílus a megfelelőbb, nagyban múlik azon, ki mire használja az MI-t: gyors információkereséshez, kreatív feladatokhoz vagy csevegő stílushoz.

Látható, hogy az ideális MI-modell nehezen lehet egyszerre mindenkinek és minden feladatra tökéletes. Érdemes észben tartani, hogy a felhasználók mindig találhatnak okot arra, hogy az új modell valamilyen szempontból rosszabbnak tűnjön, mint az, amit már jól ismernek.

2025, adminboss, arstechnica.com alapján

  • Te mit gondolsz arról, ha egy új technológia elsőre kevésbé tűnik használhatónak vagy barátságosnak?
  • Te mennyire bíznál egy új mesterséges intelligenciában, ha több pontatlanságot, hibát tapasztalsz?
  • Ha nehéz döntést kellene hozni két hasonló, de eltérő stílusú rendszer között, mire figyelnél leginkább?



Legfrissebb posztok

Kína klímavállalása, most tényleg érdemes figyelni
péntek 00:00

Kína klímavállalása, most tényleg érdemes figyelni

🌍 Különösen fontos hangsúlyozni, hogy amikor Kína klímacélokat tűz ki, arra a világnak érdemes odafigyelnie. A pekingi vezetés ugyanis általában csak olyasmit ígér meg, amit valóban szándékában áll teljesíteni,...

MA 23:30

Az MI-vezérelt műholdas net mostantól mindenhol elérhető

A T-Mobile T-Satellite szolgáltatása, amely a Starlink műholdakat használja, már nemcsak SMS-ekhez működik, hanem több alkalmazást is támogat. Mostantól például az AllTrails, az AccuWeather, az X (korábban Twitter),...

Új felfedezések az Enceladuson, lehet ott élet a Szaturnusz holdján
MA 23:02

Új felfedezések az Enceladuson, lehet ott élet a Szaturnusz holdján

🚀 A Szaturnusz jeges holdja, az Enceladus ismét felkeltette a tudósok figyelmét, köszönhetően a Cassini űrszonda adatainak friss elemzéséhez. A felszín alatt rejtőző óceánból feltörő jégszemcsékben szokatlanul összetett szerves...

MA 22:58

Az MI tuning új korszaka: bárki finomhangolhatja a gépi tanulást

A Thinking Machines Lab, amelyet az OpenAI egykori vezéralakjai, köztük Mira Murati alapítottak, első termékével robban be az MI világába. Az újdonság neve Tinker, és célja, hogy kutatók,...

Az OpenShift AI-t bárki feltörheti: komoly hiba veszélyeztet
MA 22:01

Az OpenShift AI-t bárki feltörheti: komoly hiba veszélyeztet

⚠ A Red Hat OpenShift AI szolgáltatásában súlyos, 9,9-es veszélyességű sebezhetőséget fedeztek fel, amely lehetőséget ad távoli támadóknak arra, hogy minimális jogosultsággal is átvegyék az egész platform irányítását. Ez...

Az MI-sokkoló: A robotok még nem vették el a munkádat
MA 21:59

Az MI-sokkoló: A robotok még nem vették el a munkádat

🤖 A Yale Egyetem közgazdászai alaposan megvizsgálták, mi történt az amerikai munkaerőpiacon azóta, hogy 2022 novemberében megjelent a ChatGPT és a többi generatív MI-rendszer. Megnyugtató következtetésük szerint az MI-forradalom...

Az Apple elengedi a könnyebb Vision Pro-t, jönnek az okosszemüvegek
MA 21:30

Az Apple elengedi a könnyebb Vision Pro-t, jönnek az okosszemüvegek

Az Apple jelentősen felgyorsította az okosszemüvegek fejlesztését, miközben félretette a régóta tervezett, könnyebb Vision Pro headset elkészítését. A cég legalább kétféle szemüvegen dolgozik: az egyik egy kijelző nélküli...

Már most olcsóbban vehetünk robotporszívót, méghozzá jelentős kedvezménnyel
MA 21:02

Már most olcsóbban vehetünk robotporszívót, méghozzá jelentős kedvezménnyel

Az őszi nagy vásárlási láz még el sem kezdődött, de a robotporszívók piacán már most komoly akciókba futhat bele az, aki előre gondolkodik. Idén az olyan ismert gyártók,...

MA 21:01

A szaturnuszi hold izgalmas titka: újabb jelek az élet lehetőségére

Enceladus, a Szaturnusz hatodik legnagyobb holdja ismét a tudományos érdeklődés középpontjába került. A Cassini űrszonda (Cassini) 2017-ben befejeződött küldetése során fedezte fel, hogy a hold déli pólusán hatalmas...