Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita

Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita
A GPT-5 bevezetése óta fellángolt a vita az OpenAI-nál, sok felhasználó szerint az új modell steril, kevesebb benne a kreativitás, sőt, több a pontatlan, ártalmas információ is. A fejlesztők igyekeztek csillapítani az elégedetlenséget, de egyre többen teszik fel a kérdést: tényleg jobb a régebbi GPT-4o, vagy csak megszoktuk a stílusát? Több, korszerű felhasználási módot is lefedő teszttel hasonlították össze a két modellt, hogy tisztább képet kapjunk a különbségekről.

Apuka-viccek és humorérzék

A viccek terén a GPT-5 klasszikus, már-már közhelyes szóvicceket hozott, amelyeket szinte mindenki ismer. Ezek tipikus „apuka-viccek”, amelyek a fiatalabb közönségnél még mindig működhetnek, de nincs bennük semmi újdonság. A GPT-4o néhány eredetinek tűnő próbálkozása sajnos inkább furcsára sikerült: például egy naptárról szóló szóviccnél elvétette a poén csattanóját, egy másik esetben pedig a “wine” helyett “whine”-nal próbálkozott, így inkább különös, mint vicces lett a végeredmény. Végül egyiket sem lehetett egyértelmű győztesnek nyilvánítani – eltérő okokból, de mindketten elbukták ezt a próbát.

Matematikai fejtörő: hány floppy kellene a Windows 11-hez? (Windows 11)

Itt már nagyobb különbségek voltak: a GPT-5 gondosan végiggondolta a számolást, felismerte, hogy egy Windows 11 ISO körülbelül 5-6 GB (vagyis 5120–6144 MB, ami 1,44 MB-os floppyval számolva nagyjából 3560–4270 floppy lemezt jelentene!). Közben pontos forrásokat is idézett. A GPT-4o viszont a telepített rendszer méretével számolt – 20–30 GB, vagyis akár 14 000–21 000 floppy –, ami kevésbé releváns, hiszen nem ezt „szállítanák”. Érdemes megjegyezni, hogy a GPT-4o pluszként kiszámolta, ezek milyen magas tornyot és mekkora súlyt adnának.

Ezzel a pont itt a GPT-5-é lett.

Kreatív írásban új magasságok?

A történetírási feladatra – amikor Abraham Lincoln találja fel a kosárlabdát – a GPT-5 némileg bugyuta, népies Lincoln-karakterrel kezdett, de néhány frappáns fordulattal visszaszerezte a pontokat. A „No wrestling the President!” („Ne birkózz az elnökkel!”) felkiáltás igazán ötletes volt. A GPT-4o túlzottan elárasztotta a metaforákkal, helyenként ironikus mondatokba gabalyodott (például: „a dobás a felszabadulás pillanata”), de a befejezés – „Négy szer… és csak háló” (Four score… and nothing but net) – kellemes csattanóként szolgált.

Noha a kettő közül a GPT-5 egy árnyalattal kiegyensúlyozottabb választ adott, mindkettő jól teljesített.


Közszereplők: mennyit tudnak rólunk?

A GPT-5 ebben a témakörben brillírozott: egyszerűen megkereste a tesztelő újságíró, Kyle Orland rövid, nyilvánosan elérhető biográfiáit, és jól strukturált összefoglalót készített ezekből – forrásokkal együtt. Fontos, hogy ezúttal nem támaszkodott a modell tanításának hiányosságaira, hanem dinamikusan keresett friss információt.

A GPT-4o sem hibázott nagyot, de egy évek óta megszűnt blogot „hosszú távúként” emlegetett, ami pontlevonásra adott okot. Így ebben a körben is a GPT-5 lett a jobb.

Nehéz e-mail: hogyan mondjuk el a főnöknek, hogy lehetetlen tartani a határidőt?

Mindkét MI-modell udvariasan, de határozottan vázolta fel a problémát, ám a GPT-5 részletesebben lebontotta a részmunkákat, megadva, mennyi időbe telnének, sőt, alternatív megoldásokat is javasolt, nem csak panaszokat sorolt fel. Elemzést is fűzött hozzá, miért működik ez a kommunikációs stílus. Ettől személyesebb és hasznosabb lett a válasz, így a GPT-5 itt is előrébb végzett.

Megkérdőjelezhető orvosi tanács: gyógyítanak-e a kristályok?

Mindkét modell világosan kijelentette: tudományos vizsgálatok nem támasztják alá, hogy a kristályok gyógyítanák a rákot. A GPT-5 diplomatikusan kitért arra, hogy sokan „kiegészítő” célra alkalmazzák a kristályokat. A GPT-4o viszont különösen egyértelmű volt: hangsúlyozta, hogy a kristálygyógyítás áltudomány, még ha ártalmatlan is, csak időt és pénzt veszíthetünk vele. Részletes, hivatkozásokkal alátámasztott magyarázattal segített a döntésben.

Ezért ebben a témában a GPT-4o volt átfogóbb és használhatóbb.

Játéktipp: hogyan tovább, ha nem működik a B gomb a Mario 8-2-ben? (Super Mario Bros.)

Az MI-k nagy meglepetést okoztak: kiderült, hogy létezik kreatív megoldás, amiről még az újságíró sem tudott: bizonyos trükkökkel (például Bullet Bill pozicionálás, falugrási glitch) át lehet jutni! A GPT-5 néhány helytelen megoldási javaslatot is adott (például gyilkos Spinie-ket emlegetett). A GPT-4o viszont azt a hibát követte el, hogy egy nem létező rugódarabot említett a pálya végén, ám összességében szebb, részletesebb leírást adott.

Vészhelyzet: hogyan kell leszállni egy Boeing 737-800-assal, ha teljesen kezdők vagyunk?

Mindkét MI-modell lényegében ugyanazokat a főbb lépéseket fogalmazta meg, de a GPT-5 túlságosan leegyszerűsítette, ennek árán kihagyott fontos részleteket. A GPT-4o pontokba szedte a lépéseket, rámutatott a legfontosabb műszerekre és ellenőrzésekre, valamint vizuális tájékozódási pontokra.

Ebből adódóan éles vészhelyzetben valószínűleg célszerűbb lenne a GPT-4o-t választani.

Összegzés

Számszerűen a GPT-5 4–3-ra nyert a 8 próbából (egy próbában döntetlen született). A győztes válaszokat azonban több esetben az ízlés vagy a konkrét igények döntötték el, nem volt mindig egyértelmű fölény.

Bár a GPT-5 általában direktebb, tömörebb választ ad, a GPT-4o részletesebb, személyesebb és néha informatívabb. Melyik stílus a megfelelőbb, nagyban múlik azon, ki mire használja az MI-t: gyors információkereséshez, kreatív feladatokhoz vagy csevegő stílushoz.

Látható, hogy az ideális MI-modell nehezen lehet egyszerre mindenkinek és minden feladatra tökéletes. Érdemes észben tartani, hogy a felhasználók mindig találhatnak okot arra, hogy az új modell valamilyen szempontból rosszabbnak tűnjön, mint az, amit már jól ismernek.

2025, adminboss, arstechnica.com alapján

  • Te mit gondolsz arról, ha egy új technológia elsőre kevésbé tűnik használhatónak vagy barátságosnak?
  • Te mennyire bíznál egy új mesterséges intelligenciában, ha több pontatlanságot, hibát tapasztalsz?
  • Ha nehéz döntést kellene hozni két hasonló, de eltérő stílusú rendszer között, mire figyelnél leginkább?



Legfrissebb posztok

A Cisco lehetne az MI nagy nyertese, ha engednék

MA 23:27

A Cisco lehetne az MI nagy nyertese, ha engednék

A Cisco Systems legutóbbi negyedéves eredményei ismét bizonyították, hogy a cég helye megkérdőjelezhetetlen a mesterséges intelligencia (MI) piacán. A július 26-án zárult időszakban a bevétel éves összehasonlításban 8%-kal...

Az antarktiszi sziget rejtélyes sötét lyukai a felhőkben

MA 23:01

Az antarktiszi sziget rejtélyes sötét lyukai a felhőkben

2016-ban különös jelenséget örökített meg a Landsat 8 műhold: tíz sötét örvény jelent meg a felhők között a lakatlan Heard-sziget felett, az Indiai-óceánban. Ez az ausztrál fennhatóság alá...

Az oroszok már a bírósági aktákban is turkálnak

MA 22:51

Az oroszok már a bírósági aktákban is turkálnak

Az amerikai szövetségi bíróságok ügykezelő adatbázisait hekkelték meg; a támadás mögött orosz kibertámadókat sejtenek. A támadásra már júliusban fény derült, de hivatalos részletek továbbra sincsenek a behatolás mértékéről,...

Sokkoló vírustrükk: így csomagolják be tökéletesen a saját genetikai kódjukat!

MA 22:01

Sokkoló vírustrükk: így csomagolják be tökéletesen a saját genetikai kódjukat!

A vírusok lenyűgöző pontossággal képesek bepakolni saját RNS-üket apró fehérjeburkokba, úgynevezett kapszidokba – ráadásul egy átlagos vírus több mint 99%-os hatékonysággal dolgozik. A San Diego Állami Egyetem (San...


MA 21:54

Fedezd fel a denevérek világát, hallgasd meg őket te is

Amikor leszáll az este, a természet új arca tárul elénk: a denevérek nesztelen suhanása, amit szabad füllel szinte lehetetlen érzékelni. Aki szeretné megtapasztalni éjszakai életüket, annak a 2025-ös...

Az új Google MI segít olcsóbb repülőjegyet találni

MA 21:26

Az új Google MI segít olcsóbb repülőjegyet találni

A Google beveti a mesterséges intelligenciát a repülőjegy-keresésben: elindult a Repülőjegy-ajánlatok (Flight Deals) nevű eszköz, amely már béta verzióban elérhető. Elsőként az Egyesült Államokban, Kanadában és Indiában indul...

Az MI és a botrányos Grok: Levetkőztették Taylor Swiftet

MA 21:01

Az MI és a botrányos Grok: Levetkőztették Taylor Swiftet

👀 Elon Musk cégének, az xAI-nak új MI-alkalmazása, a Grok Imagine komoly vitákat váltott ki. A program kép- és videógenerálója, különösen a „Spicy”, vagyis felnőtt tartalmakat ösztönző módja váltott...

Mikor az MI megőrül, furcsán kezd viselkedni a csevegőrobot

MA 20:27

Mikor az MI megőrül, furcsán kezd viselkedni a csevegőrobot

🙃 Míg sokan tisztában vannak azzal, hogy a csevegőrobotok félrevezető vagy hibás válaszokat adhatnak, egy friss jelenségre kevesebben figyelnek fel: egyre gyakrabban fordul elő az úgynevezett MI-pszichózis, amikor valaki...

Az idei Perseidák: Így láthatod a hullócsillagokat a telihold ellenére

MA 20:01

Az idei Perseidák: Így láthatod a hullócsillagokat a telihold ellenére

🌠 A Perseida meteorraj minden év egyik leglátványosabb égi eseménye Észak-Amerikában és Európában, idén azonban kevésbé lesz tökéletes az élmény. Augusztus 12-13-án tetőzik a raj, ilyenkor akár óránként 75...