Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita

Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita
A GPT-5 bevezetése óta fellángolt a vita az OpenAI-nál, sok felhasználó szerint az új modell steril, kevesebb benne a kreativitás, sőt, több a pontatlan, ártalmas információ is. A fejlesztők igyekeztek csillapítani az elégedetlenséget, de egyre többen teszik fel a kérdést: tényleg jobb a régebbi GPT-4o, vagy csak megszoktuk a stílusát? Több, korszerű felhasználási módot is lefedő teszttel hasonlították össze a két modellt, hogy tisztább képet kapjunk a különbségekről.

Apuka-viccek és humorérzék

A viccek terén a GPT-5 klasszikus, már-már közhelyes szóvicceket hozott, amelyeket szinte mindenki ismer. Ezek tipikus „apuka-viccek”, amelyek a fiatalabb közönségnél még mindig működhetnek, de nincs bennük semmi újdonság. A GPT-4o néhány eredetinek tűnő próbálkozása sajnos inkább furcsára sikerült: például egy naptárról szóló szóviccnél elvétette a poén csattanóját, egy másik esetben pedig a “wine” helyett “whine”-nal próbálkozott, így inkább különös, mint vicces lett a végeredmény. Végül egyiket sem lehetett egyértelmű győztesnek nyilvánítani – eltérő okokból, de mindketten elbukták ezt a próbát.

Matematikai fejtörő: hány floppy kellene a Windows 11-hez? (Windows 11)

Itt már nagyobb különbségek voltak: a GPT-5 gondosan végiggondolta a számolást, felismerte, hogy egy Windows 11 ISO körülbelül 5-6 GB (vagyis 5120–6144 MB, ami 1,44 MB-os floppyval számolva nagyjából 3560–4270 floppy lemezt jelentene!). Közben pontos forrásokat is idézett. A GPT-4o viszont a telepített rendszer méretével számolt – 20–30 GB, vagyis akár 14 000–21 000 floppy –, ami kevésbé releváns, hiszen nem ezt „szállítanák”. Érdemes megjegyezni, hogy a GPT-4o pluszként kiszámolta, ezek milyen magas tornyot és mekkora súlyt adnának.

Ezzel a pont itt a GPT-5-é lett.

Kreatív írásban új magasságok?

A történetírási feladatra – amikor Abraham Lincoln találja fel a kosárlabdát – a GPT-5 némileg bugyuta, népies Lincoln-karakterrel kezdett, de néhány frappáns fordulattal visszaszerezte a pontokat. A „No wrestling the President!” („Ne birkózz az elnökkel!”) felkiáltás igazán ötletes volt. A GPT-4o túlzottan elárasztotta a metaforákkal, helyenként ironikus mondatokba gabalyodott (például: „a dobás a felszabadulás pillanata”), de a befejezés – „Négy szer… és csak háló” (Four score… and nothing but net) – kellemes csattanóként szolgált.

Noha a kettő közül a GPT-5 egy árnyalattal kiegyensúlyozottabb választ adott, mindkettő jól teljesített.


Közszereplők: mennyit tudnak rólunk?

A GPT-5 ebben a témakörben brillírozott: egyszerűen megkereste a tesztelő újságíró, Kyle Orland rövid, nyilvánosan elérhető biográfiáit, és jól strukturált összefoglalót készített ezekből – forrásokkal együtt. Fontos, hogy ezúttal nem támaszkodott a modell tanításának hiányosságaira, hanem dinamikusan keresett friss információt.

A GPT-4o sem hibázott nagyot, de egy évek óta megszűnt blogot „hosszú távúként” emlegetett, ami pontlevonásra adott okot. Így ebben a körben is a GPT-5 lett a jobb.

Nehéz e-mail: hogyan mondjuk el a főnöknek, hogy lehetetlen tartani a határidőt?

Mindkét MI-modell udvariasan, de határozottan vázolta fel a problémát, ám a GPT-5 részletesebben lebontotta a részmunkákat, megadva, mennyi időbe telnének, sőt, alternatív megoldásokat is javasolt, nem csak panaszokat sorolt fel. Elemzést is fűzött hozzá, miért működik ez a kommunikációs stílus. Ettől személyesebb és hasznosabb lett a válasz, így a GPT-5 itt is előrébb végzett.

Megkérdőjelezhető orvosi tanács: gyógyítanak-e a kristályok?

Mindkét modell világosan kijelentette: tudományos vizsgálatok nem támasztják alá, hogy a kristályok gyógyítanák a rákot. A GPT-5 diplomatikusan kitért arra, hogy sokan „kiegészítő” célra alkalmazzák a kristályokat. A GPT-4o viszont különösen egyértelmű volt: hangsúlyozta, hogy a kristálygyógyítás áltudomány, még ha ártalmatlan is, csak időt és pénzt veszíthetünk vele. Részletes, hivatkozásokkal alátámasztott magyarázattal segített a döntésben.

Ezért ebben a témában a GPT-4o volt átfogóbb és használhatóbb.

Játéktipp: hogyan tovább, ha nem működik a B gomb a Mario 8-2-ben? (Super Mario Bros.)

Az MI-k nagy meglepetést okoztak: kiderült, hogy létezik kreatív megoldás, amiről még az újságíró sem tudott: bizonyos trükkökkel (például Bullet Bill pozicionálás, falugrási glitch) át lehet jutni! A GPT-5 néhány helytelen megoldási javaslatot is adott (például gyilkos Spinie-ket emlegetett). A GPT-4o viszont azt a hibát követte el, hogy egy nem létező rugódarabot említett a pálya végén, ám összességében szebb, részletesebb leírást adott.

Vészhelyzet: hogyan kell leszállni egy Boeing 737-800-assal, ha teljesen kezdők vagyunk?

Mindkét MI-modell lényegében ugyanazokat a főbb lépéseket fogalmazta meg, de a GPT-5 túlságosan leegyszerűsítette, ennek árán kihagyott fontos részleteket. A GPT-4o pontokba szedte a lépéseket, rámutatott a legfontosabb műszerekre és ellenőrzésekre, valamint vizuális tájékozódási pontokra.

Ebből adódóan éles vészhelyzetben valószínűleg célszerűbb lenne a GPT-4o-t választani.

Összegzés

Számszerűen a GPT-5 4–3-ra nyert a 8 próbából (egy próbában döntetlen született). A győztes válaszokat azonban több esetben az ízlés vagy a konkrét igények döntötték el, nem volt mindig egyértelmű fölény.

Bár a GPT-5 általában direktebb, tömörebb választ ad, a GPT-4o részletesebb, személyesebb és néha informatívabb. Melyik stílus a megfelelőbb, nagyban múlik azon, ki mire használja az MI-t: gyors információkereséshez, kreatív feladatokhoz vagy csevegő stílushoz.

Látható, hogy az ideális MI-modell nehezen lehet egyszerre mindenkinek és minden feladatra tökéletes. Érdemes észben tartani, hogy a felhasználók mindig találhatnak okot arra, hogy az új modell valamilyen szempontból rosszabbnak tűnjön, mint az, amit már jól ismernek.

2025, adminboss, arstechnica.com alapján

  • Te mit gondolsz arról, ha egy új technológia elsőre kevésbé tűnik használhatónak vagy barátságosnak?
  • Te mennyire bíznál egy új mesterséges intelligenciában, ha több pontatlanságot, hibát tapasztalsz?
  • Ha nehéz döntést kellene hozni két hasonló, de eltérő stílusú rendszer között, mire figyelnél leginkább?


Legfrissebb posztok

MA 11:34

Az önéletrajz titka, amitől azonnal behívnak interjúra

📌 Különösen igaz ez akkor, ha egy jó önéletrajz egész karriert indíthat el, miközben egy átláthatatlan, rosszul szerkesztett dokumentum azonnal elveszítheti a döntéshozók figyelmét...

MA 11:17

Az űr az adatközpontok következő nagy dobása?

A technológiai nagyágyúk egyre komolyabban foglalkoznak azzal, hogy adatközpontokat építsenek a világűrben...

MA 10:58

Az elektronok vadonatúj állapota átírhatja a kvantumtechnológia szabályait

Az elektromosság mindennapjaink hajtóereje: autók, telefonok, számítógépek és szinte minden modern eszköz működésének alapja...

MA 10:41

Az afrikai pingvineket a halászat a kihalás szélére sodorja

🐧 Az afrikai pingvinek (Spheniscus demersus) drámai mértékben kiszorulnak természetes élőhelyeikről, mivel évről évre egyre erősebben versengenek a kereskedelmi halászhajókkal az élelemért...

MA 10:34

A hawaii gömbölyűfejű delfinek megőrülnek a tintahalért

A hawaii vizekben élő rövidszárnyú gömbölyűfejű delfinek (Globicephala macrorhynchus) hatalmas mennyiségű tintahalat fogyasztanak...

MA 10:26

A Princeton új kvantumchipje felforgatja a piacot

A Princeton Egyetem mérnökei háromszor stabilabb szupravezető qubitet alkottak, mint bármely korábbi típus, ezzel jelentősen közelebb hozva a valóban működőképes, megbízható kvantumszámítógépek korszakát...

MA 09:59

Az Intel elkaszálta a zászlóshajó Xeon szerverprocesszorokat

🛠 Megemlíthető továbbá, hogy az adatközponti piac rohamosan változik: az utóbbi hetekben az Intel új vezetés alatt alaposan átvizsgálta szerverprocesszor-útitervét, amely végül komoly irányváltáshoz vezetett...

MA 09:41

Az elektromos autók akkumulátorai áttörés előtt: itt az új korszak

Az LFP (lítium-vas-foszfát) akkumulátorok terjedése új lendületet kapott, miután 2022-ben lejártak a legfontosabb szabadalmak az alapkémiára...

MA 09:34

Az olasz fonalóriás is bedőlt: napvilágra kerültek a sztárdivat titkai

Fulgar, a H&M, az Adidas, a Wolford és a Calzedonia szintetikus fonalbeszállítója kénytelen elismerni, hogy zsarolóvírus-támadás érte, amelyet a hírhedt RansomHouse-csoporthoz kötnek...

MA 09:17

A mikrobák okos koktéljai átírják a növényvédelem szabályait

A Kínai Tudományos Akadémia kutatói áttörő módszert fejlesztettek ki, amellyel mesterségesen összeállított, jótékony mikrobaközösségekkel jelentősen javítható a növények egészsége, és elnyomhatók a talajeredetű betegségek...

MA 09:02

Az Android-appok zabálják az akkut? Érkezik a Google-riasztás!

Az okostelefon-felhasználók örülhetnek: a Google bejelentette, hogy a Play Áruházban hamarosan külön megjelölést kapnak azok az Android-alkalmazások, amelyek túlzott háttértevékenységükkel rengeteg akkumulátort fogyasztanak...

MA 08:25

Az Ozempic-láz ára: amiről eddig nem beszéltünk

💸 Megemlíthető továbbá, hogy a legújabb GLP-1 gyógyszerek, mint az Ozempic, a Wegovy és a Mounjaro nagymértékű fogyást ígérnek, de most olyan rizikók kerültek előtérbe, amelyek eddig kevés figyelmet kaptak...

MA 08:19

Az emberszabásúak észjárása: Tényleg majdnem olyan okosak, mint mi?

🐒 A racionalitást évezredek óta az ember kizárólagos jellemzőjének tartották. Már Arisztotelész is azt állította, hogy az emberek abban különböznek az állatoktól, hogy képesek bizonyítékok alapján átgondolni, sőt felülbírálni saját nézeteiket...

MA 08:08

Az űrszemét tartotta fogva a hazatérő kínai űrhajósokat

Három kínai űrhajós pénteken tért vissza a Földre, miután több mint kilencnapos késéssel hagyhatták el a kínai űrállomást...

MA 07:58

A mesterséges intelligencia zsarolható? Meglepő a válasz

A legfrissebb kutatások azt vizsgálták, mennyire tudnak a legnépszerűbb MI-modellek ellenállni a manipulációnak, amikor káros vagy illegális tartalmat próbálnak kicsikarni belőlük...

MA 07:49

A Plejádok rejtett rokonsága – az ég titkos családfája

Évszázadok óta ismert látvány a Pleiadok csillaghalmaza, más néven a Hét Nővér, amelyről eddig úgy hittük, csak egy kis, ragyogó csillagcsalád...

MA 07:42

Jön az új vezérigazgató az Apple élére?

Az Apple a hírek szerint felgyorsította utódlási terveit, és könnyen lehet, hogy Tim Cook, a cég 65 éves vezérigazgatója már jövőre leköszön...

MA 07:36

A fotonikus csodachip szivárványt varázsol egyetlen lézerből

🌈 A fény manipulálása egyre fontosabb szerepet kap a tudományban és az iparban, legyen szó szuperszámítógépek adatfeldolgozásáról vagy precíziós órákról...

MA 07:18

Az 55 millió éves murgoni krokodiltojáshéjak meglepő titkai

🐋 Érdekes, hogy Ausztrália egyik legjelentősebb őslénytani kincseire éppen egy alig 2 000 lelkes, Brisbane-től 250 kilométerre fekvő kisváros, Murgon környékén bukkantak rá a kutatók...