2025. 08. 16., 23:52

Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita

Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita
A GPT-5 bevezetése óta fellángolt a vita az OpenAI-nál, sok felhasználó szerint az új modell steril, kevesebb benne a kreativitás, sőt, több a pontatlan, ártalmas információ is. A fejlesztők igyekeztek csillapítani az elégedetlenséget, de egyre többen teszik fel a kérdést: tényleg jobb a régebbi GPT-4o, vagy csak megszoktuk a stílusát? Több, korszerű felhasználási módot is lefedő teszttel hasonlították össze a két modellt, hogy tisztább képet kapjunk a különbségekről.

Apuka-viccek és humorérzék

A viccek terén a GPT-5 klasszikus, már-már közhelyes szóvicceket hozott, amelyeket szinte mindenki ismer. Ezek tipikus „apuka-viccek”, amelyek a fiatalabb közönségnél még mindig működhetnek, de nincs bennük semmi újdonság. A GPT-4o néhány eredetinek tűnő próbálkozása sajnos inkább furcsára sikerült: például egy naptárról szóló szóviccnél elvétette a poén csattanóját, egy másik esetben pedig a “wine” helyett “whine”-nal próbálkozott, így inkább különös, mint vicces lett a végeredmény. Végül egyiket sem lehetett egyértelmű győztesnek nyilvánítani – eltérő okokból, de mindketten elbukták ezt a próbát.

Matematikai fejtörő: hány floppy kellene a Windows 11-hez? (Windows 11)

Itt már nagyobb különbségek voltak: a GPT-5 gondosan végiggondolta a számolást, felismerte, hogy egy Windows 11 ISO körülbelül 5-6 GB (vagyis 5120–6144 MB, ami 1,44 MB-os floppyval számolva nagyjából 3560–4270 floppy lemezt jelentene!). Közben pontos forrásokat is idézett. A GPT-4o viszont a telepített rendszer méretével számolt – 20–30 GB, vagyis akár 14 000–21 000 floppy –, ami kevésbé releváns, hiszen nem ezt „szállítanák”. Érdemes megjegyezni, hogy a GPT-4o pluszként kiszámolta, ezek milyen magas tornyot és mekkora súlyt adnának.

Ezzel a pont itt a GPT-5-é lett.

Kreatív írásban új magasságok?

A történetírási feladatra – amikor Abraham Lincoln találja fel a kosárlabdát – a GPT-5 némileg bugyuta, népies Lincoln-karakterrel kezdett, de néhány frappáns fordulattal visszaszerezte a pontokat. A „No wrestling the President!” („Ne birkózz az elnökkel!”) felkiáltás igazán ötletes volt. A GPT-4o túlzottan elárasztotta a metaforákkal, helyenként ironikus mondatokba gabalyodott (például: „a dobás a felszabadulás pillanata”), de a befejezés – „Négy szer… és csak háló” (Four score… and nothing but net) – kellemes csattanóként szolgált.

Noha a kettő közül a GPT-5 egy árnyalattal kiegyensúlyozottabb választ adott, mindkettő jól teljesített.


Közszereplők: mennyit tudnak rólunk?

A GPT-5 ebben a témakörben brillírozott: egyszerűen megkereste a tesztelő újságíró, Kyle Orland rövid, nyilvánosan elérhető biográfiáit, és jól strukturált összefoglalót készített ezekből – forrásokkal együtt. Fontos, hogy ezúttal nem támaszkodott a modell tanításának hiányosságaira, hanem dinamikusan keresett friss információt.

A GPT-4o sem hibázott nagyot, de egy évek óta megszűnt blogot „hosszú távúként” emlegetett, ami pontlevonásra adott okot. Így ebben a körben is a GPT-5 lett a jobb.

Nehéz e-mail: hogyan mondjuk el a főnöknek, hogy lehetetlen tartani a határidőt?

Mindkét MI-modell udvariasan, de határozottan vázolta fel a problémát, ám a GPT-5 részletesebben lebontotta a részmunkákat, megadva, mennyi időbe telnének, sőt, alternatív megoldásokat is javasolt, nem csak panaszokat sorolt fel. Elemzést is fűzött hozzá, miért működik ez a kommunikációs stílus. Ettől személyesebb és hasznosabb lett a válasz, így a GPT-5 itt is előrébb végzett.

Megkérdőjelezhető orvosi tanács: gyógyítanak-e a kristályok?

Mindkét modell világosan kijelentette: tudományos vizsgálatok nem támasztják alá, hogy a kristályok gyógyítanák a rákot. A GPT-5 diplomatikusan kitért arra, hogy sokan „kiegészítő” célra alkalmazzák a kristályokat. A GPT-4o viszont különösen egyértelmű volt: hangsúlyozta, hogy a kristálygyógyítás áltudomány, még ha ártalmatlan is, csak időt és pénzt veszíthetünk vele. Részletes, hivatkozásokkal alátámasztott magyarázattal segített a döntésben.

Ezért ebben a témában a GPT-4o volt átfogóbb és használhatóbb.

Játéktipp: hogyan tovább, ha nem működik a B gomb a Mario 8-2-ben? (Super Mario Bros.)

Az MI-k nagy meglepetést okoztak: kiderült, hogy létezik kreatív megoldás, amiről még az újságíró sem tudott: bizonyos trükkökkel (például Bullet Bill pozicionálás, falugrási glitch) át lehet jutni! A GPT-5 néhány helytelen megoldási javaslatot is adott (például gyilkos Spinie-ket emlegetett). A GPT-4o viszont azt a hibát követte el, hogy egy nem létező rugódarabot említett a pálya végén, ám összességében szebb, részletesebb leírást adott.

Vészhelyzet: hogyan kell leszállni egy Boeing 737-800-assal, ha teljesen kezdők vagyunk?

Mindkét MI-modell lényegében ugyanazokat a főbb lépéseket fogalmazta meg, de a GPT-5 túlságosan leegyszerűsítette, ennek árán kihagyott fontos részleteket. A GPT-4o pontokba szedte a lépéseket, rámutatott a legfontosabb műszerekre és ellenőrzésekre, valamint vizuális tájékozódási pontokra.

Ebből adódóan éles vészhelyzetben valószínűleg célszerűbb lenne a GPT-4o-t választani.

Összegzés

Számszerűen a GPT-5 4–3-ra nyert a 8 próbából (egy próbában döntetlen született). A győztes válaszokat azonban több esetben az ízlés vagy a konkrét igények döntötték el, nem volt mindig egyértelmű fölény.

Bár a GPT-5 általában direktebb, tömörebb választ ad, a GPT-4o részletesebb, személyesebb és néha informatívabb. Melyik stílus a megfelelőbb, nagyban múlik azon, ki mire használja az MI-t: gyors információkereséshez, kreatív feladatokhoz vagy csevegő stílushoz.

Látható, hogy az ideális MI-modell nehezen lehet egyszerre mindenkinek és minden feladatra tökéletes. Érdemes észben tartani, hogy a felhasználók mindig találhatnak okot arra, hogy az új modell valamilyen szempontból rosszabbnak tűnjön, mint az, amit már jól ismernek.

2025, adminboss, arstechnica.com alapján

  • Te mit gondolsz arról, ha egy új technológia elsőre kevésbé tűnik használhatónak vagy barátságosnak?
  • Te mennyire bíznál egy új mesterséges intelligenciában, ha több pontatlanságot, hibát tapasztalsz?
  • Ha nehéz döntést kellene hozni két hasonló, de eltérő stílusú rendszer között, mire figyelnél leginkább?


Legfrissebb posztok

MA 17:02

A Rhythm Heaven Groove fél ütemmel kullog a vetélytársak mögött

Ha valaki több mint egy évtizede játszott a Rhythm Heavennel, valószínűleg sosem felejtette el azt a különös, szürreális világot, ahol dadogó pankrátorok és furcsa madarak ugrálnak egy lélekmelengető popdallamra...

MA 16:31

Az antwerpeni társasháztűzben legalább hatan meghaltak

🔥 Legalább hatan életüket vesztették, amikor tűz ütött ki egy tízemeletes társasházban Antwerpen Linkeroever városrészében...

MA 16:01

A brit üvegszálfronton új csavar: gyorsítottan kebeleznék be a Netomniát

A brit távközlési piac gigantikus átalakulása zajlik: az ország versenyhatósága kiemelt vizsgálatot indított annak kapcsán, hogy a Netomnia anyavállalatát, a Substantialt a Liberty Global, a Telefonica és az InfraVia konzorciuma felvásárolja...

MA 15:31

Az étteremláncok titkos háborúja az új márkák bekebelezéséért

Egy márka felvásárlása mindig izgalmas hír, de az igazi próbatétel csak akkor kezdődik, amikor a háttérben elindul a két vállalkozás összefésülése...

MA 15:01

A Meta limitet szab az okosszemüvegek Conversation Focusának

👑 A Meta okosszemüvegei új korlátozást kaptak: már csak havi három órán át használható ingyen a Conversation Focus nevű funkció...

MA 14:31

Az amerikai kormány újra zöld utat ad Anthropic Mythos és Fable MI‑modelljeinek

Az Egyesült Államok Kereskedelmi Minisztériuma feloldotta az exporttilalmat az Anthropic két fejlett MI-modellje, a Mythos 5 és a Fable 5 esetében...

MA 10:25

Az amerikai kormány zöld utat ad a legerősebb Claude-oknak

Az Anthropic szerdától újra elérhetővé teszi a csúcskategóriás Claude Fable 5-öt, miután a Kereskedelmi Minisztérium feloldotta az exportkorlátozásokat...

MA 10:01

A Meta-leépítések után is cáfolja az MI miatti állásfélelmeket Zuckerberg

A technológiai iparban egyre nagyobb félelem övezi azt, hogy az MI széles körű elterjedése mennyi munkahely megszűnéséhez vezethet...

MA 09:25

A rejtélyesen eltűnő chatek: felháborodtak a Claude Code-felhasználók

Érdemes megvizsgálni, hogy a Claude Code felhasználói egyre gyakrabban panaszkodnak arra, hogy egyik napról a másikra eltűnnek a beszélgetési előzményeik...

MA 09:14

A Pokémon GO júliusa: új raidfőnökök, kiemelt órák, GO Fest-őrület

Júliusban a Pokémon GO rajongóira izgalmas hónap vár, hiszen a mobileszközökön futó játék tizedik évfordulóját ünnepli, miközben a Forever Forward szezon tovább pörög...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 7/1

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     ImgRef (iPhone/iPad)Az App Store szerkesztői által kiemelten ajánlott alkalmazás lenyűgöző, 98%-os ötcsillagos értékeléssel büszkélkedhet...

MA 09:01

Az MI rejtett szívkockázati jelre bukkant a százéves EKG-ban

❤ A hirtelen szívhalál évente rengeteg áldozatot követel, jóllehet a beültethető defibrillátorok már évtizedek óta képesek lennének megelőzni a tragédiák jelentős részét...

MA 08:37

A NASA négy új robotküldetéssel tör utat a holdbázisnak

🚀 Megemlíthető, hogy az amerikai űrügynökség egyre nagyobb lendülettel dolgozik azon, hogy hosszú távú emberi jelenlétet teremtsen a Holdon...

MA 08:25

Az MI-lökéshullám felpörgeti a Dell bevételeit, de messze nem aranybánya

Michael Dell idén egészen elképesztő sikereket ér el: cége meghatározó beszállító lett az adatközpont-fejlesztésekben, többek között a CoreWeave és az xAI számára szállít Nvidia-alapú szervereket, rackeket, hűtőrendszereket, valamint támogatást, miközben együttműködik a Microsofttal, a Google-lel és az OpenAI-jal is nagy teljesítményű MI-rendszerek építésében...

MA 08:13

A 6 milliós Pokémon-kártyalopásért több mint tíz év börtönt kapott

💰 Egy észak-karolinai férfi több mint tíz év börtönt kapott, miután beismerte, hogy januárban Pokémon-kártyákat és pénzt lopott egy helyi videójátékbolt alkalmazottjától Wilmingtonban...

MA 08:01

A Szamóca-hold ma este: az év legalacsonyabb, apró teliholdja

🍇 Idén június 29-én érdemes az eget figyelni: ekkor látható a júniusi telihold, más néven az Eperhold (Strawberry Moon), ami az év legalacsonyabban járó és egyik legkisebb teliholdja lesz...

MA 07:48

Az Android 17 új zárképernyő-trükkje bárkit elbuktat betöréskor

Az Android 17 jelentős szigorításokat vezet be a zárolóképernyőn, amellyel gyakorlatilag ellehetetleníti a PIN vagy jelszó feltörését...

MA 07:36

A kínai Lineshine szuperszámítógép világrekorder: közel 2 kvadrillió művelet/mp

A kínai LineShine szuperszámítógép most először szerezte meg a világelsőséget a számítási sebesség terén...

MA 07:25

Az amerikai agrárminisztérium 180 millió legyet enged szabadon – íme, miért

A mexikói Metapában egy vadonatúj, 2043 négyzetméteres üzemben indult el az Egyesült Államok mezőgazdasági minisztériumának (USDA) legújabb programja: steril legyek tömeges előállítása...

MA 07:13

A Microsoft felpörgeti kvantumbiztos ütemtervét, nőnek a kockázatok

⚡ A Microsoft az eddigieknél sokkal gyorsabban készül átállni a kvantumbiztos védelemre, mert a kvantumszámítógépek fejlődése minden korábbinál nagyobb fenyegetést jelent a jelenlegi titkosítási szabványokra...

MA 06:49

Az MI‑böngészők új réme: a BioShocking-adatlopás

Felmerül a kérdés, hogy mennyire bízhatunk meg a mesterséges intelligenciával hajtott böngészőkben, ha egy új támadás képes kijátszani a biztonsági korlátokat...

MA 06:37

A Samsung szó szerint átformálja a hajlítható telefonjait?

Ahogy beköszönt a nyár, egyre hangosabbak a pletykák a Samsung legújabb összehajtható telefonjairól...

MA 06:06

Történelmi események a mai napon (Július 1.)

Ma háborúk fordulópontjai, birodalmak átrendeződései és új korszakokat nyitó tudományos, társadalmi mérföldkövek találkoznak...

MA 06:01

Az okosabb botvédelem mostantól megóvja a Teams-megbeszéléseket

🔒 A Microsoft fejlesztéseinek köszönhetően mostantól jóval biztonságosabbak lesznek a Teams-megbeszélések, hiszen egy új szabályozás lehetővé teszi, hogy a felhasználók blokkolják az engedély nélküli, harmadik féltől származó botok csatlakozását...

kedd 18:32

A Cleveland-i Fed elnöke szerint MI fűti az inflációt – jöhet újabb kamatemelés

A mesterséges intelligencia infrastruktúrája iránti fékezhetetlen igény egyre nagyobb mértékben fűti az inflációt – figyelmeztetett Beth Hammack, a clevelandi Szövetségi Tartalékbank elnöke...

kedd 18:01

A Samsung Messages júliusban leáll: ezt az 5 dolgot tedd meg azonnal!

⚠ A Samsung Messages alkalmazás hamarosan végleg eltűnik az amerikai felhasználók mobiljáról, így akinek fontosak a régi üzenetei, vagy továbbra is csevegni szeretne, érdemes minél előbb lépnie...

kedd 17:02

Az új CRISPR az epigenomot célozza, átírja a gének kapcsolóit

🔨 Felmerül a kérdés, hogy mi lenne, ha a betegségeket nem csupán a DNS szerkesztésével, hanem a gének működésének speciális beállításával lehetne kezelni?..

kedd 16:31

A Tata Electronicsnál múlt héten kiszivárogtak érzékeny iPhone-beszállítói adatok

Az elmúlt héten hatalmas adatlopás történt az indiai Tata Electronicsnál, ahol közel 630 GB-nyi bizalmas információ került illetéktelen kezekbe...

kedd 16:01

A YouTube-on már nézhető a Peacock – épp a vb-re!

A Peacock Premium Plus már elérhető a YouTube Primetime Channels szolgáltatáson keresztül, így mostantól közvetlenül a YouTube alkalmazásban is előfizethetsz rá, és nézheted az összes tartalmat – legyen szó mobilról, tabletről vagy okostévéről...