Az MI-őrület újabb fordulata: ChatGPT-5 tarol, Grok megint ég

Az MI-őrület újabb fordulata: ChatGPT-5 tarol, Grok megint ég
A legújabb tesztek szerint a ChatGPT-5 pontosabb, mint bármelyik korábbi verziója, sőt, a konkurenciát is lekörözi, amikor a mesterséges intelligencia által generált “hallucinációkról” van szó. A hibás, kitalált információkat előállító MI-k ugyanis továbbra is komoly gondot jelentenek, ezért az emberek még az egyszerű feladatokat sem bízzák rájuk teljesen.

Kisebb hibaszázalék, de még mindig vannak tévedések

A Vectara iparági tesztjén a ChatGPT-5 1,4%-os “hallucinációs” aránnyal működik, így felülmúlja a ChatGPT-4-et (1,8%), valamint a GPT-4o-t (1,49%). Igaz, a korábbi 4.5-ös verzió még egy kicsit jobb volt (1,2%), és az abszolút rekorder az OpenAI o3-mini High Reasoning modellje, amely 0,795%-kal dolgozik. A többi fejlesztő viszont ennél rosszabbul teljesít: a Google Gemini 2.5 Pro 2,6%-ot, az XAI-féle Grok-4 pedig elképesztő 4,8%-ot produkál.

Kínos véletlenek és botrányok

A Grok nevű MI nemcsak pontatlanabb, hanem a közelmúltban komoly kritikákat is kapott a “Spicy” nevű üzemmódja miatt, amely hírességek – például Taylor Swift – explicit, deepfake videóit generálta, még akkor is, ha a felhasználó ezt nem kérte. Az XAI ugyan szűrőket és moderációs rendszert ígért, de ezek láthatóan nem működnek megfelelően.

Felhasználói harag az OpenAI ellen

A ChatGPT-5 bevezetésekor az OpenAI hirtelen kivonta a régi, népszerű modelleket (mint a GPT-4o és a 4o-mini) a Plus előfizetésből, mindenféle előzetes figyelmeztetés nélkül. Sok felhasználó dühösen reagált, főleg mert a 4.5-ös verzió kifejezetten megbízható volt. Sam Altman, az OpenAI vezetője elismerte a hibát, és ígéretet tett arra, hogy a ChatGPT-4o-t egy ideig még visszahozzák a Plus csomagba, figyelve a felhasználók szokásait és igényeit.

2025, adrienne, www.techradar.com alapján


Legfrissebb posztok

A SpaceX újabb Starship kudarcai, mire jutottak eddig

MA 13:04

A SpaceX újabb Starship kudarcai, mire jutottak eddig

🚀 2024-ben a SpaceX számára eddig hullámvasútra emlékeztetett a Starship szuperrakéta fejlesztése: bár tavaly jelentős áttöréseket értek el, idén két sikertelen tesztrepülés is hátráltatta a programot. Most végre kiderült,...

Az ablak bezárul: két hónap múlva véget ér a Windows 10 támogatása

MA 12:51

Az ablak bezárul: két hónap múlva véget ér a Windows 10 támogatása

🚪 Október 14-én hivatalosan is nyugdíjba vonul a Windows 10, megszűnik minden kiadás (Home, Pro, Enterprise, Education, IoT Enterprise) támogatása, beleértve a 22H2 főverziót, valamint a 2015-ös LTSB és...

Az új szupervezető anyag valóban trükkös dolgokra képes

MA 12:01

Az új szupervezető anyag valóban trükkös dolgokra képes

A Rice Egyetem és tajvani kutatók most először mutatták ki, hogy a különleges, úgynevezett kagome-fémszerkezetű, króm-alapú cézium-króm-antimonidban (CsCrSb) szupervezetőben aktív, lapos elektronikus sávok működnek. Ez a felfedezés új...

Űrből jön a net, a Starlink és Virginia összecsap

MA 11:27

Űrből jön a net, a Starlink és Virginia összecsap

A SpaceX, a Starlink műholdas internetszolgáltatás üzemeltetője, komoly harcot vív Virginia állammal, hogy a szövetségi támogatásokból jóval nagyobb részt kapjon. Jelenleg is több mint 1 milliárd forint támogatásra...

APPok, Amik Ingyenesek MA, 8/18
APP

MA 11:12

APPok, Amik Ingyenesek MA, 8/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     One Hit. (iPhone/iPad)A One Hit egy fizikára épülő ügyességi játék, ahol feladatod, hogy egyetlen lövéssel találd...

Idősebbek és a mesterséges intelligencia, bízhatunk benne vagy sem

MA 11:01

Idősebbek és a mesterséges intelligencia, bízhatunk benne vagy sem

👨 Az MI nem csupán a fiatalabb generációk eszköze: az idősebb amerikai lakosság több mint fele már kipróbálta valamilyen formában ezt a technológiát. A 65 év felettiek 55 százaléka...

Az MI tényleg gondolkodik, vagy csak utánzat az egész?

MA 10:54

Az MI tényleg gondolkodik, vagy csak utánzat az egész?

🤔 Mik azok a “gondolkodó” nyelvi modellek? Az MI-iparban egyre népszerűbbek az úgynevezett “gondolkodó” nagy nyelvi modellek (LLM-ek), amelyek képesek bonyolult problémákat is lépésről lépésre, logikusnak tűnő módon végiggondolni....

Az MI átalakítja a munkahelyeket, kérdés, ki kapja őket

MA 10:51

Az MI átalakítja a munkahelyeket, kérdés, ki kapja őket

Pályafutásom elején idegtudományi tapasztalatokat szereztem, nem üzletből, mérnöki vagy HR-területről. Amikor a GitLab termékvezetője lettem, korábban még sosem irányítottam termékfejlesztési csapatot, és nem voltak klasszikus szakmai papírjaim sem....

Az egyik legnépszerűbb játékplatform, ahol a gyereked veszélyben lehet

MA 08:53

Az egyik legnépszerűbb játékplatform, ahol a gyereked veszélyben lehet

🚨 Louisiana állam pert indított a Roblox ellen, mert szerintük a platform szándékosan nem tesz eleget a gyerekek biztonságáért. Világszerte naponta több mint 111,8 millió aktív felhasználó lép be,...