2026. 04. 16., 09:17

Az MI határai ködbe vesznek: a legújabb modellek sem megbízhatók

Az MI határai ködbe vesznek: a legújabb modellek sem megbízhatók
Jellemző példa erre, hogy bár a legmodernebb MI-alapú ügynökök már a nagyvállalati folyamatok szerves részei lettek, továbbra is minden harmadik éles feladatnál csődöt mondanak. Ez a hullámzó teljesítmény, amit a Stanford kutatói „cakkos határnak” neveznek, új kihívásokat hoz az informatikai vezetőknek 2026-ra. Talán a legjobb példát az adja, hogy egyes modellek aranyérmet szereznek a Nemzetközi Matematikai Diákolimpián, de közben egy egyszerű óra leolvasásában sem képesek hibátlanul teljesíteni.

MI-fejlődési eredmények 2025-ben

A vállalati MI-alkalmazások elterjedtsége elérte a 88%-ot. 2025-ben és 2026 elején látványos eredmények születtek: csak egy év alatt 30%-kal javultak az élvonalbeli modellek a HLE-teszteken, amelyek 2 500 kérdést tartalmaznak matematikából, természettudományokból és ősi nyelvekből. A vezető modellek 87% fölötti eredményt értek el a MMLU-Pro teszten, amely 12 000 emberi értékelésen alapuló kérdést tartalmaz több mint egy tucat szakterületről. Hasonlóképpen, a Claude Opus 4.5, GPT-5.2 és Qwen3.5 modellek 62,9% és 70,2% közötti pontszámmal teljesítettek az AgentBench próbákon, ahol az ügynököknek valós feladatokat kell végrehajtaniuk, többek között felhasználóval való csevegéssel és külső API-k kezelésével.

A GAIA-teszten, amely általános MI-asszisztensek teljesítményét méri, 20%-ról 74,5%-ra ugrott a pontosság. A szoftvermérnöki problémákat vizsgáló SWE-bench Verified teszten 60%-ról csaknem 100%-ra emelkedett a sikeresség egy év alatt. A WebArena próbákon a sikerarány 15%-ról 74,3%-ra nőtt, az MLE-benchen, amely gépi tanulási mérnöki képességeket értékel, 17%-ról 65%-ra javultak a modellek 2024 és 2026 eleje között.

Kiemelten fejlődő terület a kiberbiztonság: a legmodernebb ügynökök a Cybench feladatainak 93%-át megoldották, míg 2024-ben még csupán 15%-ot értek el. A videógenerálás is sokat fejlődött: a Google DeepMind Veo 3 például már folyadékok viselkedését, fizikai jelenségeket és labirintusban való mozgást is képes modellezni, 18 000 generált videó alapján.

Az MI mind szélesebb körben terjed, legyen szó tudásmenedzsmentről, szoftverfejlesztésről, adóügyekről, jelzáloghitelezésről, vállalati pénzügyekről vagy jogi elemzésről: a pontosság 60% és 90% között mozog. Az erőforrások bővülése mellett az MI fejlődési üteme gyorsul; több emberhez ér el, mint valaha.

Egyre jobb képességek: a megbízhatóság mégis lemarad

A multimodális modellek már megközelítik vagy meghaladják az emberi szintet PhD-szintű tudományos kérdésekben, komplex okfejtésben és matematikai versenyfeladatokban. Jellemző példa, hogy a Gemini Deep Think aranyérmet szerzett a 2025-ös Matematikai Olimpián, öt feladatot oldott meg természetes nyelven, négy és fél óra alatt – 2024-ben még csak ezüstöt ért el.

Mégis, ezek a rendszerek minden harmadik próbálkozásnál hibáznak, sőt, az egyszerű felismerési feladatok is problémát okoznak. A ClockBench óraleolvasási próbán például csak 50,1%-os pontosságot ért el a Gemini Deep Think és 50,6%-ot a GPT-4.5 High, míg az emberek nagyjából 90%-ig sikeresek. Az elvárt vizuális és logikai összetevőket nem tudják egységesen kezelni: ha összekeverik az óra- és a percmutatót, megzavarodnak a tájékozódásban.

A vizuális következtetés így továbbra is kemény dió: az MI-modellek hiába javultak a tudásintenzív feladatokban, a hétköznapi vizuális okfejtésen elhasalnak.

Hallucinációk és többlépéses okfejtés: tartós hiányosságok

Az MI-modellek gyorsuló fejlődése ellenére a hallucinációk továbbra is nagy gondot jelentenek: egy elemzésben a 26 élvonalbeli modell hallucinációs rátája 22% és 94% között mozgott. Néhány modell teljesítménye drasztikusan romlott a részletes vizsgálat során, például a GPT-4o 98,2%-ról 64,4%-ra, a DeepSeek R1 pedig több mint 90%-ról mindössze 14,4%-ra süllyedt. A legjobban a Grok 4.20 Beta, Claude 4.5 Haiku és MiMo-V2-Pro bizonyultak e tekintetben.

A többlépéses munkafolyamatoknál a modellek továbbra is nehezen boldogulnak: az AgentBench teszten egyik modell sem lépte túl a 71%-ot, vagyis a többturnusos beszélgetések, eszközhasználat és szabálykövetés még mindig komoly kihívásnak számítanak.


Nehéz összehasonlítani a modelleket: nő az átláthatatlanság

A vezető modellek teljesítménye már-már megkülönböztethetetlen egymástól; az open source modellek egyre versenyképesebbek, de a különbségtétel inkább költségben, megbízhatóságban és valódi haszonban jelentkezik. Eközben a fejlesztők egyre kevesebb információt osztanak meg: a tréningkódot, paraméterszámot, adatbázisméretet és futásidőt gyakran visszatartják, nem ritka, hogy a modelleket teljesen zárt formában adják ki.

Míg 2023-ról 2024-re javult az átláthatóság, 2025-ben már csak 40 pontot értek el a vizsgált cégek egy százpontos skálán (ez 17 pontos romlás). Főleg a tanítóadatokra, számítási kapacitásra és utólagos hatásokra vonatkozó információk hiányoznak.

Az MI értékelése egyre nehezebb és kevésbé megbízható

Az MI-fejlődés mérésére szolgáló tesztek megbízhatósága is romlik, hibaarányuk egyes esetekben eléri a 42%-ot. Újabb, komplexebb próbák születnek ugyan, de a mérési metodikákban egyre nagyobb a bizonytalanság. A kihívások között szerepel a részrehajlás elemzésének gyér jelentése, a teszthalmazok kiszivárgása, az eltérés a fejlesztői és független értékelés között, a nem standardizált tesztkörnyezet, valamint a modellek interaktív, komplex viselkedésének nehézségei.

Egyre többször fordul elő, hogy a teszteredmények pusztán papíron léteznek, a valós, üzemi hasznosságot nem tükrözik. Többen szorgalmazzák, hogy a hagyományos tesztek helyett inkább a humán–MI együttműködést értékeljük – ez a terület azonban még gyerekcipőben jár. Az is előfordul, hogy egy benchmark néhány hónap alatt telítődik: a modellek hibátlan eredményt produkálnak, így többé nem alkalmas a fejlődés kimutatására.

Mi lesz, ha elfogy a használható adat?

A nagyvállalatok egyre intenzívebben használják az adatokat: sok szakember szerint már elérkeztünk az „adatcsúcs” állapotába, amikor a minőségi emberi szöveg és webes információ kifogyóban van. A hibrid képzési módszerek, amelyek valós és szintetikus adatot kevernek, akár 5–10-szer gyorsabb tanítást is hozhatnak. Akadnak kisebb modellek, amelyek csak szintetikus adatra alapozva ígéretesen teljesítenek, például kódgenerálásban.

A szintetikusan generált adat hatékony lehet finomhangolásra, igazításra, utasításalapú tanításra vagy megerősítéses tanulásra is – de ezek az eredmények eddig nem voltak általánosíthatók a legnagyobb, általános célú nyelvi modellekre. Inkább a meglévő adatok minőségjavítása (takarítás, címkézés, duplikált minták kiszűrése) hoz érdemi előrelépést, ahelyett, hogy újabb adatok halmozódnának.

Egyre nagyobb lemaradásban a felelős MI-fejlesztés

Miközben a felelős MI infrastruktúrája elvileg bővül, a fejlődés egyenetlen, és nem tudja lekövetni az MI ütemes képességjavulását. Majdnem minden élvonalbeli fejlesztő közöl eredményeket képességi tesztekből, de a biztonsági és felelősségi jelentések hiányosak. Az MI-incidensek száma drasztikusan nőtt: 233 helyett már 362 esetről tudunk 2025-ben. Mindez annak ellenére, hogy több vezető modell megkapta a „Jó” vagy „Nagyon jó” biztonsági minősítést normál használat mellett – de az ellenőrzött támadások, azaz a jailbreakek gyakorlatilag minden modellen kifogtak.

A fejlesztők arról is beszámolnak, hogy ha például biztonságosabbá teszik a modellt, az ronthat a pontosságán. Bár a felelős MI fejlesztése teret nyer, a fejlődés nem tart lépést az új, MI-központú rendszerek gyors elterjedésével.

A legnagyobb kihívás most nem az MI és az ember közötti különbség, hanem aközött a szakadék között húzódik, amit egy bemutatón vagy tesztkörnyezetben látunk, és amit az MI ténylegesen, üzemi környezetben képes megbízhatóan teljesíteni. Jelenleg – a zártabb fejlesztői kommunikáció és a gyorsan elavuló benchmarkok mellett – ezt a szakadékot soha nem volt még nehezebb megítélni.

2026, adminboss, venturebeat.com alapján

Legfrissebb posztok

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Planetary Hours + Widget (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) Monthly Dystopia (iPhone/iPad) War Mongrels (iPhone/iPad) ContactVault Pro (iPhone/iPad) FormatX: Video Audio Converter (iPhone/iPad) ImgRef (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) CrestWall – 4K Wallpapers...

kedd 19:34

A Wharton szerint később ürülhet ki a TB-kassza

A pennsylvaniai Wharton Egyetem új kutatása szerint a társadalombiztosítás nyugdíjalapja a vártnál később apadhat el...

kedd 19:23

A Star Wars-legenda Mark Hamill kulcsszerepben a Twisted Metalban

🤓 Mark Hamill, akit a Csillagok háborúja (Star Wars) világából Luke Skywalkerként őrzünk emlékezetünkben, csatlakozik a Csavart fém (Twisted Metal) sorozat harmadik évadához...

kedd 19:12

A Firefox 152 megújul: jön a JPEG XL, új beállítások

A Firefox böngésző legfrissebb, 152-es verziója több fontos fejlesztést hoz. A leglátványosabb változás a teljesen átalakított beállítási felület, amely átláthatóbbá és egyszerűbben kezelhetővé teszi a böngésző személyre szabását...

kedd 19:02

Az első nukleáris óra elindult – jön az ötödik kölcsönhatás?

⚡ Tipikus eset, amikor egy évtizedeken át lehetetlennek hitt ötlet hirtelen valósággá válik...

kedd 18:57

Az új Pókember-film sztárjai: a Galaxy Z Flip 7 és Fold 7

🚀 A Samsung legújabb büszkeségei, a Galaxy Z Flip 7 és a Galaxy Z Fold 7 komoly szerepet kaptak a Pókember: Vadonatúj nap (Spider-Man: Brand New Day) című filmben...

kedd 18:45

Az ultramély kutatás: Sakana AI 100 oldalas jelentést készít 8 óra alatt

🔬 Tokióban egy új MI-alapú vállalkozás, a Sakana AI dobta piacra a Marlint, első kereskedelmi termékét, amely forradalmasíthatja a vállalati kutatási jelentéseket...

kedd 18:24

Az új Ebola-járvány mekkora veszélyt jelent?

A Kongói Demokratikus Köztársaságot sújtó új Ebola-járvány már a harmadik legnagyobbnak számít a világon...

kedd 18:02

A CISA figyelmeztet: újabb cPanel-bővítmény-hibát aktívan kihasználnak

Az amerikai kiberbiztonsági hivatal, a CISA háromnapos határidőt adott az állami szerveknek, hogy frissítsék a LiteSpeed cPanel felhasználói bővítményét, miután ismertté vált egy aktívan kihasznált sérülékenység, amellyel a szervereket támadják...

kedd 17:11

A Hold-méretű, száguldó ütköző, amely felforgatta a Vénusz forgását

Ami először apróságnak tűnt, mára a Vénusz egyik legnagyobb rejtélyévé vált: a bolygó rendkívül lassú, ráadásul ellentétes irányú tengely körüli forgása...

kedd 17:01

A zsarolóbandák a Microsoft Teams reléivel álcázzák forgalmukat

Érdemes megvizsgálni, milyen kifinomult módszereket alkalmaznak a bűnözők, amikor eltüntetik rosszindulatú forgalmukat a védekezésre berendezkedett rendszerek elől...

kedd 16:55

Az okos medál, ami jelzi, meddig napozhatsz leégés nélkül

A legtöbb viselhető kütyü a lépéseidet, a pulzusodat vagy a véroxigénszintedet méri, de most érkezett egy olyan eszköz, ami teljesen másra fókuszál: a bőröd egészségére és a napsugárzás követésére...

kedd 16:45

Hány elemi részecske létezik valójában?

😰 Fontos kérdés, hogy hányféle elemi részecske létezik valójában. A fizikában ez nem is olyan egyszerű, mint amilyennek elsőre tűnhet...

kedd 16:12

A Threads már havi félmilliárd felhasználónál jár

Felmerül a kérdés, hogy mi állhat a Meta új szöveges közösségi hálójának hatalmas népszerűsége mögött...

kedd 15:56

A nő, aki Elon Musk mellett óriássá tette a SpaceXet

🚀 Gwynne Shotwell nevét a nagyközönség ritkán hallja, pedig nélküle elképzelhetetlen volna a SpaceX hihetetlen felemelkedése...

kedd 15:45

Az Nvidia 25 milliárd dolláros kötvénykibocsátással turbózza az MI-versenyt

Megemlíthető, hogy az Nvidia, a világ egyik vezető chipgyártója, öt év után először ismét jelentős kötvénykibocsátásra készül: több mint 25 milliárd dollár (kb...

kedd 15:25

A Samsung S95H OLED: lenyűgöző, de nem a várt Frame TV

Minden évben hatalmas felhajtás övezi a legújabb televíziókat, és mostanra a Samsung S95H OLED igazi különlegességnek számít ebben a mezőnyben...

kedd 15:01

A SprySOCKS új Windows-változata kormányzati rendszereket támad világszerte

A SprySOCKS néven ismert kártékony szoftver elsőként Linux rendszereken tűnt fel, de a közelmúltban megjelentek Windows-változatai is, amelyek kormányzati szervezeteket céloznak több országban, köztük Tajvanban, Thaiföldön, Pakisztánban és Hondurasban...

kedd 14:44

A Gmail AI-összegzései már mindenkinél futnak – így kapcsolod ki

Többek között már nem kell magadnak elolvasnod az e-maileket: a Gemini ezentúl átnézi őket helyetted – akár akarod, akár nem...

kedd 13:57

A 2026-os Razer Blade 18 letarolja a mezőnyt – ha meg tudod fizetni

🚀 A Razer Blade 18 (2026) ismét új szintre emeli, mit jelent egy valódi gamer laptop...

kedd 13:34

A Fortinet FortiSandbox kritikus sebezhetőségeit már aktívan kihasználják

⚠ Felmerül a kérdés, mennyire vagyunk biztonságban, ha még a legnagyobb kiberbiztonsági cégek termékei is súlyos hibákat rejtenek...

kedd 13:23

Az új COVID-oltások továbbra is óvják a szívet, kutatás szerint

Bár a legtöbb amerikai már nem igényli a szezonális COVID-19-oltásokat, a legújabb vakcinák továbbra is jelentős védelmet nyújtanak a szív- és érrendszeri megbetegedések ellen, különösen a 75 év felettieknek és a krónikus betegségben szenvedőknek...

kedd 13:01

Az iRhythm közölte: hackerek ellopták a betegek adatait

🔒 A digitális egészségügyi szolgáltató iRhythm Holdings súlyos adatlopást jelentett be, miután hackerek érzékeny személyes és egészségügyi adatokat tulajdonítottak el a cég által használt külső üzleti alkalmazásokból...

kedd 12:46

Az Atacama közepe a hittnél 20 millió évvel korábban száradt ki

🌍 Chile északi részén, a Föld egyik legszárazabb területén húzódik az Atacama-sivatag, amely évente átlagosan kevesebb mint 5 milliméter csapadékot kap...

kedd 12:34

Az Xbox Game Studios vezetője és stábfőnöke távozik – jön a reset?

Lényeges szempont, hogy a vezetői szintű távozások megrázhatják az egész játékipart, különösen akkor, ha azokat komoly változások előzik meg...

kedd 12:24

Az amerikaiak miért utálják egyre jobban az MI-adatközpontokat?

Az idei év elején egy hatalmas, hat darab, egyenként 21 méter magas épületből álló adatközpont terveit ejtették Észak-Karolinában, miután a fejlesztőt szigorodó szabályok és a helyi lakosság tiltakozása miatt visszalépésre kényszerítették...

kedd 11:56

A Philips Hue új Play lámpákkal, gyertyaizzókkal és kapcsolókkal támad

Az okos izzók és fényszalagok (Lightstrip) mellett mostantól a hagyományos csillárok és retró lámpák is integrálhatók a Philips Hue rendszerébe...

kedd 11:34

A Starlink mellett veszélyesen darabokra hullott egy kínai rakéta

Egy kínai magánvállalat által fejlesztett Zhuque-2E rakéta felső fokozata a fellövés után néhány órával széthullott, mindössze néhány száz kilométerre a Föld felszínétől, ahol a Nemzetközi Űrállomás, valamint számos Starlink-műhold kering...