csütörtök 09:17

Az MI határai ködbe vesznek: a legújabb modellek sem megbízhatók

Az MI határai ködbe vesznek: a legújabb modellek sem megbízhatók
Jellemző példa erre, hogy bár a legmodernebb MI-alapú ügynökök már a nagyvállalati folyamatok szerves részei lettek, továbbra is minden harmadik éles feladatnál csődöt mondanak. Ez a hullámzó teljesítmény, amit a Stanford kutatói „cakkos határnak” neveznek, új kihívásokat hoz az informatikai vezetőknek 2026-ra. Talán a legjobb példát az adja, hogy egyes modellek aranyérmet szereznek a Nemzetközi Matematikai Diákolimpián, de közben egy egyszerű óra leolvasásában sem képesek hibátlanul teljesíteni.

MI-fejlődési eredmények 2025-ben

A vállalati MI-alkalmazások elterjedtsége elérte a 88%-ot. 2025-ben és 2026 elején látványos eredmények születtek: csak egy év alatt 30%-kal javultak az élvonalbeli modellek a HLE-teszteken, amelyek 2 500 kérdést tartalmaznak matematikából, természettudományokból és ősi nyelvekből. A vezető modellek 87% fölötti eredményt értek el a MMLU-Pro teszten, amely 12 000 emberi értékelésen alapuló kérdést tartalmaz több mint egy tucat szakterületről. Hasonlóképpen, a Claude Opus 4.5, GPT-5.2 és Qwen3.5 modellek 62,9% és 70,2% közötti pontszámmal teljesítettek az AgentBench próbákon, ahol az ügynököknek valós feladatokat kell végrehajtaniuk, többek között felhasználóval való csevegéssel és külső API-k kezelésével.

A GAIA-teszten, amely általános MI-asszisztensek teljesítményét méri, 20%-ról 74,5%-ra ugrott a pontosság. A szoftvermérnöki problémákat vizsgáló SWE-bench Verified teszten 60%-ról csaknem 100%-ra emelkedett a sikeresség egy év alatt. A WebArena próbákon a sikerarány 15%-ról 74,3%-ra nőtt, az MLE-benchen, amely gépi tanulási mérnöki képességeket értékel, 17%-ról 65%-ra javultak a modellek 2024 és 2026 eleje között.

Kiemelten fejlődő terület a kiberbiztonság: a legmodernebb ügynökök a Cybench feladatainak 93%-át megoldották, míg 2024-ben még csupán 15%-ot értek el. A videógenerálás is sokat fejlődött: a Google DeepMind Veo 3 például már folyadékok viselkedését, fizikai jelenségeket és labirintusban való mozgást is képes modellezni, 18 000 generált videó alapján.

Az MI mind szélesebb körben terjed, legyen szó tudásmenedzsmentről, szoftverfejlesztésről, adóügyekről, jelzáloghitelezésről, vállalati pénzügyekről vagy jogi elemzésről: a pontosság 60% és 90% között mozog. Az erőforrások bővülése mellett az MI fejlődési üteme gyorsul; több emberhez ér el, mint valaha.

Egyre jobb képességek: a megbízhatóság mégis lemarad

A multimodális modellek már megközelítik vagy meghaladják az emberi szintet PhD-szintű tudományos kérdésekben, komplex okfejtésben és matematikai versenyfeladatokban. Jellemző példa, hogy a Gemini Deep Think aranyérmet szerzett a 2025-ös Matematikai Olimpián, öt feladatot oldott meg természetes nyelven, négy és fél óra alatt – 2024-ben még csak ezüstöt ért el.

Mégis, ezek a rendszerek minden harmadik próbálkozásnál hibáznak, sőt, az egyszerű felismerési feladatok is problémát okoznak. A ClockBench óraleolvasási próbán például csak 50,1%-os pontosságot ért el a Gemini Deep Think és 50,6%-ot a GPT-4.5 High, míg az emberek nagyjából 90%-ig sikeresek. Az elvárt vizuális és logikai összetevőket nem tudják egységesen kezelni: ha összekeverik az óra- és a percmutatót, megzavarodnak a tájékozódásban.

A vizuális következtetés így továbbra is kemény dió: az MI-modellek hiába javultak a tudásintenzív feladatokban, a hétköznapi vizuális okfejtésen elhasalnak.

Hallucinációk és többlépéses okfejtés: tartós hiányosságok

Az MI-modellek gyorsuló fejlődése ellenére a hallucinációk továbbra is nagy gondot jelentenek: egy elemzésben a 26 élvonalbeli modell hallucinációs rátája 22% és 94% között mozgott. Néhány modell teljesítménye drasztikusan romlott a részletes vizsgálat során, például a GPT-4o 98,2%-ról 64,4%-ra, a DeepSeek R1 pedig több mint 90%-ról mindössze 14,4%-ra süllyedt. A legjobban a Grok 4.20 Beta, Claude 4.5 Haiku és MiMo-V2-Pro bizonyultak e tekintetben.

A többlépéses munkafolyamatoknál a modellek továbbra is nehezen boldogulnak: az AgentBench teszten egyik modell sem lépte túl a 71%-ot, vagyis a többturnusos beszélgetések, eszközhasználat és szabálykövetés még mindig komoly kihívásnak számítanak.


Nehéz összehasonlítani a modelleket: nő az átláthatatlanság

A vezető modellek teljesítménye már-már megkülönböztethetetlen egymástól; az open source modellek egyre versenyképesebbek, de a különbségtétel inkább költségben, megbízhatóságban és valódi haszonban jelentkezik. Eközben a fejlesztők egyre kevesebb információt osztanak meg: a tréningkódot, paraméterszámot, adatbázisméretet és futásidőt gyakran visszatartják, nem ritka, hogy a modelleket teljesen zárt formában adják ki.

Míg 2023-ról 2024-re javult az átláthatóság, 2025-ben már csak 40 pontot értek el a vizsgált cégek egy százpontos skálán (ez 17 pontos romlás). Főleg a tanítóadatokra, számítási kapacitásra és utólagos hatásokra vonatkozó információk hiányoznak.

Az MI értékelése egyre nehezebb és kevésbé megbízható

Az MI-fejlődés mérésére szolgáló tesztek megbízhatósága is romlik, hibaarányuk egyes esetekben eléri a 42%-ot. Újabb, komplexebb próbák születnek ugyan, de a mérési metodikákban egyre nagyobb a bizonytalanság. A kihívások között szerepel a részrehajlás elemzésének gyér jelentése, a teszthalmazok kiszivárgása, az eltérés a fejlesztői és független értékelés között, a nem standardizált tesztkörnyezet, valamint a modellek interaktív, komplex viselkedésének nehézségei.

Egyre többször fordul elő, hogy a teszteredmények pusztán papíron léteznek, a valós, üzemi hasznosságot nem tükrözik. Többen szorgalmazzák, hogy a hagyományos tesztek helyett inkább a humán–MI együttműködést értékeljük – ez a terület azonban még gyerekcipőben jár. Az is előfordul, hogy egy benchmark néhány hónap alatt telítődik: a modellek hibátlan eredményt produkálnak, így többé nem alkalmas a fejlődés kimutatására.

Mi lesz, ha elfogy a használható adat?

A nagyvállalatok egyre intenzívebben használják az adatokat: sok szakember szerint már elérkeztünk az „adatcsúcs” állapotába, amikor a minőségi emberi szöveg és webes információ kifogyóban van. A hibrid képzési módszerek, amelyek valós és szintetikus adatot kevernek, akár 5–10-szer gyorsabb tanítást is hozhatnak. Akadnak kisebb modellek, amelyek csak szintetikus adatra alapozva ígéretesen teljesítenek, például kódgenerálásban.

A szintetikusan generált adat hatékony lehet finomhangolásra, igazításra, utasításalapú tanításra vagy megerősítéses tanulásra is – de ezek az eredmények eddig nem voltak általánosíthatók a legnagyobb, általános célú nyelvi modellekre. Inkább a meglévő adatok minőségjavítása (takarítás, címkézés, duplikált minták kiszűrése) hoz érdemi előrelépést, ahelyett, hogy újabb adatok halmozódnának.

Egyre nagyobb lemaradásban a felelős MI-fejlesztés

Miközben a felelős MI infrastruktúrája elvileg bővül, a fejlődés egyenetlen, és nem tudja lekövetni az MI ütemes képességjavulását. Majdnem minden élvonalbeli fejlesztő közöl eredményeket képességi tesztekből, de a biztonsági és felelősségi jelentések hiányosak. Az MI-incidensek száma drasztikusan nőtt: 233 helyett már 362 esetről tudunk 2025-ben. Mindez annak ellenére, hogy több vezető modell megkapta a „Jó” vagy „Nagyon jó” biztonsági minősítést normál használat mellett – de az ellenőrzött támadások, azaz a jailbreakek gyakorlatilag minden modellen kifogtak.

A fejlesztők arról is beszámolnak, hogy ha például biztonságosabbá teszik a modellt, az ronthat a pontosságán. Bár a felelős MI fejlesztése teret nyer, a fejlődés nem tart lépést az új, MI-központú rendszerek gyors elterjedésével.

A legnagyobb kihívás most nem az MI és az ember közötti különbség, hanem aközött a szakadék között húzódik, amit egy bemutatón vagy tesztkörnyezetben látunk, és amit az MI ténylegesen, üzemi környezetben képes megbízhatóan teljesíteni. Jelenleg – a zártabb fejlesztői kommunikáció és a gyorsan elavuló benchmarkok mellett – ezt a szakadékot soha nem volt még nehezebb megítélni.

2026, adminboss, venturebeat.com alapján

Legfrissebb posztok

MA 11:04

Az MI-ügynökök lázadnak: védtelenek a cégek?

A vállalatok zöme továbbra is tehetetlen a harmadik szintű MI-ügynökök jelentette fenyegetésekkel szemben, miközben ezek az automatizált rendszerek egyre bátrabban lépnek át a biztonsági vonalakon...

MA 10:56

A 2026 előtti RAM-pánik felpörgeti az új PC-k vásárlását

💻 Fontos kérdés, hogy mi áll a világszerte tapasztalható, hirtelen megnövekedett számítógép-vásárlási hajlandóság mögött...

MA 10:50

Az összeütköző fekete lyukak gravitációs hullámai elérhetik a Földet

🔴 Egy, a Földtől 500 millió fényévre található galaxisban két óriási fekete lyuk sodródik végzetes összeütközés felé, amelynek hatásait akár száz éven belül is megérezheti a Föld...

MA 10:36

Az agy programozza a fájdalmat: miért nem múlik a krónikus szenvedés?

Például egy törött kar hamarabb gyógyul, hiszen a begipszelés, a fájdalomcsillapítás és néhány jó tanács gyorsan visszaterel a normális életbe...

MA 10:29

Az eltűnt óriástó nyomában: tényleg így született a Grand Canyon?

🚀 Új kutatások szerint a Colorado-folyó nem egyből vájta ki a Grand Canyont, hanem előbb egy hatalmas tóban gyűlt össze, és csak később szakadt át, hogy megkezdje ma ismert útját a mély szurdokon keresztül...

MA 10:23

Az MI betör a dizájnba: jön a Claude Design, a Figma réme?

A dizájnszoftverek piacára új kihívó érkezett: az Anthropic bemutatta legújabb fejlesztését, a Claude Design-t, amely képes teljes értékű, vizuálisan kidolgozott terveket, interaktív prototípusokat, prezentációkat, one-pagereket és marketinganyagokat készíteni egyszerű szöveges utasításokra...

MA 10:15

Az orosz kriptóóriást kifosztották: 5,5 milliárd forint tűnt el

💰 A Kirgizisztánban bejegyzett, amerikai szankciókkal sújtott Grinex kriptotőzsde bejelentette, hogy leállítja működését, miután 5,5 milliárd forint (15 millió dollár) értékű vagyont loptak el tőle – állítólag „barátságtalan országok” titkosszolgálatainak közreműködésével...

MA 10:02

Az európai Mars-szonda végre zöld utat kap: a NASA újra beszáll

A NASA ismét bekapcsolódott az Európai Űrügynökség (ESA) Rosalind Franklin marsjárójának küldetésébe, amelynek célja az élet nyomainak keresése a vörös bolygón...

MA 09:58

Az alvilági kártyapiac titkai: így választanak boltot a bűnözők

💳 Az ellopott bankkártyaadatokkal kereskedő alvilági piac mindig is ingatag, kiszámíthatatlan terepnek számított, ahol még a tapasztalt bűnözők is gyakran esnek csalás, lehúzás vagy hatósági lebuktatás áldozatául...

MA 09:22

Az Android Canary végre megérkezik a régebbi Pixelekre is

Áprilisban jelentős mérföldkőhöz érkezett a Google: az Android Canary 2604 verziója már nemcsak a legújabb Pixel 8-as sorozaton fut, hanem immár elérhető a Pixel 6 és Pixel 7 szériára, valamint a Pixel Foldra és a Pixel Tabletre is...

MA 09:18

Az MI-képes weboldalak új korszaka: megérkezett az Agent Readiness-pontszám

🤖 A web evolúciója folyamatosan új elvárások elé állítja a fejlesztőket és a vállalkozásokat...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Sight Words: Dolch Coach (iPhone/iPad)Ez a játék a Dolch Sight Words mind az öt szintjét lefedi, így segít elsajátítani az automatikus szófelismerést, ami elengedhetetlen a funkcionális írástudáshoz...

MA 09:08

Az amerikai adatközpontok óriásit csúsznak

Óriási lendülettel indult az MI-őrület az Egyesült Államokban, a világ techközpontjai dollárszázmilliárdokat ölnek egyre nagyobb és energiaéhes adatközpontok építésébe...

MA 09:04

A sosem felejtő MI-ügynök: megérkezett az Agent Memory

Érdekes felvetés, hogy mennyire fontos az MI-ügynökök számára a tartós emlékezet...

MA 08:57

A gyógyítás forradalma vagy illúzió? Az MI a tények tükrében

Az egészségügyi forradalom új hőse a mesterséges intelligencia, legalábbis ezt harsogják a nagyvállalatok...

MA 08:50

Az észak-angliai viking sziget egén felrobbant egy élénkzöld tűzgömb

💥 A hét elején Lindisfarne, azaz a Szent Sziget éjszakai egét vadul hasította át egy élénkzöld tűzgömb, amely a 8...

MA 08:43

Az MI-ben még a légitársaságoknál is kevésbé bízunk – miért?

Azt vizsgálták, hogyan viszonyulnak az emberek az MI-hez, különösen az ismert platformokhoz, mint a Google Gemini és a ChatGPT...

MA 08:36

A csődbe ment startupok már a Slack-csevegéseket is eladják

A startupok világa néha elég vad, de még a haláluk után is simán termelnek pénzt...

MA 08:22

A NIST visszavág: kizárólag a legveszélyesebb biztonsági hibákra fókuszál

Az elmúlt években hatalmas, 263%-os növekedés történt a szoftverek sérülékenységi bejelentéseiben, ezért az amerikai Nemzeti Szabványügyi és Technológiai Intézet (NIST) jelentősen szűkíti a CVE-adatok részletes feldolgozásának körét...

MA 08:01

Az új Galaxy Z TriFoldnál is vékonyabb, könnyebb utód készülhet

A Galaxy Z TriFold, a Samsung úttörő, háromszor hajtható okostelefonja villámgyorsan elfogyott a legutóbbi kiárusításon, így hivatalosan is elérhetetlenné vált...

MA 07:57

Az évtizedes ActiveMQ-sebezhetőség most kritikus veszélyt jelent

Érdekes jelenség, hogy egy 13 éve lappangó szoftverhiba most hirtelen komoly fenyegetéssé válik...

MA 07:50

Az Atlanti-áramlat összeomlása vészesen közelebb van, mint hinnénk

Az Atlanti-óceán egyik legfontosabb áramlata, az úgynevezett Atlanti meridionális áramlási rendszer (AMOC) összeomlása jóval valószínűbb, mint eddig hittük – derült ki egy friss kutatásból...

MA 07:29

A sötétbordó iPhone 18 Pro végre jöhet

Az Apple következő csúcskészülékei merőben új színt hozhatnak: egy gyönyörű, sötét, cseresznyébe hajló bordó árnyalatot...

MA 07:22

Az Északi-tenger alatti elveszett világ sötét titkai

Több ezer évvel ezelőtt az Északi-tenger feneke alatt rejtőző Doggerland területe buja erdők otthona volt, ahol tölgy, szil és mogyoró dúsan terjedtek már több mint 16 000 évvel ezelőtt – jóval korábban, mint azt bárki hitte volna...

MA 07:15

Az élőzene óriása bukik: mi lesz a koncertjegyek sorsa?

A Live Nation nevét már mindenki kívülről fújja, aki koncertre vágyik – és aki kisírt szemmel nézi a jegyárakat, vagy épp a végösszeget, amikor beütnek a különféle szolgáltatási díjak...

MA 06:57

Az emberi evolúció felgyorsult: itt a legnagyobb ősi genomvizsgálat

🚀 Az elmúlt évezredekben eddig nem látott tempóra kapcsolt az emberi evolúció...

MA 06:50

Az év gamer meglepetése: Lábakat kap a Clash of Clans

Most aztán tényleg ledobta az atombombát a Supercell: a Clash of Clansban megvásárolhatók a Barbár lábai, szobor formájában!..

MA 06:43

Az új Mozilla Thunderbolt: Az MI beköltözik, te diktálsz

Érdemes megvizsgálni, milyen újdonságot kínál a Mozilla az MI világában. Az MZLA Technologies, a Mozilla leányvállalata bemutatta a Thunderbolt nevű nyílt forráskódú MI-klienst, amely a teljes irányításra és az önálló futtatásra helyezi a hangsúlyt, mégpedig a felhőtől való függőség nélkül...

MA 06:37

Az olcsó laptopok új királya: megérkezett az Intel Wildcat Lake

💻 Az Intel idén tovább bővíti 2026-os mobilprocesszor-palettáját, méghozzá a pénztárcabarát Core Series 3 chipekkel, melyeket Wildcat Lake kódnéven fejlesztettek...