2025. 09. 09., 09:03

Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott

Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott
Vajon mennyire okos a mesterséges intelligencia? Bár a beszélgetések gördülékenysége, a szövegértés vagy a sakkbajnokságok sorozatos megnyerése már mind az MI oldalán áll, mégis akadnak olyan feladatok, amelyeket a legtöbb ember játékosan, másodpercek alatt megold – miközben a legfejlettebb algoritmusok is sorra elbuknak rajtuk. Fontos hangsúlyozni, hogy a mesterséges általános intelligencia, vagyis az AGI mércéje nem a bemagolt tudás vagy egyes speciális készségek, hanem az, hogy kevés információból képes-e a gép általánosítani és új helyzetekhez alkalmazkodni. Ez az a pont, ahol az MI jelenleg még messze elmarad embertársaink mögött.

Az absztrakció és logika próbája: a színes rácsok titka

A mesterséges intelligencia általánosító képességének mérésére dolgozta ki François Chollet 2019-ben az Absztrakció és Érvelés Korpuszt (Abstraction and Reasoning Corpus, röviden ARC), amely színes négyzetrácsokból felépülő apró logikai feladatok gyűjteménye. Ezeknél mindig fel kell ismerni egy rejtett szabályt, majd azt egy újszerű rácson alkalmazni. Az ARC rácspéldáit ma már szinte minden jelentős MI-rendszeren futtatják, a feladatcsomag iparági etalonná vált. Ezen kívül létrejött az ARC Prize Foundation is, amely nemcsak gondozza ezeket a teszteket, hanem rendszeresen fejleszt újakat is, például az ARC-AGI-2-t és most az ARC-AGI-3-at. Utóbbi újdonsága, hogy kifejezetten MI-ügynökök mérésére készült – videójátékokkal.

Mit is mér valójában az ARC?

Az ARC tesztje egyetlen minikészség elsajátítását várja el: minden feladat rávezet egy logikára, majd rögtön arra kér, hogy ezt az új tudást alkalmazzuk egy új helyzetben. Az MI tehát egy szűk területen tanul, és ez alapján próbál általánosítani. Mindezek ellenére ez még nem AGI – hiszen ilyen szűk tartományban maga az alkalmazkodás is erősen korlátos. Az ember ezzel szemben folyamatosan olyan feladatokat old meg (biciklizés, autóvezetés, nyelvtanulás), amelyek messze túlmutatnak a születéskori „tanító adathalmazon”.

Hol húzódik az AGI határa?

Akkor beszélhetünk valódi AGI-ról, ha elérkezik az a pillanat, amikor már nem találunk olyan problémát, amelyet az ember meg tud oldani, de az MI nem. Eddig azonban minden ilyen próbán elbukik az algoritmus: egy átlagember az ARC-feladatok jelentős részét sikerrel oldja meg, miközben a legokosabb MI, mint például a Grok, rendszerint csődöt mond. Fontos kiemelni, hogy ezek az MI-k már képesek mesterfokú vizsgákat, teszteket hibátlanul teljesíteni, de minden tudásuk szigetszerű, nincs meg bennük a mindennapi életben elengedhetetlen általánosítási képesség.


Az emberhez igazított nehézség

Az ARC-AGI-tesztcsomag legfőbb különlegessége, hogy minden egyes tesztet először emberek oldanak meg. A fejlesztők 400 önkéntest kértek fel, akik demográfiai szűrés után ugyanazt a feladatsort kapták számítógépen keresztül. Az átlagos eredmény az ARC-AGI-2-n 66 százalék körül volt, és egy kisebb csoport közös megoldásai összesen minden egyes kérdésre helyes választ adtak. Az MI-k jóval ez alatt teljesítenek.

Miért könnyű az embernek, és miért nehéz az MI-nek?

Az ember tanulása elképesztően hatékony: akár egyetlen példából is képesek vagyunk ráérezni a szabályra, majd alkalmazni azt új konfigurációkban. Ezzel szemben az MI algoritmusai (még a legmodernebbek is) nagyságrendekkel nehezebben tanulnak minta alapján; míg a gép száz vagy akár ezer példából sem találja meg azt, amire mi pillanatok alatt ráérzünk.

ARC-AGI-1-től a videojátékokig

Az első, eredeti ARC-AGI-1-et még 2019-ben alkotta meg Chollet; ez mintegy 1000 feladatból állt, amelyek több mint öt éven át leküzdhetetlen akadálynak bizonyultak az MI számára. Csak 2024-ben jelentek meg az OpenAI újabb modelljei, amelyek megközelítették ezt a mércét. Az ARC-AGI-2 komolyabb problémákat, nagyobb rácsokat és összetettebb szabályokat tartalmaz – amit az ember pár perc alatt megold, azt az MI gyakran meg sem közelíti. 2024-től teljesen új irányba is elmozdult a fejlesztés: az ARC-AGI-3 már interaktív, szimulációalapú próbákat tartalmaz.

Új mérce: ügynökteszt videojátékokban

A való élet ritkán „állapotmentes”: ott a döntéseink nem statikusak, hanem összefüggő sorozatot alkotnak. Egy igazi ügynöknek nemcsak egy kérdésre kell válaszolnia, hanem terveznie, tapasztalatból tanulnia, előre gondolkodnia is. Az ARC-AGI-3-hoz ezért 100 teljesen újszerű, kétdimenziós pixeles videojátékot hoztak létre. Minden játékban egy minikészség elsajátítása a cél: csak akkor lehet továbblépni, ha a játékos (legyen ember vagy MI) végigcsinálja a tervezett lépéssort, elsajátítja és helyesen alkalmazza az elvárt logikát. Az MI-k jelenlegi generációja egyelőre egyetlen pályát sem teljesített sikerrel.

MI megmérettetés videojátékban: miért más ez, mint eddig?

Videojátékokkal régóta tesztelik az MI fejlődését – az Atari-klasszikusok (Atari Classics) vagy a sakk, a Go például már lezárt terepnek számítanak. De ezeknél egyaránt gondot jelent, hogy nyilvánosan elérhető az összes szabály, rengeteg példa áll rendelkezésre, és számtalan MI-fejlesztő előzetes tudása is beépül a fejlesztésbe. Az új ARC-AGI-3 játékokkal mindez kizárható: nincs előzetes tudás, az MI-nek egy addig teljesen ismeretlen környezetben kell boldogulnia.

Következésképpen, bár az MI egyre okosabb, az általános alkalmazkodás és logikai problémamegoldás terén az ember még mindig magasan vezet – legalábbis, amíg a leggyorsabb algoritmus is hosszan gondolkodik azon, amin mi csak mosolygunk.

2025, adminboss, www.livescience.com alapján

Legfrissebb posztok

MA 11:02

A Föld igazi túlélői: a dinoszauruszkor óta velünk élő madarak

A madarak lenyűgöző evolúciós története 150 millió évvel ezelőtt kezdődött, amikor a dinoszauruszok uralták Földünket...

MA 10:57

Az exbarátnő balhéja: Future-nek végképp elege van a szivárogtatásból

A rapper Future mostanra teljesen besokallt: bíróság elé viszi exét, Brittnit, amiért állítólag kényes információkat szivárogtatott róla a sajtónak...

MA 10:36

A milliomosfiú és a brutális családi tragédia: Nick Reiner pere

Szerdán délelőtt Los Angelesben újabb fejezethez érkezik a Brentwoodban történt kettős gyilkosság ügye...

MA 09:57

Az egér orrának titkos térképe felforgatja a szaglás tudományát

Fontos kérdés, hogy vajon tényleg véletlenszerűen vannak-e elrendezve a szagérzékelő receptorok az orrunkban, ahogyan eddig gondoltuk...

MA 09:50

Az elveszett Hadrianus-kupa: Spanyolországban bukkant fel egy római katona emléke

Egy spanyol kisvárosban, Berlanga de Duero-ban, véletlen leletként bukkantak rá egy törött bronzkupára, amely valószínűleg egy római katona emlékét őrzi 1900 évvel ezelőttről...

MA 09:28

A csalók új réme: Kanada betiltaná a kriptó-ATM-eket

💰 Kanadában az utóbbi években ugrásszerűen megnőtt a kriptovaluta ATM-ekhez köthető csalások és pénzmosási ügyek száma...

MA 09:22

Az elátkozott sziget őrült horrorvígjátéka: a Widow’s Bay

A távoli Widow’s Bay szigetén nem csak a szóbeszéd járja: a legendás átok lassan mindent átsző, és a pánikhullám végigsöpör a turisták között...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 4/29

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Waltz of the Wizard (iPhone/iPad)A Waltz of the Wizard egy első személyű, fizika alapú varázslószimulátor, amelyet a klasszikus fantasy világa inspirált...

MA 09:08

A világegyetem titkai most 95 százalékkal élesebben látszanak

Érdemes megvizsgálni, hogy az új MI-algoritmusok milyen ugrásszerű fejlődést hoztak a világegyetem változásainak feltérképezésében...

MA 08:57

Az új Gothic Remake-ben a gyilkosság nem marad büntetlen

A Gothic Remake hű marad az eredetihez: nem a gyilkolás a játék fő motívuma...

MA 08:50

A Bilibili mindenhol elérhető: így nézheted Kínán kívül is

Egy lényeges szempont, hogy rengetegen használják a Bilibili-t, Kína vezető videómegosztóját, ahol anime, képregény, játék, divat, technológia, életmód és más kategóriájú tartalmak közül lehet válogatni...

MA 08:37

A Fenegyerek: Újjászületve retró csavarral tarol

🔥 Érdemes megvizsgálni, hogy a Fenegyerek: Újjászületve (Daredevil: Born Again) legújabb epizódja mennyire ügyesen csempészi vissza a régi ismerősöket a Marvel-rajongók kedvenc Netflixes sorozatából...

MA 08:28

Az XRP beszakadt: elesett a kulcsfontosságú támaszszint

Napok óta tartotta magát az XRP az 1,40 dolláros (kb. 515 HUF) támasz felett, de most különösen erős eladási hullám söpört végig rajta, visszafordítva ezt a szintet ellenállássá...

MA 08:22

A harmadik személyű lövöldözős őrület újra tarol a Steamen

Külön említést érdemel, hogy az utóbbi napokban a Vanquish játékosbázisa szokatlanul látványosan nőtt a Steamen – mindez majdnem egy évtizeddel a megjelenése után...

MA 08:15

Az új gacha-őrület megérkezett: Semmitől az örökkévalóságig

Többek között azoknak, akik szeretik a napi gacha játékokat, most érdemes figyelni: már nem kell sokat várni, és az ingyenesen játszható A soha-léttől az örökkévalóságig (Neverness to Everness, NTE) végre megjelenik...

MA 08:08

A Szellemek háza új sorozata: minden, amit tudnod kell

👻 Isabel Allende világhírű, A szellemek háza (The House of the Spirits) című regényét most először dolgozza fel egy spanyol nyelvű televíziós sorozat, amely nyolc epizódban követi három nő – Clara, Blanca és Alba – évtizedeken átívelő családi történetét egy konzervatív dél-amerikai országban...

MA 07:57

A Google Workspace legütősebb új trükkjei, amikről eddig nem tudtál

A Google Cloud Next 2026 eseményen több mint 260 bejelentés hangzott el, mégis megbújt néhány kevésbé látványos, ám annál jelentősebb újdonság a Google Workspace-ben...

MA 07:50

A zuhanás királyai: mélyrepülésben a Robinhood részvényárfolyama

📉 Tipikus eset, amikor minden szem a kriptón van: a Robinhood első negyedévében a kriptóhoz köthető bevételei óriási, 47%-os visszaesést mutattak, mindössze 49 milliárd forintnak (134 millió USD) megfelelő bevételt érve el ezen a fronton...

MA 07:43

A varázslónő 17 óra alatt bedarálta az új Gyűlölet Ura-kihívást

A Diablo 4 legfrissebb kiegészítője, a Gyűlölet Ura (Lord of Hatred) minden eddiginél magasabbra emelte a nehézségi szinteket, így a játékosok most még komolyabb kihívásokkal néznek szembe...

MA 07:36

Az újszülöttek kétharmada naponta képernyőt bámul – akár 8 órát is

A kétévesnél fiatalabb babák több mint kétharmada valamilyen képernyőt használ nap mint nap, néhányan közülük akár nyolc órán keresztül...

MA 07:29

Az ingyenes Annulithok nyomában: kódözön a Neverness to Evernessben

A városi fantasztikum és a menő gacha-hullám újabb csúcspontjára értünk a Neverness to Everness-ben, ahol bónusz Annulithokat szerezhetsz, ha nem hagyod ki a friss kódokat!..

MA 07:08

Megindult az intézményi tőke: lassan, de biztosan a bitcoinba

A kriptovaluták piacán az év legnagyobb fordulópontjának tűnik, hogy a Wall Street óriásai, mint a Morgan Stanley, a BlackRock és a Fidelity egyre aktívabbak a bitcoin piacán, különösen a spot bitcoin ETF-ek formájában...

MA 07:01

Az új szurkolói tokenláz: a Chiliz berobban a Solanára és a Base-re

A sportvilág digitális forradalma új szintre lép: a Chiliz nevű blokkláncplatform egyszerre terjeszkedik a Solana és a Coinbase által fejlesztett Base hálózatra...

MA 06:57

A vadonatúj The Division váratlanul ingyenesen megjelent PC-re

A The Division Resurgence eredetileg kizárólag mobilra készült, de a Ubisoft váratlanul, minden különösebb felhajtás nélkül PC-n is elérhetővé tette...

MA 06:50

Az infláció nagy nyertese lehet a bitcoin, a részvények buknak

Fontos kérdés, hogy mivel védekezhetünk az infláció ellen ebben az új gazdasági környezetben...

MA 06:43

A Poolside megrengeti az MI‑piacot: jön a szabadon elérhető Laguna XS.2

🏊 A MI-fejlesztés eddig zárt, méregdrága csodamodellek összecsapásaként tűnt fel: hol az Anthropic, hol az OpenAI villantott valami újat, de mindig fizetős és többnyire csak API-n át elérhető formában...

MA 06:36

Az új vérteszt hetekkel hosszabbíthatja meg a terhességet preeklampsziában

👨‍🩺 Tipikus eset: az orvostudomány rég várt áttörése végre körvonalazódni látszik. Preeklampszia esetén a várandós nők vérnyomása veszélyesen megemelkedik, ami akár halálos szövődményekkel is járhat...

MA 06:29

Az AI, amely összefogja a munkát: itt a Gemini Enterprise

💼 Friss, egységesített felülettel érkezett a Gemini Enterprise, ahol ugyanúgy lehet társalogni az AI-ügynökeiddel, ahogy a jól ismert Workspace-appokban...

MA 06:22

Az új Dyson porszívó ürít helyetted, te közben tiszta maradsz

Erre utal többek között, hogy a Dyson legújabb porszívója már önürítős dokkolóval érkezik, így elfelejtheted a koszos portartály kiürítését...