Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott

Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott
Vajon mennyire okos a mesterséges intelligencia? Bár a beszélgetések gördülékenysége, a szövegértés vagy a sakkbajnokságok sorozatos megnyerése már mind az MI oldalán áll, mégis akadnak olyan feladatok, amelyeket a legtöbb ember játékosan, másodpercek alatt megold – miközben a legfejlettebb algoritmusok is sorra elbuknak rajtuk. Fontos hangsúlyozni, hogy a mesterséges általános intelligencia, vagyis az AGI mércéje nem a bemagolt tudás vagy egyes speciális készségek, hanem az, hogy kevés információból képes-e a gép általánosítani és új helyzetekhez alkalmazkodni. Ez az a pont, ahol az MI jelenleg még messze elmarad embertársaink mögött.

Az absztrakció és logika próbája: a színes rácsok titka

A mesterséges intelligencia általánosító képességének mérésére dolgozta ki François Chollet 2019-ben az Absztrakció és Érvelés Korpuszt (Abstraction and Reasoning Corpus, röviden ARC), amely színes négyzetrácsokból felépülő apró logikai feladatok gyűjteménye. Ezeknél mindig fel kell ismerni egy rejtett szabályt, majd azt egy újszerű rácson alkalmazni. Az ARC rácspéldáit ma már szinte minden jelentős MI-rendszeren futtatják, a feladatcsomag iparági etalonná vált. Ezen kívül létrejött az ARC Prize Foundation is, amely nemcsak gondozza ezeket a teszteket, hanem rendszeresen fejleszt újakat is, például az ARC-AGI-2-t és most az ARC-AGI-3-at. Utóbbi újdonsága, hogy kifejezetten MI-ügynökök mérésére készült – videójátékokkal.

Mit is mér valójában az ARC?

Az ARC tesztje egyetlen minikészség elsajátítását várja el: minden feladat rávezet egy logikára, majd rögtön arra kér, hogy ezt az új tudást alkalmazzuk egy új helyzetben. Az MI tehát egy szűk területen tanul, és ez alapján próbál általánosítani. Mindezek ellenére ez még nem AGI – hiszen ilyen szűk tartományban maga az alkalmazkodás is erősen korlátos. Az ember ezzel szemben folyamatosan olyan feladatokat old meg (biciklizés, autóvezetés, nyelvtanulás), amelyek messze túlmutatnak a születéskori „tanító adathalmazon”.

Hol húzódik az AGI határa?

Akkor beszélhetünk valódi AGI-ról, ha elérkezik az a pillanat, amikor már nem találunk olyan problémát, amelyet az ember meg tud oldani, de az MI nem. Eddig azonban minden ilyen próbán elbukik az algoritmus: egy átlagember az ARC-feladatok jelentős részét sikerrel oldja meg, miközben a legokosabb MI, mint például a Grok, rendszerint csődöt mond. Fontos kiemelni, hogy ezek az MI-k már képesek mesterfokú vizsgákat, teszteket hibátlanul teljesíteni, de minden tudásuk szigetszerű, nincs meg bennük a mindennapi életben elengedhetetlen általánosítási képesség.


Az emberhez igazított nehézség

Az ARC-AGI-tesztcsomag legfőbb különlegessége, hogy minden egyes tesztet először emberek oldanak meg. A fejlesztők 400 önkéntest kértek fel, akik demográfiai szűrés után ugyanazt a feladatsort kapták számítógépen keresztül. Az átlagos eredmény az ARC-AGI-2-n 66 százalék körül volt, és egy kisebb csoport közös megoldásai összesen minden egyes kérdésre helyes választ adtak. Az MI-k jóval ez alatt teljesítenek.

Miért könnyű az embernek, és miért nehéz az MI-nek?

Az ember tanulása elképesztően hatékony: akár egyetlen példából is képesek vagyunk ráérezni a szabályra, majd alkalmazni azt új konfigurációkban. Ezzel szemben az MI algoritmusai (még a legmodernebbek is) nagyságrendekkel nehezebben tanulnak minta alapján; míg a gép száz vagy akár ezer példából sem találja meg azt, amire mi pillanatok alatt ráérzünk.

ARC-AGI-1-től a videojátékokig

Az első, eredeti ARC-AGI-1-et még 2019-ben alkotta meg Chollet; ez mintegy 1000 feladatból állt, amelyek több mint öt éven át leküzdhetetlen akadálynak bizonyultak az MI számára. Csak 2024-ben jelentek meg az OpenAI újabb modelljei, amelyek megközelítették ezt a mércét. Az ARC-AGI-2 komolyabb problémákat, nagyobb rácsokat és összetettebb szabályokat tartalmaz – amit az ember pár perc alatt megold, azt az MI gyakran meg sem közelíti. 2024-től teljesen új irányba is elmozdult a fejlesztés: az ARC-AGI-3 már interaktív, szimulációalapú próbákat tartalmaz.

Új mérce: ügynökteszt videojátékokban

A való élet ritkán „állapotmentes”: ott a döntéseink nem statikusak, hanem összefüggő sorozatot alkotnak. Egy igazi ügynöknek nemcsak egy kérdésre kell válaszolnia, hanem terveznie, tapasztalatból tanulnia, előre gondolkodnia is. Az ARC-AGI-3-hoz ezért 100 teljesen újszerű, kétdimenziós pixeles videojátékot hoztak létre. Minden játékban egy minikészség elsajátítása a cél: csak akkor lehet továbblépni, ha a játékos (legyen ember vagy MI) végigcsinálja a tervezett lépéssort, elsajátítja és helyesen alkalmazza az elvárt logikát. Az MI-k jelenlegi generációja egyelőre egyetlen pályát sem teljesített sikerrel.

MI megmérettetés videojátékban: miért más ez, mint eddig?

Videojátékokkal régóta tesztelik az MI fejlődését – az Atari-klasszikusok (Atari Classics) vagy a sakk, a Go például már lezárt terepnek számítanak. De ezeknél egyaránt gondot jelent, hogy nyilvánosan elérhető az összes szabály, rengeteg példa áll rendelkezésre, és számtalan MI-fejlesztő előzetes tudása is beépül a fejlesztésbe. Az új ARC-AGI-3 játékokkal mindez kizárható: nincs előzetes tudás, az MI-nek egy addig teljesen ismeretlen környezetben kell boldogulnia.

Következésképpen, bár az MI egyre okosabb, az általános alkalmazkodás és logikai problémamegoldás terén az ember még mindig magasan vezet – legalábbis, amíg a leggyorsabb algoritmus is hosszan gondolkodik azon, amin mi csak mosolygunk.

2025, adminboss, www.livescience.com alapján


Legfrissebb posztok

szerda 22:59

Az OpenAI végre irányt vált, de továbbra sem termel nyereséget

Az OpenAI új, meghatározó korszakba lépett: a Microsofttal kötött friss megállapodásnak köszönhetően mostantól egy közhasznú vállalat (PBC) égisze alatt működhet tovább, miközben új tőkebevonásra is lehetősége nyílik, így a befektetők számára is vonzóbbá válhat...

szerda 22:30

Az okos vécé: már a pisit is elemzi az MI

A Withings évek óta fejleszti különleges vizeletelemző készülékét, a most megjelent U-Scan-t, amely közvetlenül a vécécsészébe helyezhető...

szerda 22:02

Az Amazon hatalmas MI-adatközpontot épített indiai kukoricaföldekre

Körülbelül egy éve még mindez egyszerű vidéki mező volt, ma viszont már a világ egyik legnagyobb, működő MI-adatközpontja magasodik ezen a 485 hektáros területen Indiana államban, a Michigan-tó közelében...



szerda 21:59

Az új TEE.Fail támadás feltöri a titkosított processzorokat

🔒 A kutatók egy új oldalcsatornás támadási módszert, a TEE.Fail-t ismertették, amely képes visszafejteni a nagy gyártók – Intel, AMD és NVIDIA – modern processzoraiban található, különösen védett futtatókörnyezetekből (TEE) a titkos adatokat...

szerda 21:30

Tudományos háború: Az országok rivalizálása visszafogja a fejlődést!

🔫 Az utóbbi években egyre több ország helyezi a nemzetbiztonságot a tudományos felfedezések elé, komoly akadályokat gördítve a globális kutatás és gazdasági fejlődés elé...



szerda 21:00

A Windows 11 frissítése biztonságosabbá teszi a rendszert, megújul a Start menü

🛠 A Microsoft ismét nagyot lépett előre a Windows 11 fejlesztésében: a legújabb KB5067036 előzetes frissítőcsomaggal rengeteg újítást és hibajavítást mutatott be...



szerda 20:30

Az Apple végre OLED-re vált: jön a szebb MacBook és iPad

🟢 Az Apple komoly változásra készül: hamarosan OLED-kijelzőt kap a MacBook, az iPad Air és az iPad mini is...



szerda 20:00

Az első brit 3D-nyomtatott arcpótlás: egy kerékpáros új arca

Egy 75 éves devoni kerékpáros, Dave Richards élete teljesen megváltozott, miután egy ittas sofőr elütötte, és a baleset során súlyos, harmadfokú égési sérüléseket szenvedett a fején...



szerda 19:58

Az emberiség végleg elbukta az 1,5 °C-os klímacélt

Az ENSZ főtitkára szerint már biztos, hogy nem sikerül megállítani a globális felmelegedést 1,5 Celsius-fok alatt, és az emberiségnek azonnal irányt kell váltania, ha el akarja kerülni a legsúlyosabb következményeket...



szerda 19:30

Az olcsó napelemcsoda most szupergyors fénnyel sokkol

A hagyományosan napelemeknél használt halid-perovszkitek új, meglepő képességét fedezték fel brit kutatók: ezek az anyagok a legtöbb félvezetőnél jóval gyorsabban képesek fényt kezelni...



szerda 18:59

Az NVIDIA új csodafegyvere: 64 mag, 800G hálózat, 2026-tól

Az NVIDIA 2026-ra izgalmas újdonsággal készül: érkezik a BlueField-4 DPU, benne elképesztő, 64 magos Grace ARM processzorral és 800G-s hálózati kapcsolattal...



szerda 18:29

Az MI-k harca: a kínai modellek rommá verték az amerikaiakat a kriptoversenyen

Két kínai MI-modell, a DeepSeek V3.1 és az Alibaba Qwen3-Max elképesztő eredménnyel zárt egy kriptokereskedési versenyt: mindössze két hét alatt háromszámjegyű hozamot értek el...



szerda 18:01

Az ital, ami lemásolta a nyelvünket: itt a mesterséges nyelv

🧁 Egy átlátszó, négyzet alakú eszköz képes utánozni az emberi nyelv működését, és pillanatok alatt kimutatja, mennyire csípős egy étel...

szerda 17:59

Az új Musk-enciklopédia: plágium, MI-zagyvaság és elfogultság

Elon Musk új, Grokipedia nevű online enciklopédiája elindult, de már indulásakor hemzseg a plágiumtól és a mesterséges intelligencia által generált zavaros szövegektől...

szerda 17:29

Az uBlock Origin Lite végre megérkezett Apple‑eszközökre

👍 Az uBlock Origin Lite most már elérhető iPhone-ra, iPadre, Macekre és az Apple Vision készülékekre is, így a leghatékonyabb tartalomszűrőt mostantól az Apple‑felhasználók is élvezhetik...



szerda 17:01

Az MI most már appokat fejleszt helyetted

A Microsoft újabb szintre emeli a Copilot képességeit: mostantól az App Builder nevű MI-alapú ügynök lehetővé teszi, hogy percek alatt készíts saját alkalmazást a Microsoft 365-ös adataidból...



szerda 16:59

Az OpenAI-t beperelték a Cameo név lenyúlása miatt

💥 Az OpenAI új videókészítő alkalmazása, a Sora egyik fő funkciója, a Cameo, lehetővé teszi, hogy bárki ismert emberek arcát adja a generált videókhoz...

szerda 16:01

Az MI-s Claude már megtanulta az Excelt helyetted is

Jelentős, hogy az Anthropic várólistát nyitott a Claude Excelhez fejlesztett változatához, amely azt ígéri, hogy a legfejlettebb nagy nyelvi modell már egy teljes munkafüzetet is képes lesz átlátni, értelmezni és kezelni...



szerda 15:58

Az Nvidia új fegyvere: a kvantum és az MI összefog

Az Nvidia bemutatta legújabb rendszerét, az NVQLinket, amely egy nyílt architektúrájú platformként kapcsolja össze az MI-szuperszámítógépeket a kvantumszámítógépekkel...