Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott

Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott
Vajon mennyire okos a mesterséges intelligencia? Bár a beszélgetések gördülékenysége, a szövegértés vagy a sakkbajnokságok sorozatos megnyerése már mind az MI oldalán áll, mégis akadnak olyan feladatok, amelyeket a legtöbb ember játékosan, másodpercek alatt megold – miközben a legfejlettebb algoritmusok is sorra elbuknak rajtuk. Fontos hangsúlyozni, hogy a mesterséges általános intelligencia, vagyis az AGI mércéje nem a bemagolt tudás vagy egyes speciális készségek, hanem az, hogy kevés információból képes-e a gép általánosítani és új helyzetekhez alkalmazkodni. Ez az a pont, ahol az MI jelenleg még messze elmarad embertársaink mögött.

Az absztrakció és logika próbája: a színes rácsok titka

A mesterséges intelligencia általánosító képességének mérésére dolgozta ki François Chollet 2019-ben az Absztrakció és Érvelés Korpuszt (Abstraction and Reasoning Corpus, röviden ARC), amely színes négyzetrácsokból felépülő apró logikai feladatok gyűjteménye. Ezeknél mindig fel kell ismerni egy rejtett szabályt, majd azt egy újszerű rácson alkalmazni. Az ARC rácspéldáit ma már szinte minden jelentős MI-rendszeren futtatják, a feladatcsomag iparági etalonná vált. Ezen kívül létrejött az ARC Prize Foundation is, amely nemcsak gondozza ezeket a teszteket, hanem rendszeresen fejleszt újakat is, például az ARC-AGI-2-t és most az ARC-AGI-3-at. Utóbbi újdonsága, hogy kifejezetten MI-ügynökök mérésére készült – videójátékokkal.

Mit is mér valójában az ARC?

Az ARC tesztje egyetlen minikészség elsajátítását várja el: minden feladat rávezet egy logikára, majd rögtön arra kér, hogy ezt az új tudást alkalmazzuk egy új helyzetben. Az MI tehát egy szűk területen tanul, és ez alapján próbál általánosítani. Mindezek ellenére ez még nem AGI – hiszen ilyen szűk tartományban maga az alkalmazkodás is erősen korlátos. Az ember ezzel szemben folyamatosan olyan feladatokat old meg (biciklizés, autóvezetés, nyelvtanulás), amelyek messze túlmutatnak a születéskori „tanító adathalmazon”.

Hol húzódik az AGI határa?

Akkor beszélhetünk valódi AGI-ról, ha elérkezik az a pillanat, amikor már nem találunk olyan problémát, amelyet az ember meg tud oldani, de az MI nem. Eddig azonban minden ilyen próbán elbukik az algoritmus: egy átlagember az ARC-feladatok jelentős részét sikerrel oldja meg, miközben a legokosabb MI, mint például a Grok, rendszerint csődöt mond. Fontos kiemelni, hogy ezek az MI-k már képesek mesterfokú vizsgákat, teszteket hibátlanul teljesíteni, de minden tudásuk szigetszerű, nincs meg bennük a mindennapi életben elengedhetetlen általánosítási képesség.


Az emberhez igazított nehézség

Az ARC-AGI-tesztcsomag legfőbb különlegessége, hogy minden egyes tesztet először emberek oldanak meg. A fejlesztők 400 önkéntest kértek fel, akik demográfiai szűrés után ugyanazt a feladatsort kapták számítógépen keresztül. Az átlagos eredmény az ARC-AGI-2-n 66 százalék körül volt, és egy kisebb csoport közös megoldásai összesen minden egyes kérdésre helyes választ adtak. Az MI-k jóval ez alatt teljesítenek.

Miért könnyű az embernek, és miért nehéz az MI-nek?

Az ember tanulása elképesztően hatékony: akár egyetlen példából is képesek vagyunk ráérezni a szabályra, majd alkalmazni azt új konfigurációkban. Ezzel szemben az MI algoritmusai (még a legmodernebbek is) nagyságrendekkel nehezebben tanulnak minta alapján; míg a gép száz vagy akár ezer példából sem találja meg azt, amire mi pillanatok alatt ráérzünk.

ARC-AGI-1-től a videojátékokig

Az első, eredeti ARC-AGI-1-et még 2019-ben alkotta meg Chollet; ez mintegy 1000 feladatból állt, amelyek több mint öt éven át leküzdhetetlen akadálynak bizonyultak az MI számára. Csak 2024-ben jelentek meg az OpenAI újabb modelljei, amelyek megközelítették ezt a mércét. Az ARC-AGI-2 komolyabb problémákat, nagyobb rácsokat és összetettebb szabályokat tartalmaz – amit az ember pár perc alatt megold, azt az MI gyakran meg sem közelíti. 2024-től teljesen új irányba is elmozdult a fejlesztés: az ARC-AGI-3 már interaktív, szimulációalapú próbákat tartalmaz.

Új mérce: ügynökteszt videojátékokban

A való élet ritkán „állapotmentes”: ott a döntéseink nem statikusak, hanem összefüggő sorozatot alkotnak. Egy igazi ügynöknek nemcsak egy kérdésre kell válaszolnia, hanem terveznie, tapasztalatból tanulnia, előre gondolkodnia is. Az ARC-AGI-3-hoz ezért 100 teljesen újszerű, kétdimenziós pixeles videojátékot hoztak létre. Minden játékban egy minikészség elsajátítása a cél: csak akkor lehet továbblépni, ha a játékos (legyen ember vagy MI) végigcsinálja a tervezett lépéssort, elsajátítja és helyesen alkalmazza az elvárt logikát. Az MI-k jelenlegi generációja egyelőre egyetlen pályát sem teljesített sikerrel.

MI megmérettetés videojátékban: miért más ez, mint eddig?

Videojátékokkal régóta tesztelik az MI fejlődését – az Atari-klasszikusok (Atari Classics) vagy a sakk, a Go például már lezárt terepnek számítanak. De ezeknél egyaránt gondot jelent, hogy nyilvánosan elérhető az összes szabály, rengeteg példa áll rendelkezésre, és számtalan MI-fejlesztő előzetes tudása is beépül a fejlesztésbe. Az új ARC-AGI-3 játékokkal mindez kizárható: nincs előzetes tudás, az MI-nek egy addig teljesen ismeretlen környezetben kell boldogulnia.

Következésképpen, bár az MI egyre okosabb, az általános alkalmazkodás és logikai problémamegoldás terén az ember még mindig magasan vezet – legalábbis, amíg a leggyorsabb algoritmus is hosszan gondolkodik azon, amin mi csak mosolygunk.

2025, adminboss, www.livescience.com alapján


Legfrissebb posztok

Az ész nélküli VPN árzuhanás: most tényleg megéri?

MA 14:01

Az ész nélküli VPN árzuhanás: most tényleg megéri?

💰 A NordVPN most elképesztően leárazta a legnépszerűbb kétéves csomagját: mindössze 108 dollárért, vagyis körülbelül 39 000 forintért lehet előfizetni, ráadásul három extra hónapot is ajándékba adnak. Ez 73...

Intergalaktikus jégkocka érkezett, itt a 3I/ATLAS az évezred szenzációja

MA 13:27

Intergalaktikus jégkocka érkezett, itt a 3I/ATLAS az évezred szenzációja

Egy újabb csillagközi vándor sodródik keresztül Naprendszerünkön: a 3I/ATLAS érkezésével immár harmadszor nyílik lehetőség arra, hogy testközelből tanulmányozzunk egy más csillagrendszerből érkezett égitestet. A felfedezés mögött egy nemzetközi...

Az MI ledarálja a kódot, de a hibákat is ontja

MA 13:01

Az MI ledarálja a kódot, de a hibákat is ontja

🔨 A mesterséges intelligencia már négyszer gyorsabban ír kódot, mint az emberi fejlesztők, ami elsőre jelentős előnynek tűnhet. Egy friss kutatás azonban rávilágított, hogy az MI-vel generált kód akár...

Az MI-nyulak visszavágnak: robotok mentik meg az Everglades-t

MA 12:26

Az MI-nyulak visszavágnak: robotok mentik meg az Everglades-t

🐇 Florida vadregényes Everglades mocsaraiban hatalmas, betolakodó burmai pitonok kedvükre pusztítják az őshonos állatokat, ám most egy szőrös, MI-alapú megoldás érkezett a visszavágásra. A helyi hatóságok napelemes, távirányítású plüssnyulakat...

Melyik állat hall a legjobban az állatvilágban

MA 12:02

Melyik állat hall a legjobban az állatvilágban

Amikor az éjszakában cikázó denevér magas frekvenciájú csiripeléssel tájékozódik, a legtöbb állat számára hallhatatlan tartományban kommunikál – ám a nagy viaszmoly (Giant Wax Moth) számára ez az ultrahang...

Itt az új Pixel csúcstelefon, mesterséges intelligenciával és megújult hardverrel

MA 11:54

Itt az új Pixel csúcstelefon, mesterséges intelligenciával és megújult hardverrel

🤖 A Google legújabb okostelefonja, a Pixel 10 Pro egyszerre kínál prémium dizájnt, menő MI-funkciókat és több jelentős hardveres fejlesztést. Bár messze nem tökéletes, mégis igazi csúcskategóriás élményt nyújt...


MA 11:27

iOS 26 jön, ezeken az iPhone-okon már nem fut

Közeleg az Apple legújabb eseménye, amelyen végre bemutatják az iOS 26-ot, és várhatóan már szeptember 16-án elérhetővé válhat az új operációs rendszer. Új telefon, az iPhone 17 Air...

Az amerikai határőrök új csúcsot döntöttek: mindenkit átkutatnak

MA 11:01

Az amerikai határőrök új csúcsot döntöttek: mindenkit átkutatnak

Az elmúlt három hónapban az amerikai határőrök rekordmennyiségű elektronikus eszközt vizsgáltak át – egészen pontosan 14 899 darabot, ami 17 százalékos növekedést jelent a korábbi, 2022 eleji csúcshoz...

Az MI-csevegőbot miatti botrány a Snap körül egyre nagyobb

MA 10:54

Az MI-csevegőbot miatti botrány a Snap körül egyre nagyobb

Az Amerikai Kereskedelmi Bizottság (FTC) tagja, Rebecca Slaughter ismét napirendre tűzte, mi történt a Snap ellen benyújtott panasszal, amelyet az év elején az Igazságügyi Minisztériumhoz (DOJ) továbbítottak. Januárban...