Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott

Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott
Vajon mennyire okos a mesterséges intelligencia? Bár a beszélgetések gördülékenysége, a szövegértés vagy a sakkbajnokságok sorozatos megnyerése már mind az MI oldalán áll, mégis akadnak olyan feladatok, amelyeket a legtöbb ember játékosan, másodpercek alatt megold – miközben a legfejlettebb algoritmusok is sorra elbuknak rajtuk. Fontos hangsúlyozni, hogy a mesterséges általános intelligencia, vagyis az AGI mércéje nem a bemagolt tudás vagy egyes speciális készségek, hanem az, hogy kevés információból képes-e a gép általánosítani és új helyzetekhez alkalmazkodni. Ez az a pont, ahol az MI jelenleg még messze elmarad embertársaink mögött.

Az absztrakció és logika próbája: a színes rácsok titka

A mesterséges intelligencia általánosító képességének mérésére dolgozta ki François Chollet 2019-ben az Absztrakció és Érvelés Korpuszt (Abstraction and Reasoning Corpus, röviden ARC), amely színes négyzetrácsokból felépülő apró logikai feladatok gyűjteménye. Ezeknél mindig fel kell ismerni egy rejtett szabályt, majd azt egy újszerű rácson alkalmazni. Az ARC rácspéldáit ma már szinte minden jelentős MI-rendszeren futtatják, a feladatcsomag iparági etalonná vált. Ezen kívül létrejött az ARC Prize Foundation is, amely nemcsak gondozza ezeket a teszteket, hanem rendszeresen fejleszt újakat is, például az ARC-AGI-2-t és most az ARC-AGI-3-at. Utóbbi újdonsága, hogy kifejezetten MI-ügynökök mérésére készült – videójátékokkal.

Mit is mér valójában az ARC?

Az ARC tesztje egyetlen minikészség elsajátítását várja el: minden feladat rávezet egy logikára, majd rögtön arra kér, hogy ezt az új tudást alkalmazzuk egy új helyzetben. Az MI tehát egy szűk területen tanul, és ez alapján próbál általánosítani. Mindezek ellenére ez még nem AGI – hiszen ilyen szűk tartományban maga az alkalmazkodás is erősen korlátos. Az ember ezzel szemben folyamatosan olyan feladatokat old meg (biciklizés, autóvezetés, nyelvtanulás), amelyek messze túlmutatnak a születéskori „tanító adathalmazon”.

Hol húzódik az AGI határa?

Akkor beszélhetünk valódi AGI-ról, ha elérkezik az a pillanat, amikor már nem találunk olyan problémát, amelyet az ember meg tud oldani, de az MI nem. Eddig azonban minden ilyen próbán elbukik az algoritmus: egy átlagember az ARC-feladatok jelentős részét sikerrel oldja meg, miközben a legokosabb MI, mint például a Grok, rendszerint csődöt mond. Fontos kiemelni, hogy ezek az MI-k már képesek mesterfokú vizsgákat, teszteket hibátlanul teljesíteni, de minden tudásuk szigetszerű, nincs meg bennük a mindennapi életben elengedhetetlen általánosítási képesség.


Az emberhez igazított nehézség

Az ARC-AGI-tesztcsomag legfőbb különlegessége, hogy minden egyes tesztet először emberek oldanak meg. A fejlesztők 400 önkéntest kértek fel, akik demográfiai szűrés után ugyanazt a feladatsort kapták számítógépen keresztül. Az átlagos eredmény az ARC-AGI-2-n 66 százalék körül volt, és egy kisebb csoport közös megoldásai összesen minden egyes kérdésre helyes választ adtak. Az MI-k jóval ez alatt teljesítenek.

Miért könnyű az embernek, és miért nehéz az MI-nek?

Az ember tanulása elképesztően hatékony: akár egyetlen példából is képesek vagyunk ráérezni a szabályra, majd alkalmazni azt új konfigurációkban. Ezzel szemben az MI algoritmusai (még a legmodernebbek is) nagyságrendekkel nehezebben tanulnak minta alapján; míg a gép száz vagy akár ezer példából sem találja meg azt, amire mi pillanatok alatt ráérzünk.

ARC-AGI-1-től a videojátékokig

Az első, eredeti ARC-AGI-1-et még 2019-ben alkotta meg Chollet; ez mintegy 1000 feladatból állt, amelyek több mint öt éven át leküzdhetetlen akadálynak bizonyultak az MI számára. Csak 2024-ben jelentek meg az OpenAI újabb modelljei, amelyek megközelítették ezt a mércét. Az ARC-AGI-2 komolyabb problémákat, nagyobb rácsokat és összetettebb szabályokat tartalmaz – amit az ember pár perc alatt megold, azt az MI gyakran meg sem közelíti. 2024-től teljesen új irányba is elmozdult a fejlesztés: az ARC-AGI-3 már interaktív, szimulációalapú próbákat tartalmaz.

Új mérce: ügynökteszt videojátékokban

A való élet ritkán „állapotmentes”: ott a döntéseink nem statikusak, hanem összefüggő sorozatot alkotnak. Egy igazi ügynöknek nemcsak egy kérdésre kell válaszolnia, hanem terveznie, tapasztalatból tanulnia, előre gondolkodnia is. Az ARC-AGI-3-hoz ezért 100 teljesen újszerű, kétdimenziós pixeles videojátékot hoztak létre. Minden játékban egy minikészség elsajátítása a cél: csak akkor lehet továbblépni, ha a játékos (legyen ember vagy MI) végigcsinálja a tervezett lépéssort, elsajátítja és helyesen alkalmazza az elvárt logikát. Az MI-k jelenlegi generációja egyelőre egyetlen pályát sem teljesített sikerrel.

MI megmérettetés videojátékban: miért más ez, mint eddig?

Videojátékokkal régóta tesztelik az MI fejlődését – az Atari-klasszikusok (Atari Classics) vagy a sakk, a Go például már lezárt terepnek számítanak. De ezeknél egyaránt gondot jelent, hogy nyilvánosan elérhető az összes szabály, rengeteg példa áll rendelkezésre, és számtalan MI-fejlesztő előzetes tudása is beépül a fejlesztésbe. Az új ARC-AGI-3 játékokkal mindez kizárható: nincs előzetes tudás, az MI-nek egy addig teljesen ismeretlen környezetben kell boldogulnia.

Következésképpen, bár az MI egyre okosabb, az általános alkalmazkodás és logikai problémamegoldás terén az ember még mindig magasan vezet – legalábbis, amíg a leggyorsabb algoritmus is hosszan gondolkodik azon, amin mi csak mosolygunk.

2025, adminboss, www.livescience.com alapján


Legfrissebb posztok

APP
MA 07:11

APPok, Amik Ingyenesek MA, 11/1

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Zippycal – Calendar (iPhone/iPad) Oahu Offline Island Guide (iPhone/iPad) Full Court Rivals (iPhone/iPad) Bridges: Link Formatting (iPhone/iPad) Maui Offline Island Guide (iPhone/iPad) Palette Hunt (iPhone/iPad) Ascriva ICD-10-CM (iPhone/iPad) LEGO® DUPLO® DOCTOR (iPhone/iPad) Alison Baby Monitor (iPhone/iPad) Steganography: Hidden Message (iPhone/iPad) Pump Tracker: Breastfeeding...

péntek 22:30

Az új Pixel-mobilt nehezebb feltörni, mint hinnéd

A Cellebrite eszközei az elmúlt években komoly fejfájást okoztak a felhasználóknak, hiszen ezekkel a cégek és hatóságok képesek okostelefonokból adatokat kinyerni...

péntek 22:01

Az Amazonas védelmében: brazil siker a klímacsatában?

Brazília ad otthont az Amazonas legnagyobb részének, amely kulcsfontosságú a klímaváltozás elleni küzdelemben...

péntek 21:59

Az új One UI 8.5 érkezik: öt izgalmas újdonság Samsung‑telefonokra

📱 A Samsung hamarosan elindíthatja az új One UI 8.5-ös frissítést, amely több hasznos fejlesztést hoz a Galaxy készülékekre...

péntek 21:30

Az MI-meghajtású Google újraindít egy atomreaktort Iowában

A Google új életet lehel az Iowa állambeli Duane Arnold Energy Centerbe, amely 2020-ban zárt be...

péntek 21:01

Grönlandot egyre jobban fenyegetik az olvadó jégtakarók

🌨 Grönland földje folyamatosan átalakul: a sziget jelenleg is csavarodik, feszül és zsugorodik a több ezer éve eltűnt jégtakarók „szellemei” miatt...



péntek 20:59

Az éghajlati válság mindennapjaink részévé vált

A természetes szén-dioxid-elnyelők, például az erdők és a talajok világszerte egyre kevésbé képesek megkötni a kibocsátott szén-dioxidot...

péntek 20:01

Az Apple mindenhová MI-t akar: jön a ChatGPT utódja?

Az Apple komoly terveket sző az MI integrációjával, és Tim Cook szerint egyre több, harmadik féltől származó MI-eszközt építenek majd be az Apple Intelligence szolgáltatásaiba...



péntek 19:58

Az emésztésedet egy titkos ritmus vezérli

Az emberi szervezetben a szinkronizált frekvenciák különös szerepet játszanak az emésztésben...

péntek 19:30

Van egy probléma, amit még a kvantumszámítógépek sem képesek megoldani

A kvantumszámítógépek alapvetően azért keltettek óriási várakozást, mert elméletben képesek pillanatok alatt megoldani olyan problémákat is, amelyek a hagyományos gépeknek évezredekig tartanának...



péntek 19:01

Az Affinity mostantól egyetlen, ingyenes kreatív app

🚀 Az Affinity, a népszerű kreatív programcsalád, vadonatúj, egységesített változatban tért vissza...

péntek 18:59

Az egyik legritkább emlősfaj újszülöttjei bukkantak fel Ausztráliában

Kelet-Ausztrália védett erdeiben szenzációs pillanatnak lehettek tanúi a természetvédők: először észleltek szabadon született kölyköket az északi szőrösorrú vombatoknál...

péntek 18:30

A Proton új platformja elképesztő adatlopásokat leplezett le

A svájci Proton bejelentette a Data Breach Observatoryt, egy új platformot, amely a vállalati információbiztonsági visszaélésekre, elhallgatott adatlopásokra világít rá...



péntek 18:01

Egy új kínai chip ezerszer gyorsabb az Nvidia csúcskártyáinál

⚡ Kínai tudósok forradalmi analóg chipet fejlesztettek, amely saját fizikai áramkörein számol, nem pedig a szokásos digitális, bináris (0 és 1) módon működik...

péntek 17:59

Most kezdődik az igazi MI-aranyláz, figyelmeztet az Nvidia vezére

Az Nvidia vezérigazgatója szerint most indult be igazán az MI-forradalom: az iparág egy „erényes körforgásba” (virtuous cycle) lépett, ahol az MI fejlődése újabb beruházásokat vonz, ami aztán még gyorsabb fejlődést eredményez...

péntek 17:29

Az MI-tartalomáradat jön a Facebookodra

A Meta vezére, Mark Zuckerberg újabb tartalomdömpingre készül: hamarosan még több MI által gyártott poszt árasztja el a közösségi oldalakat...



péntek 17:01

Az új Windows 11 virtuális asztal a Quest 3-on: Sci-fi az irodában

A Windows 11 fejlett virtuális asztal funkciója mostantól széles körben elérhető a Meta Quest 3 és Quest 3S headseteken...

péntek 16:58

Az OpenAI készül az 1 billió dolláros tőzsdére lépésre

Az OpenAI egy hatalmas, 1 billió dollár (360 ezer milliárd forint) értékű tőzsdei bevezetésre (IPO) készül, amely hamarabb megvalósulhat, mint azt sokan gondolták...



péntek 16:30

Az új LinkedIn-átverés: így vadásznak a pénzügyi vezetőkre

Az utóbbi hetekben új hullámban indultak támadások a LinkedInen, ahol hackerek pénzügyi vezetőket és döntéshozókat próbálnak megtéveszteni hamis, különleges vezetőségi meghívókkal...