Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott

Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott
Vajon mennyire okos a mesterséges intelligencia? Bár a beszélgetések gördülékenysége, a szövegértés vagy a sakkbajnokságok sorozatos megnyerése már mind az MI oldalán áll, mégis akadnak olyan feladatok, amelyeket a legtöbb ember játékosan, másodpercek alatt megold – miközben a legfejlettebb algoritmusok is sorra elbuknak rajtuk. Fontos hangsúlyozni, hogy a mesterséges általános intelligencia, vagyis az AGI mércéje nem a bemagolt tudás vagy egyes speciális készségek, hanem az, hogy kevés információból képes-e a gép általánosítani és új helyzetekhez alkalmazkodni. Ez az a pont, ahol az MI jelenleg még messze elmarad embertársaink mögött.

Az absztrakció és logika próbája: a színes rácsok titka

A mesterséges intelligencia általánosító képességének mérésére dolgozta ki François Chollet 2019-ben az Absztrakció és Érvelés Korpuszt (Abstraction and Reasoning Corpus, röviden ARC), amely színes négyzetrácsokból felépülő apró logikai feladatok gyűjteménye. Ezeknél mindig fel kell ismerni egy rejtett szabályt, majd azt egy újszerű rácson alkalmazni. Az ARC rácspéldáit ma már szinte minden jelentős MI-rendszeren futtatják, a feladatcsomag iparági etalonná vált. Ezen kívül létrejött az ARC Prize Foundation is, amely nemcsak gondozza ezeket a teszteket, hanem rendszeresen fejleszt újakat is, például az ARC-AGI-2-t és most az ARC-AGI-3-at. Utóbbi újdonsága, hogy kifejezetten MI-ügynökök mérésére készült – videójátékokkal.

Mit is mér valójában az ARC?

Az ARC tesztje egyetlen minikészség elsajátítását várja el: minden feladat rávezet egy logikára, majd rögtön arra kér, hogy ezt az új tudást alkalmazzuk egy új helyzetben. Az MI tehát egy szűk területen tanul, és ez alapján próbál általánosítani. Mindezek ellenére ez még nem AGI – hiszen ilyen szűk tartományban maga az alkalmazkodás is erősen korlátos. Az ember ezzel szemben folyamatosan olyan feladatokat old meg (biciklizés, autóvezetés, nyelvtanulás), amelyek messze túlmutatnak a születéskori „tanító adathalmazon”.

Hol húzódik az AGI határa?

Akkor beszélhetünk valódi AGI-ról, ha elérkezik az a pillanat, amikor már nem találunk olyan problémát, amelyet az ember meg tud oldani, de az MI nem. Eddig azonban minden ilyen próbán elbukik az algoritmus: egy átlagember az ARC-feladatok jelentős részét sikerrel oldja meg, miközben a legokosabb MI, mint például a Grok, rendszerint csődöt mond. Fontos kiemelni, hogy ezek az MI-k már képesek mesterfokú vizsgákat, teszteket hibátlanul teljesíteni, de minden tudásuk szigetszerű, nincs meg bennük a mindennapi életben elengedhetetlen általánosítási képesség.


Az emberhez igazított nehézség

Az ARC-AGI-tesztcsomag legfőbb különlegessége, hogy minden egyes tesztet először emberek oldanak meg. A fejlesztők 400 önkéntest kértek fel, akik demográfiai szűrés után ugyanazt a feladatsort kapták számítógépen keresztül. Az átlagos eredmény az ARC-AGI-2-n 66 százalék körül volt, és egy kisebb csoport közös megoldásai összesen minden egyes kérdésre helyes választ adtak. Az MI-k jóval ez alatt teljesítenek.

Miért könnyű az embernek, és miért nehéz az MI-nek?

Az ember tanulása elképesztően hatékony: akár egyetlen példából is képesek vagyunk ráérezni a szabályra, majd alkalmazni azt új konfigurációkban. Ezzel szemben az MI algoritmusai (még a legmodernebbek is) nagyságrendekkel nehezebben tanulnak minta alapján; míg a gép száz vagy akár ezer példából sem találja meg azt, amire mi pillanatok alatt ráérzünk.

ARC-AGI-1-től a videojátékokig

Az első, eredeti ARC-AGI-1-et még 2019-ben alkotta meg Chollet; ez mintegy 1000 feladatból állt, amelyek több mint öt éven át leküzdhetetlen akadálynak bizonyultak az MI számára. Csak 2024-ben jelentek meg az OpenAI újabb modelljei, amelyek megközelítették ezt a mércét. Az ARC-AGI-2 komolyabb problémákat, nagyobb rácsokat és összetettebb szabályokat tartalmaz – amit az ember pár perc alatt megold, azt az MI gyakran meg sem közelíti. 2024-től teljesen új irányba is elmozdult a fejlesztés: az ARC-AGI-3 már interaktív, szimulációalapú próbákat tartalmaz.

Új mérce: ügynökteszt videojátékokban

A való élet ritkán „állapotmentes”: ott a döntéseink nem statikusak, hanem összefüggő sorozatot alkotnak. Egy igazi ügynöknek nemcsak egy kérdésre kell válaszolnia, hanem terveznie, tapasztalatból tanulnia, előre gondolkodnia is. Az ARC-AGI-3-hoz ezért 100 teljesen újszerű, kétdimenziós pixeles videojátékot hoztak létre. Minden játékban egy minikészség elsajátítása a cél: csak akkor lehet továbblépni, ha a játékos (legyen ember vagy MI) végigcsinálja a tervezett lépéssort, elsajátítja és helyesen alkalmazza az elvárt logikát. Az MI-k jelenlegi generációja egyelőre egyetlen pályát sem teljesített sikerrel.

MI megmérettetés videojátékban: miért más ez, mint eddig?

Videojátékokkal régóta tesztelik az MI fejlődését – az Atari-klasszikusok (Atari Classics) vagy a sakk, a Go például már lezárt terepnek számítanak. De ezeknél egyaránt gondot jelent, hogy nyilvánosan elérhető az összes szabály, rengeteg példa áll rendelkezésre, és számtalan MI-fejlesztő előzetes tudása is beépül a fejlesztésbe. Az új ARC-AGI-3 játékokkal mindez kizárható: nincs előzetes tudás, az MI-nek egy addig teljesen ismeretlen környezetben kell boldogulnia.

Következésképpen, bár az MI egyre okosabb, az általános alkalmazkodás és logikai problémamegoldás terén az ember még mindig magasan vezet – legalábbis, amíg a leggyorsabb algoritmus is hosszan gondolkodik azon, amin mi csak mosolygunk.

2025, adminboss, www.livescience.com alapján

Legfrissebb posztok

MA 15:17

A brutális pénzpiaci kamatoknak hamarosan végük?

Az amerikai jegybank 2024-ben háromszor, majd 2025-ben ismét háromszor csökkentette a kamatot, így a betéti kamatok – köztük a pénzpiaci számlák (MMA) kamatai is – csökkenni kezdtek...

MA 15:02

A nagy lakáshitel-fordulat: így profitálhatsz a zuhanó kamatokból

🏡 December közepén tovább csökkennek az ingatlanfedezetű hitelkeretek (HELOC) kamatai, a bankok pedig sorra alakítják át ajánlataikat az új, 6,75%-os prime rate-hez igazítva...

MA 14:49

A megtakarítások új sztárja: most itt a legmagasabb kamat

December közepére tovább csökkentek a megtakarítási kamatok, azonban még mindig lehet igazán kedvező ajánlatokat találni...

MA 14:33

Az elektromos családi kisbusz, amiben tényleg álomra hajthatod a fejed

Citroën új koncepcióautója képes hat embert elvinni – mindezt egy olyan kis méretű karosszériával, amely alig nagyobb egy Mininél...

MA 14:18

A teknősök páncélja: Valójában mire jó?

🐢 A legtöbb ember azt hiszi, hogy a teknős páncélja kizárólag védekezésre alakult ki, hiszen elég, ha a kis páncélos állat egyszerűen behúzza a fejét, és már védve is van a ragadozók elől...

MA 12:50

Az új James Bond fiatal, nyers – és még keresi önmagát

Ki gondolta volna, hogy egyszer egy 26 éves, tapasztalatlan James Bond veszi át a stafétabotot, miközben a klasszikus figurát teljesen újragondolják?..

MA 12:33

Az űr mélyén hét órán át tombolt a rejtélyes robbanás

💥 A csillagászokat megdöbbentette egy soha nem látott esemény: egy különösen hosszú, hétórás gamma-kitörés érkezett hozzánk 8 milliárd fényév távolságból, a Pajzs (Scutum) csillagkép irányából...

MA 12:20

Az év legjobb Chromebookjai 2025-ben: árak, teljesítmény, titkos favoritok

💻 Felmerül a kérdés, melyik Chromebook lehet a legjobb választás idén azoknak, akik egyszerű, gyors és pénztárcabarát laptopot keresnek...

MA 10:46

A heavy metal gyógyítja a tinik lelkét a Blackfeet rezervátumban

🎸 Felmerül a kérdés, mit keres a heavy metal egy indián rezervátumban, ahol a fiatalokat a sötétség gyakran szó szerint fenyegeti...

MA 10:29

Az ETF-láz forrpontra jut: a Goldman Sachs mindent egy lapra tesz

🔥 A Goldman Sachs Asset Management nagy tétet tett azokra a tőzsdén kereskedett alapokra (ETF-ekre), amelyek opciók használatával védelmet nyújtanak a piaci veszteségek ellen...

MA 10:23

A fiú, aki visszatért az ősoroszlán karmaiból

🐯 Egyedülálló régészeti lelet borzolta fel a tudósok kedélyét Bulgáriában: nagyjából 6 200 évvel ezelőtt egy tinédzsert támadott meg egy oroszlán, és bár az áldozat súlyosan megsérült, valahogy mégis túlélte a támadást – legalábbis egy darabig...

MA 10:16

Az Affinity ingyen lett: a Canva felforgatja a dizájnvilágot

🚀 Októberben a Canva World Tour rendezvényen bejelentették: a megújult, professzionális Affinity mostantól teljesen ingyenes...

MA 09:52

Az első robotséf, amely tényleg leveszi rólad a főzés terhét

🥣 Amíg dolgozom, odalent a konyhában a Posha robotséf épp krémes makarónit készít sajttal és fokhagymával...

MA 09:36

Az új Alien-játék letarolhatja a piacot

Az Alien-filmek rajongói újabb okot kaptak az örömre: egy vadonatúj, AAA-kategóriájú Alien-játék készül, amely 2028-ban jelenhet meg minden főbb platformra...

MA 09:30

A MI-robbanás egyik nagy nyertese lehet a Vanguard Utilities ETF

Az elmúlt két évtizedben az Egyesült Államok áramfogyasztása alig növekedett, köszönhetően az energiatakarékos technológiáknak, mint a LED-izzók és a modern háztartási gépek...

MA 09:22

Jön az igazi Half-Life 3? Tavaszi premier, Steam Machine-pletykák

🚀 A Half-Life univerzum rajongói most újabb reménysugárba kapaszkodhatnak: iparági bennfentesek szerint a Half-Life 3 nemcsak valóban készül, hanem 2026 tavaszán a Valve új Steam Machine konzoljának premierjével együtt is megjelenhet...

MA 09:15

Az Ozempic váratlan előnye: jót tehet az agynak

💡 Felmerült, hogy a 2-es típusú diabétesszel élőknél a GLP-1 agonista gyógyszerek – köztük az Ozempic, a Trulicity és a Victoza – nemcsak a vércukorszintet javíthatják, hanem váratlan módon csökkenthetik az epilepszia kockázatát is...

MA 09:09

Véget ér a Berkshire-módszer? Óriási átalakulás Buffett távozása után

💰 Fontos szempont, hogy az elmúlt héten a pénzügyi világot meglepte Todd Combs hirtelen távozása a Berkshire Hathaway-től...

MA 09:02

Az MI-reklámözönben fuldoklunk – elég volt!

Az emberek naponta átlagosan tízezer reklámmal találkoznak – legalábbis ezt mondják, és bármennyire is túlzásnak hangzik, sajnos egyre igazabbnak tűnik...