2025. 09. 09., 09:03

Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott

Nehézségekbe ütközött a mesterséges intelligencia, ezeken a fejtörőkön elbukott
Vajon mennyire okos a mesterséges intelligencia? Bár a beszélgetések gördülékenysége, a szövegértés vagy a sakkbajnokságok sorozatos megnyerése már mind az MI oldalán áll, mégis akadnak olyan feladatok, amelyeket a legtöbb ember játékosan, másodpercek alatt megold – miközben a legfejlettebb algoritmusok is sorra elbuknak rajtuk. Fontos hangsúlyozni, hogy a mesterséges általános intelligencia, vagyis az AGI mércéje nem a bemagolt tudás vagy egyes speciális készségek, hanem az, hogy kevés információból képes-e a gép általánosítani és új helyzetekhez alkalmazkodni. Ez az a pont, ahol az MI jelenleg még messze elmarad embertársaink mögött.

Az absztrakció és logika próbája: a színes rácsok titka

A mesterséges intelligencia általánosító képességének mérésére dolgozta ki François Chollet 2019-ben az Absztrakció és Érvelés Korpuszt (Abstraction and Reasoning Corpus, röviden ARC), amely színes négyzetrácsokból felépülő apró logikai feladatok gyűjteménye. Ezeknél mindig fel kell ismerni egy rejtett szabályt, majd azt egy újszerű rácson alkalmazni. Az ARC rácspéldáit ma már szinte minden jelentős MI-rendszeren futtatják, a feladatcsomag iparági etalonná vált. Ezen kívül létrejött az ARC Prize Foundation is, amely nemcsak gondozza ezeket a teszteket, hanem rendszeresen fejleszt újakat is, például az ARC-AGI-2-t és most az ARC-AGI-3-at. Utóbbi újdonsága, hogy kifejezetten MI-ügynökök mérésére készült – videójátékokkal.

Mit is mér valójában az ARC?

Az ARC tesztje egyetlen minikészség elsajátítását várja el: minden feladat rávezet egy logikára, majd rögtön arra kér, hogy ezt az új tudást alkalmazzuk egy új helyzetben. Az MI tehát egy szűk területen tanul, és ez alapján próbál általánosítani. Mindezek ellenére ez még nem AGI – hiszen ilyen szűk tartományban maga az alkalmazkodás is erősen korlátos. Az ember ezzel szemben folyamatosan olyan feladatokat old meg (biciklizés, autóvezetés, nyelvtanulás), amelyek messze túlmutatnak a születéskori „tanító adathalmazon”.

Hol húzódik az AGI határa?

Akkor beszélhetünk valódi AGI-ról, ha elérkezik az a pillanat, amikor már nem találunk olyan problémát, amelyet az ember meg tud oldani, de az MI nem. Eddig azonban minden ilyen próbán elbukik az algoritmus: egy átlagember az ARC-feladatok jelentős részét sikerrel oldja meg, miközben a legokosabb MI, mint például a Grok, rendszerint csődöt mond. Fontos kiemelni, hogy ezek az MI-k már képesek mesterfokú vizsgákat, teszteket hibátlanul teljesíteni, de minden tudásuk szigetszerű, nincs meg bennük a mindennapi életben elengedhetetlen általánosítási képesség.


Az emberhez igazított nehézség

Az ARC-AGI-tesztcsomag legfőbb különlegessége, hogy minden egyes tesztet először emberek oldanak meg. A fejlesztők 400 önkéntest kértek fel, akik demográfiai szűrés után ugyanazt a feladatsort kapták számítógépen keresztül. Az átlagos eredmény az ARC-AGI-2-n 66 százalék körül volt, és egy kisebb csoport közös megoldásai összesen minden egyes kérdésre helyes választ adtak. Az MI-k jóval ez alatt teljesítenek.

Miért könnyű az embernek, és miért nehéz az MI-nek?

Az ember tanulása elképesztően hatékony: akár egyetlen példából is képesek vagyunk ráérezni a szabályra, majd alkalmazni azt új konfigurációkban. Ezzel szemben az MI algoritmusai (még a legmodernebbek is) nagyságrendekkel nehezebben tanulnak minta alapján; míg a gép száz vagy akár ezer példából sem találja meg azt, amire mi pillanatok alatt ráérzünk.

ARC-AGI-1-től a videojátékokig

Az első, eredeti ARC-AGI-1-et még 2019-ben alkotta meg Chollet; ez mintegy 1000 feladatból állt, amelyek több mint öt éven át leküzdhetetlen akadálynak bizonyultak az MI számára. Csak 2024-ben jelentek meg az OpenAI újabb modelljei, amelyek megközelítették ezt a mércét. Az ARC-AGI-2 komolyabb problémákat, nagyobb rácsokat és összetettebb szabályokat tartalmaz – amit az ember pár perc alatt megold, azt az MI gyakran meg sem közelíti. 2024-től teljesen új irányba is elmozdult a fejlesztés: az ARC-AGI-3 már interaktív, szimulációalapú próbákat tartalmaz.

Új mérce: ügynökteszt videojátékokban

A való élet ritkán „állapotmentes”: ott a döntéseink nem statikusak, hanem összefüggő sorozatot alkotnak. Egy igazi ügynöknek nemcsak egy kérdésre kell válaszolnia, hanem terveznie, tapasztalatból tanulnia, előre gondolkodnia is. Az ARC-AGI-3-hoz ezért 100 teljesen újszerű, kétdimenziós pixeles videojátékot hoztak létre. Minden játékban egy minikészség elsajátítása a cél: csak akkor lehet továbblépni, ha a játékos (legyen ember vagy MI) végigcsinálja a tervezett lépéssort, elsajátítja és helyesen alkalmazza az elvárt logikát. Az MI-k jelenlegi generációja egyelőre egyetlen pályát sem teljesített sikerrel.

MI megmérettetés videojátékban: miért más ez, mint eddig?

Videojátékokkal régóta tesztelik az MI fejlődését – az Atari-klasszikusok (Atari Classics) vagy a sakk, a Go például már lezárt terepnek számítanak. De ezeknél egyaránt gondot jelent, hogy nyilvánosan elérhető az összes szabály, rengeteg példa áll rendelkezésre, és számtalan MI-fejlesztő előzetes tudása is beépül a fejlesztésbe. Az új ARC-AGI-3 játékokkal mindez kizárható: nincs előzetes tudás, az MI-nek egy addig teljesen ismeretlen környezetben kell boldogulnia.

Következésképpen, bár az MI egyre okosabb, az általános alkalmazkodás és logikai problémamegoldás terén az ember még mindig magasan vezet – legalábbis, amíg a leggyorsabb algoritmus is hosszan gondolkodik azon, amin mi csak mosolygunk.

2025, adminboss, www.livescience.com alapján

Legfrissebb posztok

MA 21:44

A Wall Street túllép a kriptokísérleteken, és az Ethereumra szavaz

💰 Tipikus esete annak, amikor a technológiai forradalom halkan, de mélyrehatóan formálja át a pénzügyi világot...

MA 21:34

A Mag8 vállalatok negyede már bitcoint tart – Musknak köszönhetően

Michael Saylor, a MicroStrategy társalapítója új elnevezést adott a Wall Street legmeghatározóbb cégeinek, miután a SpaceX rekordméretű, 1,75 billió dolláros (kb...

MA 21:12

A NASA X-59-e áttörte a hangkorlátot – közeleg a csendes szuperszonikus korszak?

🚀 A NASA és a Lockheed Martin közösen fejlesztett X-59-es repülőgépe először lépte át a hangsebesség határát, elérve a Mach 1,1-es sebességet...

MA 21:01

A kullancs csípése húsallergiát okozhat – új veszély leselkedik?

Ebből következően érdemes megérteni, hogy a kullancsok nemcsak olyan ismert betegségekkel fertőzhetnek meg, mint a Lyme-kór, hanem okozhatnak egy ritka, de egyre gyakoribb és komoly problémát is: a húsallergiát...

MA 20:56

A chatbotod memóriájának átvitele Geminibe és vissza – így csináld

A chatbotok világában gyakran felmerül az igény, hogy egy másik MI‑platformot próbáljunk ki, azonban sokakat visszatart, hogy elveszthetik eddigi beszélgetéseiket és beállításaikat...

MA 20:45

A rák mesterkapcsolója: áttörés a hasnyálmirigyrák kezelésében

🚀 A tudomány világát ritkán járja át igazi lelkesedés, most azonban kivételes dolog történt...

MA 20:34

Az AirPods lesz az iPhone-kamerád titkos távirányítója

Az iOS 26 érkezésével az AirPods új trükköket tanult: a vezeték nélküli kameravezérlés már nemcsak az Apple Watch kiváltsága...

MA 20:01

A hamis bejelentések miatt leállították Maine adatszivárgás-bejelentő portálját

Jó példa erre, hogy Maine állam kénytelen volt leállítani a nyilvános adatszivárgás-bejelentő portálját, miután ismeretlenek hamis biztonsági incidensekről szóló közleményeket töltöttek fel a hivatalos rendszerbe...

MA 19:56

A SpaceX tőzsdei rajtja tökéletesre sikerült – így látják a befektetők

A SpaceX pénteki tőzsdei debütálása minden várakozást felülmúlt: a részvény már reggel 150 dolláron (kb...

MA 19:34

Miért mondhatja a kardiológusod: felejtsd el az AirPodsot?

A fejhallgatók és más okoseszközök megdöbbentően komoly kockázatot jelenthetnek mindazok számára, akiknek beültetett szíveszközük van...

MA 19:01

A phpBB évtizedes azonosítási kiskapuját végre bezárták

🔒 Ezt jól illusztrálja, hogy egy tíz éve rejtőző, súlyos biztonsági rés most derült ki a phpBB fórummotorban: a sebezhetőség lehetővé teszi, hogy bárki bejelentkezhessen bármely felhasználó, akár rendszergazda nevében is...

MA 18:56

A Parker újabb Nap-közeli száguldása: dőlnek a rekordok

A Parker Solar Probe újabb látványos repülést hajtott végre a Nap körül, ezzel az emberiség csillagokhoz írt történetének egyik legizgalmasabb fejezetét folytatva...

MA 18:23

A nagy rejtély: hogyan tartja Kína alacsonyan a világpiaci olajárakat?

Külön említést érdemel, hogy az üzemanyag jelenleg jóval olcsóbb is lehetne, ha nem érvényesülnének bizonyos, Kínához köthető nemzetközi tényezők...

MA 18:02

Az AWS mindent egy lapra tesz a gyorsabb, hatékonyabb adatközponti hálózatokért

Az Amazon egy merőben új hálózati topológiát fejlesztett ki, amely akár egyharmaddal gyorsabb, és 40 százalékkal energiahatékonyabb a hagyományos, hierarchikus hálózati rendszereknél...

MA 17:56

Tényleg még mindig olcsók az Alphabet részvényei?

Az Alphabet (GOOGL) az egyik legnépszerűbb befektetés a világ legnagyobb alapkezelői számára, és a Chase Coleman vezette Tiger Global Managementnél is ez a legnagyobb portfólióelem...

MA 17:45

Az agyad a kilencvenes éveidben is fejlődhet – friss kutatás

💡 Évtizedek óta tartja magát a tévhit, hogy az öregedés egyet jelent a szellemi hanyatlással, de a legfrissebb tudományos eredmények minden várakozást felülmúltak...

MA 17:33

Az első 60 Hz-es E‑ink monitor tényleg megérkezett

Az E-ink kijelzők mindig is híresek voltak az energiatakarékosságukról és szemkímélő megjelenítésükről, de a lassú frissítési sebességük miatt eddig kevéssé voltak alkalmasak számítógép-monitorként...

MA 17:22

A Windows XP szelleme kísért London vezető nélküli vasútján

Tipikus eset, amikor a múlt technológiája váratlanul bukkan elő a mindennapokban: a London Docklands Light Railway (DLR) egyik Limehouse állomásán XP-korszakbeli Windows jelent meg a kijelzőn...

MA 14:34

Az óceánok lázadnak: berobban a szuper El Niño

Az elmúlt hét tudományos fejleményei közül kiemelkedtek az óceánok helyzetéről érkező riasztó jelentések...

MA 14:23

Az USA a vissza nem térés pontján: merre tart a kanyarójárvány?

😷 Az Egyesült Államokban évtizedeken át sikerült megfékezni a kanyarót, miután komoly lépéseket tettek a vírus megállítására...

MA 12:23

A Föld összes vize volt már valaha pisi?

Az emberi szervezet nap mint nap vizet választ ki, miközben a Föld vízkészlete folyamatosan körforgásban van...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/13

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy túlélő játék, amelyet George Orwell 1984 című regénye inspirált...

MA 06:19

A világ legritkább emberszabásúját ciklon tizedelte négy nap alatt: 7%

😵 Az indonéziai Batang Toru-erdő sűrű lombjai között az emberiség legritkább emberszabású majmai, a Tapanuli orángutánok hónapokig szinte láthatatlanul éltek – egészen addig, amíg egy négy napig tomboló, a klímaváltozás miatt felerősödött ciklon le nem sújtott rájuk...

MA 06:06

Történelmi események a mai napon (Június 13.)

Rövid áttekintő: Vallásszabadságot hirdet az Edictum Mediolanense, Rhode Island betiltja a rabszolgák behozatalát, a Pentagon Papers publikálása pedig alapjaiban rázza meg az amerikai közvéleményt...

péntek 21:45

A PixelRAG pontosabb a szövegfeldolgozóknál, és tizedeli az MI-ügynökök tokenköltségét

📦 Továbbá megemlíthető, hogy a vállalati információ-visszakeresésben eddig megszokott módszerek – ahol egyszerű szövegfeldolgozóval alakítják át a weboldalakat vagy dokumentumokat szöveggé – komoly hátrányokkal járnak...

péntek 21:34

A Stanford-kutatók visszanövesztik a porcot, visszafordítják az ízületi kopást

Az ízületi porckopás világszerte emberek millióinak életét keseríti meg: a mozgás fájdalmassá válik, a hétköznapi tevékenységek is nehézzé, küzdelmessé lesznek...

péntek 21:23

Az időszakos böjt meglepő fegyver lehet az ínybetegség ellen

💫 Továbbra is kevesen gondolnának arra, hogy egy rövid távú, alacsony kalóriatartalmú diéta nemcsak a testsúlycsökkentésben lehet hasznos, hanem az íny gyulladásának csökkentésében is komoly szerepet játszhat...

péntek 21:11

A SpaceX 20%-ot szárnyalt Nasdaq-premierjén

Elon Musk legendás vállalata, a SpaceX lenyűgöző startot vett a Nasdaqon: a részvények már a nyitány után 20%-kal drágultak, 162 dollárig emelkedtek, miután az elsődleges részvénykibocsátási árat 135 dolláron állapították meg...

péntek 21:01

Az Asus 12V-2×6 kábele is megolvad: lángol az Nvidia-botrány

🔥 Az elmúlt hetekben felröppent a hír, hogy az Asus legújabb, elvileg minden olvadási problémát megszüntető grafikuskártya-kábele – a ROG Equalizer – szintén megadta magát, méghozzá látványosan...