A klasszikus agyteszt leleplezte az MI legnagyobb gyengeségét
Miközben a mesterséges intelligencia már esszéket ír, kérdésekre válaszol és bonyolult problémákat old meg, meglepő gyengeségre is fény derült: nehezére esik koncentrálni, ha zavaró tényezők jelennek meg. Egy nemrégiben végzett kísérlet során kutatók a klasszikus Stroop-teszt elé állítottak több népszerű MI-modellt, és érdekes különbséget találtak az emberi és a gépi figyelem között.
A Stroop-teszt kihívása
A Stroop-tesztben színek nevét mutatják különböző színű betűkkel – például a „piros” szó zöld színnel írva. A feladat, hogy ne a szót olvasd el, hanem nevezd meg a betűk színét. Ez egyszerűnek hangzik, de valójában komoly önuralmat és koncentrációt igényel, mivel a szavak olvasása automatikus szokás. A teszt jól megmutatja, mennyire tudjuk irányítani a figyelmünket, ellenállni a zavaró ingereknek és egy konkrét célra fókuszálni.
MI-modellek a fókuszpróbán
A kutatók arra voltak kíváncsiak, hogy a modern nagy nyelvi modellek – például a ChatGPT (GPT-4o), a Claude 3.5 Sonnet és a Gemini 2.5 – mennyire teljesítenek hasonló feladatokban. Rövid, öt szóból álló listákkal még megbízhatóan dolgoztak, noha a lista hosszának növekedésével egyre rosszabb eredményt értek el. A GPT-4o például öt szónál 91%-os pontosságot ért el, de tíz szónál már csak 57%-ot, negyven szónál pedig mindössze 15%-ot. A Claude 3.5 Sonnet húsz szónál még tartotta magát, de negyvennél már 24%-ra zuhant vissza. Hasonló mintázatot mutattak a többi MI-rendszer esetében is.
Mi történik, amikor összezavarodik az MI?
A zavar még nagyobb lett, amikor egy listában vegyesen szerepeltek az egyező és eltérő szín–szó párok. Ennek következtében a pontosság szinte nullára csökkent a nehezebb esetekben. Az MI-modellek nem tudták követni az „inkább a színre figyelj” utasítást, és visszaestek eredeti, megszokott válaszukra: egyszerűen felolvasták a szót.
Az ember és a gép közötti szakadék
Noha az emberek is hajlamosak automatikusan olvasni, általában még számos zavaró szín–szó páros esetén is pontosak maradnak. Ez a különbség jól mutatja, hogy az MI jelenlegi rendszerei komoly hátrányban vannak, amikor összetett figyelmi vagy önkontrollt igénylő feladatokra kerül sor. A tanulmány emlékeztet: bármilyen fejlettnek tűnik is egy MI-rendszer, hosszú és zavaró információsorok esetén visszaesik a teljesítménye – az emberi agy ebben egyelőre verhetetlen.
2026, adminboss, www.sciencedaily.com alapján
filózó
Szerinted az emberek vagy a gépek jobban tudnak figyelni, ha zavaró dolgok vannak?
⚠ Reggel óta rengetegen tapasztalják, hogy a Google Gemini nem működik rendesen: hibák sorozata jelenik meg az asztali és mobil változatban is, a felhasználók pedig valódi segítség nélkül maradnak...
A Microsoft minden eddiginél nagyobb javítócsomagot adott ki június közepén, amely majdnem 200 különböző biztonsági rést szüntetett meg a Windows operációs rendszerben és a kapcsolódó szoftverekben...
🖼 Egy hatalmas, legyezőszerű formációt fedeztek fel a kelet-antarktiszi jégtakaró alatt, amely több, eddig is ismert medencét köt össze a felszín alatt...
⚡ Megérkezett a Windows 11 júniusi frissítése, amely több fontos újdonságot hozott magával, és ha eddig lassúnak érezted a rendszert, most végre fellélegezhetsz...
💰 Az Amazon komoly lendületet ad az Egyesült Királyság gazdaságának: két vadonatúj létesítmény nyílik Northampton és Kettering városában, összesen több mint 4 000 új munkahelyet teremtve...
Érdemes megvizsgálni, hogy a technológiák fejlődése, különösen a felhőalapú megoldások és a különféle szolgáltatások rohamos bővülése milyen gyökeres változásokat hozott a vállalati döntéshozatalban...
💰 Japán három legnagyobb pénzintézete, a Mitsubishi UFJ Financial Group, a Sumitomo Mitsui Financial Group és a Mizuho Financial Group még március előtt saját stabilcoint kíván kibocsátani...
⚠ Egyre gyorsabb ütemben bukkannak fel újabb sérülékenységek az interneten, ráadásul a védekezési idő pár nap helyett ma már néhány órára zsugorodott...
A megbízhatónak tűnő program is komoly veszélyt jelenthet, ha nem hivatalos helyről származik: erre hívta fel a figyelmet egy hosszú ideje futó csalássorozat, amely során hamis X‑VPN telepítőkkel támadták meg az óvatlan felhasználókat...
📉 Az elmúlt héten rövid távú fellendülés után most egyszerre gyengül a bitcoin, az arany és a technológiai részvények, miközben a befektetők izgatottan várják a szerdai amerikai inflációs jelentést...
Noha a digitális világ egyre gyorsuló ütemben szivárog be a mindennapokba, a bizalom megingott: az emberek ma már nem hisznek feltétlenül abban, hogy adataik biztonságban vannak...
🖥 Például a japán Vanillaware stúdió 23 éve tartó PC-kerülése hamarosan véget ér: a Muramasa: Visszatérő pengék (Revenant Blades) érkezik a Steamen is, ami nemcsak a rajongók régóta dédelgetett álma, hanem egy korszak vége is...
A Hotel Barcelona, egy oldalnézetes akció-platformer, végre maga mögött hagyta a középszerű „Vegyes” minősítést a Steamen, és most „Többnyire pozitív” minősítéssel büszkélkedhet...
🚀 Jelentős visszaesést mutat a SpaceX-hez köthető SPCX-szerződés a Hyperliquid platformon: három hét alatt 27%-ot esett, pedig még mindig magasabban forog, mint a cég rögzített, 135 dolláros (kb...
🦄 Az Anthropic jelentősen átrendezi a mesterségesintelligencia-piacot, miután most először széles körben elérhetővé tette új, kiemelkedően fejlett modelljét, a Claude Fable 5-öt...
💫 Napjainkban már nyolc bolygót ismerünk a Naprendszerben, de a legújabb kutatások szerint több százmillió évvel ezelőtt még akár hat óriásbolygó is keringhetett a Nap körül...
A BT, az Egyesült Királyság vezető távközlési cége elsőként hivatalosan bejelentette, hogy csatlakozik az Anthropic nevű technológiai vállalat Project Glasswing nevű kezdeményezéséhez...
Többek között egy ritka temetkezési szokásra derült fény Észak-Skócia egyik távoli részén, ahol egy több mint 2000 évvel ezelőtt eltemetett nő sírja különös részleteket rejtett: agyát a halála után eltávolították, karcsontjaiból pedig késeket és egyéb eszközöket formáltak...