
Hogyan működik az MI IQ? Pontszámok, dimenziók, metodika
Az AI IQ alapját egy első pillantásra egyszerű képlet adja: 12-féle benchmarkot négy különféle gondolkodási dimenzióba sorol (absztrakt, matematikai, programozási és akadémiai). Az egyes modellek végső IQ-értékét a négy dimenzióban elért eredmények átlaga adja. Az absztrakt gondolkodást például mintafelismerési tesztek mérik, a matematikait standardizált matekfeladatok, a programozásit kódolási kihívások, míg az akadémiait tudományos kérdések. A nyers pontokat kézi kalibrációval beállított nehézségi görbék segítségével vetítik át IQ-skálára.
Fontos, hogy az AI IQ módszere óvatosan kezeli a hiányzó, bizonytalan adatokat: a modell csak akkor kap érvényes IQ-t, ha legalább két dimenzióban van eredménye, és ahol hiányosak az adatok, ott inkább lefelé korrigálják a pontszámokat, nehogy elfedjék a hiányosságokat.
Elit klub az élmezőnyben – sosem voltak ennyire közel egymáshoz a legjobb MI-k
Nem elhanyagolható tényező, hogy mára a legfejlettebb MI-modellek közötti különbség összezsugorodott. Jelenleg az OpenAI legújabb verziója vezeti a görbét, becsült IQ-ja 136, de közvetlenül mögötte található az Anthropic és a Google fejlesztése is (131–132 között). Egyes összehasonlítások szerint még szorosabb a verseny: például a Grok-4.20 Expert Mode és a GPT-5.4 Pro is 145-nél jár egy másik, Mensa-alapú rangsorban.
A középkategória is egyre izgalmasabb, főleg a kínai laborok (mint a SenseTime, Zhipu vagy a Baidu) modelljei feszes, 112–118 közötti tartományban helyezkednek el. Ez növekvő versenyhelyzetet teremt azoknak a cégeknek, amelyek nem akarnak, vagy nem tudnak mindig a drágább, elitszintű MI-re támaszkodni.
Az összesített fejlődési pálya lenyűgöző: 2023 októberétől 2026 közepéig egyes modellek becsült IQ-ja 60 ponttal nőtt alig 30 hónap alatt.
Amikor az érzelmi intelligencia lesz a döntő
A legtöbb benchmarkkal szemben az AI IQ újdonsága az „EQ” – az érzelmi intelligencia – mérése. Itt két teszteredményt (EQ-Bench és Arena Elo) dolgoznak össze. Az EQ-eredmények gyakran teljesen más sorrendet adnak, mint az IQ-alapú ranglista: például az Anthropic egyik modellje közel 132-es EQ-t ér el, míg az OpenAI változatai némileg lemaradnak ezen a területen. Így kiderül, hogy a legokosabb MI-k nem feltétlenül a legempatikusabbak.
Szokatlan lépés, hogy az EQ-t többek közt egy Anthropic-modell minősíti, ezért az összes Anthropic-fejlesztéshez mínusz 200 Elo-pontot adnak korrekcióként. Az emberi zsűrit alkalmazó résznél ilyen torzítás nincs, így összességében reálisabb a kép.
Teljesítmény kontra ár: Megéri a legnagyobb MI-re költeni?
Az egyik leghasznosabb vizualizáció a költséghatékonysági ábra: itt az egyes modellek becsült IQ-ját az effektív árral (egy 2 millió input- és 1 millió output-tokenes feladat költségével) ábrázolják.
Jól látható, hogy a legtöbb esetben nem éri meg mindig a csúcskategóriára költeni. Egyetlen feladat költsége a GPT-5.5 vagy az Opus 4.7 esetében már 10 800–18 000 forint is lehet, de középkategóriában 360–1800 forintos költséggel is találni megfelelő teljesítményű MI-t. Egy nyílt forráskódú modell már 72 forintért is elérhető lehet, igaz, alacsonyabb, 107 körüli IQ-ért.
A háromdimenziós grafikon (IQ, EQ, ár) átláthatóvá teszi, melyik modell kínál kiegyensúlyozott, minden szempontból optimális kompromisszumot.
Az MI IQ-kritika: veszélyes leegyszerűsítés vagy piaci áttörés?
A legnagyobb vita az MI IQ körül, hogy egyetlen számmal veszélyesen leegyszerűsíti az egyes modellek rendkívül „cakkos”, hullámzó képességeit. Vannak modellek, amelyek egyes területeken kitűnően teljesítenek, máshol teljesen elbuknak. Egy összesített pontszám könnyen elfedheti ezeket az ellentmondásokat.
Többen sérelmezik azt is, hogy az AI IQ módszertana, kalibrációs görbéi nem teljesen nyilvánosak, pedig a kutatói közeg átlátható, újraellenőrizhető módszertanokat kedvel. Megjegyzendő, hogy a Mensa-stílusú, emberek számára készült IQ-tesztek is legfeljebb az absztrakt minták felismerésére koncentrálnak, szemben az AI IQ átfogóbb, programozási, matematikai, tudományos mérésével.
A lényeg: Egyre közelebb egymáshoz a modellek
Ma több mint 50 élvonalbeli MI-modell közül választhatnak a cégek. Mindegyik fejlesztő saját kedvenc mérőszámait használja, ami egyre átláthatatlanabbá teszi az összehasonlítást. Az AI IQ által használt megközelítés nem tökéletes – részben átláthatatlan, néhol torzíthat –, mégis kevésbé kaotikus, mint a szétaprózott, nem összevethető adathalmaz.
Az MI IQ legnagyobb tanulsága talán nem is egy konkrét győztes modell, hanem a piac változása: már nemcsak az számít, melyik az „okosabb” gép, hanem az, mennyire ügyesen tudunk a célhoz legjobban illeszkedő MI-t választani. Ez az intelligencia egy új szintje. És erre egyelőre nincs mérőszám.
