Az MI könnyedén legyőzi a tinédzsereket a Nemzetközi Matematikai Olimpián

Az MI könnyedén legyőzi a tinédzsereket a Nemzetközi Matematikai Olimpián
Az OpenAI fejlesztői idén szintet léptek: olyan általános célú MI-modellt képeztek ki, amely a Nemzetközi Matematikai Olimpia (IMO – International Mathematical Olympiad) aranyérmes szintjét érte el, méghozzá teljesen külső segítség nélkül. Ezzel nemcsak a bonyolult matematikai feladatmegoldás terén történt áttörés, hanem azt is bizonyították, hogy az MI egyre közelebb kerül az emberi logikai gondolkodás elsajátításához.

Az első MI az élmezőnyben: minek kell ehhez felkötni a gatyát?

Júliusban rendezték meg Ausztráliában, a Sunshine Coaston az idei IMO-t, ahol több mint 100 országból érkező diákok kaptak hat elképesztően nehéz feladatot, hogy két nap alatt bizonyítsák, ki a legjobb matematikából. A feladványok abban különböznek a megszokottaktól, hogy rövid válasz helyett oldalakon átívelő, egyedi logikai fejtegetésekre van szükség – ez az a szint, amire az MI-k eddig ritkán voltak képesek.

Egy háromfős OpenAI csapat (Alex Wei, Sheryl Hsu, Noam Brown) azonban nagyot kockáztatott: általános célú, lépésről lépésre gondolkodó modellt tanítottak be a problémák megoldására. A szabályok szigorúak voltak: semmilyen eszközt, internetkapcsolatot, keresőt vagy speciális matematikai szoftvert nem használhattak. Az MI a diákokhoz hasonlóan két 4,5 órás etapban dolgozott, és a dolgozatai értékelését három korábbi IMO-érmes, valamint egy vezető matematikus végezte.

Az eredmény döbbenetes: a hat feladatból ötöt hibátlanul oldott meg, és 35 pontot szerzett a maximális 42-ből – pontosan azt a minimumot, amelyért aranyérem jár. Összehasonlításként: a 630 résztvevő közül csak 26-an tudtak nála jobbat elérni, közülük is csupán öt diák érte el a maximális pontszámot. Az OpenAI MI-je néhány évvel korábban még általános iskolai matekpéldákkal is megszenvedett – ilyen gyors fejlődést ritkán látni ezen a területen.

Általános célok, nem szimpla matekrobot

A csapat nem pusztán matematikai MI-t akart fejleszteni. A cél az volt, hogy olyan rendszert hozzanak létre, amely képes bármilyen összetett, árnyalatokkal teli problémán keresztül gondolkodni, vagyis közelítsen az emberi értelmező és problémamegoldó képességhez. Ezzel szemben a legtöbb alkalmazott MI eddig csak egy szűk területen – például képfelismerés vagy adatbáziskezelés – volt igazán jó.

Azért választották az IMO-t, mert ott objektív, egyértelműen értékelhető bizonyításokat kell írni. Ez kiváló próbaterepe az MI fejlődésének. Azt is hangsúlyozták, hogy a fejlesztés során minden részmegoldást úgy dolgoztak ki, hogy az ne csak matematikában, hanem más területeken is alkalmazható legyen.

Meddig tart egy MI “gondolkodása”?

A fejlődés abban is meglátszik, hogy mennyi ideig képes az MI folyamatosan, fókuszáltan dolgozni egy összetett feladaton. Míg korábban például a ChatGPT csak gyors, egyszerű kérdésekre tudott válaszolni, mostanra eljutottak oda, hogy akár egy-egy matematikai problémát 90 percen keresztül is képesek elemezni, minden lépést ellenőrizni, a hibákat kijavítani, és akár oldalakon át írni logikailag összefüggő megoldásokat. Ennek következtében az MI kifinomultabb, hosszabb távú problémák megoldására is alkalmas lehet a jövőben, nemcsak az azonnali, könnyen ellenőrizhető válaszokra.


Miért jó, ha az MI azt is tudja, ha valamit nem tud?

A tapasztalatok szerint a modell egyik nagy előnye, hogy képes felismerni: ha nem biztos a helyes válaszban, inkább nem ír le semmit. Ez különösen fontos, mivel ezzel az MI jelentős lépést tesz a hírhedt “hallucinációs” problémák leküzdésében. Ezzel szemben a legtöbb nyelvi MI még hajlamos hasraütésszerűen válaszolni akkor is, ha fogalma sincs a helyes megoldásról. Ha ezt a tulajdonságot sikerül stabilan beépíteni, az MI használata a mindennapokban is sokkal biztonságosabbá válhat.

Tanulságok és következő lépcsők

Az OpenAI munkája általánosítható: az MI hosszabb ideig, összetettebb problémákon is képes dolgozni, közben rendszeresen ellenőrzi önmagát, és aránylag kevés hibával produkál órákon átívelő, összefüggő szövegeket. Egy-egy megoldás akár 5–10 oldal hosszú is lehet – olyan egységes minőségben, amire a korábbi mesterséges intelligencia modellek még nem voltak képesek.

Fontos, hogy bár a mostani fejlesztések nem részei például a GPT-5-nek, a csapat már dolgozik azon, hogy ezek a képességek hamarosan a szélesebb körben használható MI-modellekben is megjelenjenek. Ennek köszönhetően egyre közelebb kerülünk ahhoz, hogy az MI ne csak ügyes segéd legyen, hanem valódi, emberi szintű partner a gondolkodásban és problémamegoldásban.

2025, adminboss, www.scientificamerican.com alapján

  • Te milyen problémát bíznál legszívesebben egy mesterséges intelligenciára?
  • Ha te lennél az, aki hibázik egy nehéz feladatban, hogyan ellenőriznéd magad?
  • Szerinted etikus, ha az ember a döntéseit részben egy ilyen MI-re bízza?



Legfrissebb posztok

Egy sima laptop is lehet a kvantumfizikusok titkos fegyvere
vasárnap 23:30

Egy sima laptop is lehet a kvantumfizikusok titkos fegyvere

Képzeld el, hogy mostantól akár egy átlagos laptop is képes lehet olyan kvantumszimulációkat futtatni, amelyekhez korábban még egy egész szuperszámítógép ereje sem volt elegendő...

MI-csevegők veszélyei, elveszett emlékek és a valaha talált legapróbb sötét anyag
vasárnap 23:02

MI-csevegők veszélyei, elveszett emlékek és a valaha talált legapróbb sötét anyag

🧐 Új kutatások azt mutatják, hogy az MI-chatbotok dicsérete nem valódi, sőt, könnyen lehet káros is – miközben a tudósok meglepő trükköt találtak arra, hogyan férhetünk hozzá elveszett gyermekkori emlékeinkhez, és végre sikerült felfedezni a történelem eddigi legparányibb sötét anyagdarabját is...

Kik dolgozhatnak Mac-en az irodában, és miért számít ez?
vasárnap 23:00

Kik dolgozhatnak Mac-en az irodában, és miért számít ez?

💻 Nagyon kevés vállalatnál egyértelmű, hogy ki kaphat Macet és ki nem: a cégek óriási többsége inkább PC-t ad a dolgozóinak...

Űrszemét-harc új szinten, Starlink műholdak potyognak az égből
vasárnap 22:02

Űrszemét-harc új szinten, Starlink műholdak potyognak az égből

🚀 Elon Musk cége, a SpaceX, már több mint 8 ezer Starlink-műholdat bocsátott Föld körüli pályára, és ez még csak a kezdet...

vasárnap 21:58

Az új kaliforniai törvény mindent átír a böngészésben

Kalifornia kormányzója, Gavin Newsom aláírta azt az új adatvédelmi törvényt, amely 2027...

Az igazi csillagprojektorok leárazása, amíg tart a Prime Day
vasárnap 21:30

Az igazi csillagprojektorok leárazása, amíg tart a Prime Day

Érdemes most beszerezni a legjobb csillagprojektorokat, mert az októberi Prime Day leárazásai éjfélkor véget érnek...

vasárnap 21:01

A Chrome végre leszámol a felesleges értesítésekkel

A Chrome böngésző új funkcióval segíti a felesleges értesítések visszaszorítását. Mostantól automatikusan visszavonhatja azoknak a weboldalaknak az értesítési engedélyét, amelyeket a felhasználó már egy ideje nem használt...

Az iPhone Fold, amire minden mobiljátékos vágyik
vasárnap 20:59

Az iPhone Fold, amire minden mobiljátékos vágyik

Az iOS eddig is egyedülálló előnyt jelentett azok számára, akik komolyan veszik a mobiljátékot...

Így néz ki, ha valami majdnem fénysebességgel halad
vasárnap 20:30

Így néz ki, ha valami majdnem fénysebességgel halad

🚀 Érdemes kiemelni, hogy fizikusok először sikeresen szimulálták, hogyan nézne ki egy tárgy, ha majdnem fénysebességgel mozogna – ezt a különleges optikai illúziót Terrell–Penrose-effektusnak nevezik...