2025. 07. 20., 08:40

Az MI zsenivé válik: döbbent matematikusok kapitulálnak

Az MI zsenivé válik: döbbent matematikusok kapitulálnak
Május közepén harminc világhírű matematikus gyűlt össze egy titkos matematikai találkozóra Berkeleyben. Volt, aki az Egyesült Királyságból utazott Kaliforniába, hogy részt vegyen a különleges eseményen, ahol nemcsak egymással, hanem egy rendkívül fejlett MI-alapú chatbot ellen is versenyeztek. Az MI feladata az volt, hogy olyan matematikai kihívásokat oldjon meg, amelyeket kifejezetten azért dolgoztak ki, hogy próbára tegyék a képességeit. Két napon át PhD-szintű vagy annál is nehezebb példákkal bombázták a rendszert, és meglepődve tapasztalták, hogy az MI sok esetben gyorsan, kreatívan és helyesen válaszolt.

Kiemelkedő képességek az MI-től – ijesztő profizmus

A központi szereplő egy érvelő nagy nyelvi modell (reasoning large language model), konkrétan az OpenAI által fejlesztett o4-mini volt, amelyet speciálisan összetettebb problémamegoldásra programoztak. Ehhez hasonló rendszert a Google is fejleszt. Ezek a chatek nemcsak szöveget generálnak, hanem valódi, mély következtetéseket képesek levonni, gyorsan és logikusan oldanak meg bonyolult matematikai feladványokat.

A korábbi nagy nyelvi modellek (LLM-ek) csak a következő szó “kitalálására” voltak jók. Újabban azonban specializált adathalmazokon, emberi visszacsatolással fejlesztik őket, ami érezhetően javította a teljesítményüket. Az OpenAI saját megítélése szerint ezek a modellek ma már megoldatlan matematikai problémákkal is megbirkóznak.

Különleges kihívás: csak a legjobbak próbálkozhattak

A teszteléshez az Epoch AI választotta ki Elliot Glazer matematikust, hogy több szintű, egyre nehezedő feladatsorokat állítson össze az MI számára. Az első három szintet már 2025 tavaszán sikerült teljesítenie a rendszernek: az o4-mini a feladatok mintegy 20 százalékát megfejtette, köztük olyat is, amire csak kutatói szintű matematikusok képesek. Ezután következett a negyedik szint, amely a világon is csak néhány specialistának jelentene kihívást.

A résztvevőknek titoktartási szerződést kellett aláírniuk, és kizárólag a Signal alkalmazáson keresztül kommunikálhattak. Minden olyan példáért, amellyel az o4-mini végül nem boldogult, a beküldő 2,7 millió forintot (kb. 7 500 dollárt) kapott. Ennek ellenére nehezen találtak olyan kérdést, amivel az MI-t zavarba lehetett volna hozni.

Az MI valós időben megelőzi a legjobbakat

Május 17–18-án tehát élőben is összemérhették erejüket a kutatók az MI-vel. Hatfős csapatokban próbáltak olyan csapdákat állítani, amelyeket az ember még felfog, de az MI már nem tud kijátszani. Ken Ono, a Virginiai Egyetem professzora külön is kiemelte, hogy egy doktoranduszoknak is komoly kihívást jelentő példát adott fel az o4-nek, amely aztán tíz perc alatt hibátlan, jól dokumentált megoldással állt elő. Az MI előbb átfutotta a témakör összes elérhető szakirodalmát, majd kísérleti alapkérdéseken gyakorolt, mielőtt a bonyolultabb problémára tért volna át. Az MI magabiztos, néha szarkasztikus stílusban kommunikált: a végén odabiggyesztette, hogy nem szükséges hivatkozás, mert a rejtélyes számot ő maga számolta ki!

Ono elismeri: teljesen ledöbbent az MI gondolatmenetén; szerinte ilyen, emberi kutatói szintű érvelési képességet még egyetlen modellnél sem tapasztalt.


Kutatók kontra MI: elhalványul a különbség

Bár végül tíz olyan kérdést sikerült találni, amire az MI nem tudott válaszolni, minden jelenlévőt lenyűgözött, milyen kevésszer hibázott az MI egyetlen év fejlődése alatt. Ono ezt ahhoz hasonlította, mint amikor az ember egy tehetséges társszerzővel dolgozik; Yang Hui He, a londoni Mathematical Sciences Intézet matematikusa hozzátette: az MI többet oldott meg, mint amit egy kiváló doktorandusz el tudna végezni – és sokkal gyorsabban.

A kutatók ugyanakkor aggódnak az MI túlságosan magabiztos válaszstílusa miatt. He szerint az MI már most is képes “meggyőzés útján” bizonyítani: ha valaki túl határozottan állít valamit, a laikusok hajlamosak elhinni.

A találkozó végén már arról beszéltek: mi történik majd, ha a technológia a következő szintű problémákhoz, vagyis az ember számára is megoldhatatlan kérdésekhez ér. Lehet, hogy a matematikusok idővel inkább “ötletgazdák” és tanácsadók lesznek, az MI pedig új matematikai igazságokat tár fel. Ono szerint a jövő matematikusai számára a képzelőerő és a kreativitás fejlesztése lesz a kulcs az egyetemeken.

Az a gondolat, hogy az MI általános intelligenciája soha nem érheti el ezt a szintet, hibás és naiv – állítja Ono. Sőt, már most el kell ismerni: teljesítményével a világ legtöbb doktoranduszán is túlmutat.

2025, adminboss, www.livescience.com alapján

  • Te örülnél annak, ha az MI helyetted megoldaná a bonyolult feladatokat?
  • Te mit tennél, ha az MI túl magabiztosan állítana valamit, amit te nem értesz teljesen?
  • Szerinted etikus lenne, ha egy ember az MI-től származó eredményt a sajátjaként használná fel?


Legfrissebb posztok

MA 17:02

Az MI is tud trágár lenni: amikor a ChatGPT elszabadul

Tipikus eset, amikor valaki egy MI-csevegővel próbál beszélgetni, és az mindenáron udvarias akar lenni – néha azonban épp az ellenkezője történik...

MA 16:57

Itt az áttörés: érkeznek az 1 nanométer alatti processzorok

Külön említést érdemel, hogy a TSMC komoly terveket sző a 2029-re ígért, 1 nanométernél is kisebb transzisztorokkal ellátott chipek fejlesztésére...

MA 16:34

Az év felfedezése: a fánk alakú rejtély megdöntötte a 150 éves szabályt

🍩 Egy 150 éves geometriai elvet cáfolt meg egy friss matematikai áttörés: sikerült két zárt, fánkszerű felületet létrehozni, amelyek helyi mérési adatai azonosak, de globálisan mégsem ugyanazok...

MA 15:45

A Universal Print megint leállt: bakizott a Microsoft

A Microsoft Universal Print felhasználói mostanában különösen sok bosszúságot tapasztalnak: sokan hiába próbálják megosztani a nyomtatókat, a rendszer hibát jelez, és nem hozza létre a nyomtatómegosztást...

MA 15:34

Az élet nyomában: a marsjáró meglepő vegyületekre bukkant

A Mars felszíne alatt rejlő ősi szerves anyagok után szimatol a NASA Curiosity marsjárója, és most egész különleges, eddig nem látott szerves vegyületekre bukkant – köztük egy nitrogéntartalmú molekulára, amelynek szerkezete meglepően hasonlít a DNS előfutárához...

MA 15:23

A köd szelleme: új pitvipera-fajt fedeztek fel Kínában

Szecsuán nyugati hegyeinek sűrű, zöld rengetegei rejtették el az egyik leglátványosabb új kígyófajt, amelyet most azonosítottak...

MA 14:57

Az új adatbázis-korszak: a Google szabadjára engedi az MI‑ügynököket

Az adattárolási rendszerek világa gyökeresen változik: a régi, kimondottan emberi lekérdezésekre épített architektúra napjai meg vannak számlálva...

MA 14:45

Az FCA éles MI-tesztet indít a brit bankoknál

Kezdetben csak néhány cég vágott bele, most viszont nyolc jelentős bank és pénzügyi szolgáltató, köztük a Barclays, a Lloyds Banking Group, a Scottish Widows, az UBS és az Experian is részt vesz a brit pénzügyi felügyelet (FCA) MI-próbaprogramjában...

MA 14:34

Az ügyfelek menekülnek a Three új sebességkorlátja elől

A mobilinternetezés frontján váratlan fordulatot vett a Three: az eddig korlátlan 5G-sebesség helyett mostantól jelentős sebességkorlátokat vezetett be a legtöbb új és hosszabbított előfizetésnél...

MA 14:23

Az Aave-ból ömlik ki a tőke: hová tűnt 3700 milliárd forint?

💸 Nehéz elhinni, de több mint 3700 milliárd forint értékű vagyon hagyta el az Aave platformját egyetlen, 108 milliárd forintos incidens után...

MA 14:02

A mesterséges intelligencia feltárja az óceáni áramlatok titkos ösvényeit

A világ óceánjainak áramlatai kulcsszerepet játszanak a földi klíma, az élővilág és az óceánok szén-dioxid-tárolási képességének alakításában...

MA 13:56

Villámgyors javítás az ASP.NET Core kritikus hibájára

⚡ A Microsoft váratlanul adott ki biztonsági frissítést egy rendkívül veszélyes ASP...

MA 13:47

Az Amazon raktárai a sérülések árnyékában: mi folyik bent?

Egy lényeges szempont, hogy az Amazon évről évre a figyelem középpontjába kerül munkahelyi biztonsága miatt...

MA 13:23

Az Anker egy apró chippel turbózza az okos fülhallgatók MI-jét

Az Anker új irányba lépett: a vállalat saját fejlesztésű, CIM (Compute-in-Memory) technológiát alkalmazó csipjével forradalmasíthatja a hordozható eszközök MI-teljesítményét...

MA 13:01

Az AI új csodafegyvere és a hackerek titkos klubja

Az Anthropic vadonatúj kiberbiztonsági modellje, a Claude Mythos Preview, a nagy techcégek belső tesztplatformjaiból indult hódító útjára alig pár hete...

MA 12:56

Az Apple új vezére: hardverzseni vagy szoftveres úttörő lesz?

Tim Cook számára anno minden azzal a kérdéssel indult: képes lesz-e túlszárnyalni Steve Jobs legendás időszakát?..

MA 12:45

Az amerikai hadsereg többet költene drónokra, mint sok ország haderejére

Az amerikai védelmi minisztérium a következő pénzügyi évre 1,5 billió dolláros – közel 540 000 milliárd forintos – költségvetést kér, amelyben kulcsszerepet kap az eddigi legnagyobb drón- és drónellenes fejlesztési csomag...

MA 12:23

Az apró mobilok korszaka tényleg véget ért?

A mobilgyártók egyre határozottabban távolodnak a kisméretű telefonoktól, ahogy például a Samsung után a kínai riválisok sem látják értelmét a 6 colos kijelzők fejlesztésének...

MA 12:01

Az amerikai saját otthon álma darabokra hullik: nemcsak a fiatalok szorulnak ki

🏠 Az otthonhoz jutás problémája mára már nemcsak a huszon- és harmincéveseket sújtja: egyre több negyvenes, ötvenes, sőt idősebb vásárló is kiszorul a lakáspiacról...

MA 11:45

Az Apple visszahozná a betiltott egészségügyi funkciót

Az Apple Watch véroxigénszint-mérője évek óta jogi viták középpontjában áll. Az okosóra 2020-ban debütált ezzel a forradalmi szenzorral, amely a véroxigénszintet méri...

MA 11:34

A filmiskolás, akiből a kvantumszámítógépek milliárdost csináltak

Christian Weedbrook nevét néhány nap leforgása alatt ismerhette meg a világ: a Xanadu Quantum Technologies vezetőjeként hihetetlen gazdagságra tett szert, miután az MI jövőjét a kvantumszámítógépekhez kötötte...

MA 11:23

Az elképesztő új kamera egy billiómod másodpercet is megörökít

📷 Új szintre lépett a mikroszkopikus világ villámgyors eseményeinek vizsgálata: kínai kutatók egy forradalmian új képrögzítési módszert mutattak be, amellyel hihetetlenül rövid, akár néhányszáz femtoszekundum alatt lezajló folyamatok minden eddiginél részletesebb megfigyelése vált lehetővé...

MA 11:11

Az űr citromcsigája: a Hubble ismét a Trifid-köd bűvöletében

A Hubble űrtávcső idén már 36 éves, és most egy igazán friss, lélegzetelállító képpel ünnepli ezt: a Nyilas (Sagittarius) csillagképben található Trifid-köd legkülönlegesebb alakzata, az űrbéli citromcsiga (Cosmic Sea Lemon) újra lencsevégre került...

MA 11:01

A bosszantó YouTube-értesítéseknek végre vége

A YouTube mobilon mostantól automatikusan némítja azoknak a csatornáknak a push-értesítéseit, amelyeket több mint egy hónapja nem követsz figyelemmel...

MA 10:57

Az amerikai tőke újra lángra lobbantja a Bitcoint

🔥 Lényeges szempont, hogy a bitcoin hónapok óta nem látott tempóban erősödik: 14 egymást követő napon át pozitív a Coinbase-prémium, ami legutóbb tavaly októberben történt, amikor a kriptopénz történelmi csúcson, 126 000 dolláron (kb...

MA 10:50

A mesterséges intelligencia leszámol a Firefox biztonsági hibáival

A Mozilla legfrissebb tesztjei során meglepő eredmények születtek: az Anthropic fejlesztette Mythos Preview MI-modellje 271 biztonsági sérülékenységet azonosított a hamarosan megjelenő Firefox 150 forráskódjában...

MA 10:44

Az OAuth sebezhetőségei: amikor az MI-eszközök kaput nyitnak a hekkereknek

Felmerül a kérdés, hogy miként fordulhat elő, hogy egyetlen alkalmazotti tevékenység elegendő ahhoz, hogy egy egész vállalati infrastruktúrát feltörjék...

MA 10:37

A Honor 600 Pro leveri az iPhone-t – de miért narancssárga?

🟢 A Honor legújabb középkategóriás készüléke, a 600 Pro, már első ránézésre is ismerős lehet – a teljes szélességű, vízszintes kamerasziget, a precízen megmunkált unibody kialakítás és a hátlapi lencsék elrendezése határozottan idézi a prémium telefonok világát...

MA 10:29

A Microsoft Game Pass végre olcsóbb Ausztráliában

🎉 Hatalmas meglepetést okozott a Microsoft azzal, hogy lejjebb vitte a PC- és Xbox Game Pass havidíjait – ezt Ausztráliában már meg is érezhetik a játékosok...