
Új játékosok a matematikai csatatéren
A matematikai kutatásokban kulcsszerepet játszó MI-óriások, mint az OpenAI vagy a Google DeepMind, már nem is burkolt céllal igyekeznek uralni a bizonyítások világát. A First Proof nemzetközi projekt például azért jött létre, hogy felmérje, mire képesek valójában a nagy nyelvi modellek a komoly matematikai kutatások területén. Most újabb tesztkör kezdődik, szigorú követelményekkel – csak azok az MI-cégek vehetnek részt, amelyek hajlandók teljes transzparenciát vállalni. Egészen pontosan mindenkivel szemben elvárás, hogy hozzáférést biztosítsanak a tesztelendő modellekhez.
Az elmúlt néhány hónapban a legfejlettebb nyilvános modellek már olyan érvényes bizonyításokat generáltak, amelyek ténylegesen segítik a matematikusok munkáját. Az első tesztkör minden várakozást felülmúlt: a csapat által választott tíz – addig publikálatlan – lemma közül az OpenAI modellje ötnél, a Google DeepMind Aletheia-ügynöke pedig hat esetben adott helyes bizonyítást. Ráadásul rendre más-más problémákat oldottak meg, vagyis a modellek kompetenciái egymástól jelentősen eltértek.
Mégis, mi vár ránk öt év múlva?
Sokan félik az MI térnyerését, de a szakma meghatározó szereplői között optimisták is akadnak. Daniel Litt, a Torontói Egyetem matematikusa szerint a következő öt évben a matematikusok hatékonyabbá válhatnak a technológia révén. Litt egy elképzelt világot ír le, ahol az MI által generált, végtelen matematikai bizonyítások könyvtárában bárki szabadon böngészhet. De szerinte a felfedezés és a megértés öröme mindig az emberé marad – a lényeg nem a gépies bizonyítás, hanem a megértés.
Később azonban hangsúlyozza, hogy a jelenlegi helyzet még messze nem tökéletes. Bár a modellek akár nyolc problémát is megoldottak, a próbálkozások túlnyomó része félresikerült: rengeteg oldalnyi hibás, de magabiztos szöveget állítottak elő. Az MI hajlamos hitelesen előadni tévesen értelmezett matematikai eredményeket, vagy elrejteni kritikus hibákat bonyolult számítások mélyén.
A minőség ára: Hogyan ítéljük meg a bizonyításokat?
A First Proof első köre rámutatott, milyen nehéz helyesen értékelni az MI által készített matematikai bizonyításokat. Egyes hibák annyira elemiek, hogy hozzáértő ember aligha követné el őket, a modellek azonban nem tudatosan tévednek – egyszerűen csak nem értik a teljes matematikai kontextust.
A következő körben a szervezők független, anonim matematikai szakértőket vonnak be a bírálatba, akiket támogatásokból és MI-cégek adományaiból fizetnek majd. Ugyanakkor az MI által írt, apró hibáktól hemzsegő bizonyítások mennyisége már most is az emberi értékelők kapacitását veszélyezteti: az értékelés lassú, a hibák felismerése rendkívül nehéz.
A hozzáférés szakadéka: Nyilvános kontra céges MI
Megdöbbentő különbség mutatkozott a nyílt és a céges MI-fejlesztések között. Miközben a First Proof előkészületi fázisában a legjobb nyilvános modellekkel mindössze két problémát sikerült helyesen megoldani, a Google és az OpenAI saját zárt modelljeikkel nyolcat is meg tudtak oldani. A nyílt MI-közösségi próbálkozások csak egy újabb problémát oldottak meg.
Ennek oka lehet, hogy a cégek fejlettebb, publikálatlan modelleket vagy speciális belső technikákat használnak, esetleg emberi szakértők segítségét is igénybe vették. A Google állítása szerint viszont emberi beavatkozás nélkül dolgozott. Az újabb forduló pontosan ezt az átláthatósági problémát próbálja megoldani: minden beérkező modellt közvetlenül a First Proof csapata fog tesztelni.
A matematika jövője a leggazdagabbak fókuszában
Kérdés, hogy az MI-cégek hajlandók lesznek-e teljesíteni az új feltételeket, vagy a matematikai MI-fejlesztés hamarosan visszaszorul a titkos laborok világába. A First Proof és társai az elkövetkező hónapokban akár meg is jósolhatják a matematika sorsát, hiszen most először fordult elő, hogy ez a szűk tudományos szféra a világ legvagyonosabb techcégeinek figyelmét is felkeltette.
A cél, hogy néhány éven belül magabiztosan lehessen tájékoztatni a fiatalokat arról, milyen lesz a matematikus szakma – ennek feltétele pedig az MI valódi képességeinek megértése.
