
Meddig bírja az MI önállóan?
A jelenlegi MI-k, mint a Claude 3.7 Sonnet, már messze lepipálják az embereket szövegkiegészítésben vagy tesztfeladatokon: a szakértői költség töredékébe kerülnek, miközben hasonló színvonalat hoznak. Alkalmazkodva egy-egy speciális feladathoz, praktikus eszközzé válnak rengeteg területen. Ugyanakkor, ha összetett projektekről, például többnapos munkákról van szó, még mindig akadoznak. A legjobbak sem képesek megbízhatóan elvégezni olyan adminisztratív, számítógép előtt végzett rutinfeladatokat, mint például egy távmunkás asszisztens napi programjának kezelése. Különösen fontos kiemelni, hogy az MI látszólagos szuperképességei mögött gyakran épp az húzódik meg, hogy a hosszabb, több lépésből álló munkákat nem tudja még összefűzni. A szakértők ezért azt mérik, az MI-modellek mekkora időtartamú feladatokat tudnak sikeresen befejezni – ezzel pedig jól jellemezhető képességeik valódi határa.
Az időtáv a kulcs
A teszteken azt vizsgálták, hogy mennyi idő alatt végeznek emberek a különböző – többlépcsős, szoftveres – feladatokkal, majd ugyanazokat elvégeztették MI-kkel. Az eredmények azt mutatják, hogy a jelenlegi modellek szinte 100%-os pontossággal oldják meg azokat a feladatokat, amelyekkel egy ember legfeljebb 4 perc alatt végez. Ugyanakkor, ha az emberi munkaidő meghaladja a 4 órát, az MI már csak kevesebb mint 10%-ban ér célba. Ez alapján logaritmikus görbével jól becsülhető, milyen hosszú feladatot képes egy adott rendszer fele ekkora eséllyel sikeresen megoldani.
Mindez magyarázza, miért nem érezzük azt, hogy az MI-k már most kiválthatnának bonyolultabb napi munkafolyamatokat. Bár képesek órákat igénylő, szakértői szintű lépéseket is elvégezni, megbízhatóan még főként csak percekbe férő időkeretben működnek.
A növekedés exponenciális
Az elmúlt hat évben a legfejlettebb MI-k által sikeresen befejezett feladatok hossza (50%-os sikerarány mellett) elképesztően megnőtt. Ha féllogaritmikus skálán ábrázoljuk ezt, kiderül, hogy a növekedés jól illeszkedik egy exponenciális görbére, amelynek duplázódási ideje 7 hónap körül van. Ha ugyanez az ütem még legalább két évig folytatódik, az MI-k akár egy egész hétig tartó projekteket is el tudnak majd végezni önállóan. Ha a számítás hibája akár tízszeres is, az csak körülbelül két évet tolna az áttörés időpontján.
Különösen fontos kiemelni, hogy a trend minden megvizsgált részadathalmazon megmaradt (legyen szó extrém rövid, hosszú, vagy akár kaotikusabb, életszerűbb szoftverfeladatokról), sőt, egy alternatív adatmintán még gyorsabb, akár 3 hónapos duplázódás is látszik.
Persze jelentős modellezési hibalehetőség is benne van a képletben: például az MI fejlődésének üteme 2024-től gyorsult – ezt figyelembe véve az, hogy a hónapokig tartó feladatoknál elérik az 50%-os sikerességet, akár 2,5 évvel hamarabb is bekövetkezhet.
Mit jelent mindez nekünk?
Összességében elmondható, hogy a kutatások alapján a legfontosabb mérőszám az MI számára a feladat hossza, ameddig még képes önállóan, hiba nélkül dolgozni. A trend szerint 6 évenként 1–4-szeres előrelépés várható, és ha minden így folytatódik, az évtized végére az önjáró MI-k már hónapokig tartó projekteket is lebonyolíthatnak – ami óriási következményekkel jár, pozitívumokat és kockázatokat egyaránt tartogatva. A történések mögött komoly erők munkálnak, és az előttünk álló időszakban tovább fog gyorsulni az MI valódi hatása a hétköznapokra.
