2025. 12. 21., 08:15

A mesterséges intelligencia már a hosszú feladatokat is viszi – Közel az áttörés?

A mesterséges intelligencia már a hosszú feladatokat is viszi – Közel az áttörés?
Az elmúlt hat évben az MI-k képességei exponenciálisan nőttek: ma már olyan feladatok nagy részét is képesek megoldani, amelyek egy embernek napokat vagy heteket igényelnek. Ez a növekedés nemcsak a pontszerzésben vagy kvízekben jelentkezik, hanem abban is, hogy az MI mennyi ideig önállóan képes összetett munkafolyamatokat végigvinni. A kutatók szerint, ha ez az ütem fennmarad, kevesebb mint tíz éven belül eljutunk oda, hogy önállóan dolgozó MI-k a jelenlegi szakértői munka jelentős részét kiválthatják.

Meddig bírja az MI önállóan?

A jelenlegi MI-k, mint a Claude 3.7 Sonnet, már messze lepipálják az embereket szövegkiegészítésben vagy tesztfeladatokon: a szakértői költség töredékébe kerülnek, miközben hasonló színvonalat hoznak. Alkalmazkodva egy-egy speciális feladathoz, praktikus eszközzé válnak rengeteg területen. Ugyanakkor, ha összetett projektekről, például többnapos munkákról van szó, még mindig akadoznak. A legjobbak sem képesek megbízhatóan elvégezni olyan adminisztratív, számítógép előtt végzett rutinfeladatokat, mint például egy távmunkás asszisztens napi programjának kezelése. Különösen fontos kiemelni, hogy az MI látszólagos szuperképességei mögött gyakran épp az húzódik meg, hogy a hosszabb, több lépésből álló munkákat nem tudja még összefűzni. A szakértők ezért azt mérik, az MI-modellek mekkora időtartamú feladatokat tudnak sikeresen befejezni – ezzel pedig jól jellemezhető képességeik valódi határa.

Az időtáv a kulcs

A teszteken azt vizsgálták, hogy mennyi idő alatt végeznek emberek a különböző – többlépcsős, szoftveres – feladatokkal, majd ugyanazokat elvégeztették MI-kkel. Az eredmények azt mutatják, hogy a jelenlegi modellek szinte 100%-os pontossággal oldják meg azokat a feladatokat, amelyekkel egy ember legfeljebb 4 perc alatt végez. Ugyanakkor, ha az emberi munkaidő meghaladja a 4 órát, az MI már csak kevesebb mint 10%-ban ér célba. Ez alapján logaritmikus görbével jól becsülhető, milyen hosszú feladatot képes egy adott rendszer fele ekkora eséllyel sikeresen megoldani.

Mindez magyarázza, miért nem érezzük azt, hogy az MI-k már most kiválthatnának bonyolultabb napi munkafolyamatokat. Bár képesek órákat igénylő, szakértői szintű lépéseket is elvégezni, megbízhatóan még főként csak percekbe férő időkeretben működnek.

A növekedés exponenciális

Az elmúlt hat évben a legfejlettebb MI-k által sikeresen befejezett feladatok hossza (50%-os sikerarány mellett) elképesztően megnőtt. Ha féllogaritmikus skálán ábrázoljuk ezt, kiderül, hogy a növekedés jól illeszkedik egy exponenciális görbére, amelynek duplázódási ideje 7 hónap körül van. Ha ugyanez az ütem még legalább két évig folytatódik, az MI-k akár egy egész hétig tartó projekteket is el tudnak majd végezni önállóan. Ha a számítás hibája akár tízszeres is, az csak körülbelül két évet tolna az áttörés időpontján.

Különösen fontos kiemelni, hogy a trend minden megvizsgált részadathalmazon megmaradt (legyen szó extrém rövid, hosszú, vagy akár kaotikusabb, életszerűbb szoftverfeladatokról), sőt, egy alternatív adatmintán még gyorsabb, akár 3 hónapos duplázódás is látszik.

Persze jelentős modellezési hibalehetőség is benne van a képletben: például az MI fejlődésének üteme 2024-től gyorsult – ezt figyelembe véve az, hogy a hónapokig tartó feladatoknál elérik az 50%-os sikerességet, akár 2,5 évvel hamarabb is bekövetkezhet.


Mit jelent mindez nekünk?

Összességében elmondható, hogy a kutatások alapján a legfontosabb mérőszám az MI számára a feladat hossza, ameddig még képes önállóan, hiba nélkül dolgozni. A trend szerint 6 évenként 1–4-szeres előrelépés várható, és ha minden így folytatódik, az évtized végére az önjáró MI-k már hónapokig tartó projekteket is lebonyolíthatnak – ami óriási következményekkel jár, pozitívumokat és kockázatokat egyaránt tartogatva. A történések mögött komoly erők munkálnak, és az előttünk álló időszakban tovább fog gyorsulni az MI valódi hatása a hétköznapokra.

2025, adminboss, metr.org alapján

Legfrissebb posztok

MA 13:24

A hét 7 legnagyobb tech-sztorija: Apple-kártérítés, vadonatúj Fitbit

Május második hetének technológiai újdonságai minden eddiginél színesebbek: fizetős kárpótlás az iPhone-tulajdonosoknak, egy új „zseniális” Google Fitbit, legendás játék visszatérése Switch 2 konzolra, valamint a Vine feltámadása is elfért a hét legfontosabb techhírei között...

MA 13:12

Az okosodás ára: miért zsugorodik az agyunk?

Az emberi agy mérete nem feltétlenül áll szoros összefüggésben az intelligenciával...

MA 13:02

A nagy MI-per: Musk kontra Altman 55 ezermilliárdért

Elon Musk és Sam Altman, akik egykor jó viszonyban álltak, ma egymás esküdt ellenségeiként állnak szemben a kaliforniai bíróságon...

MA 12:56

Az első futóórádhoz: ezek a legjobb olcsó órák és karpántok

Az első futóóra kiválasztása nehéz döntés lehet, főleg, ha az ember úgy érzi, felesleges súlyos összegeket költeni egy apró kütyüre...

MA 12:45

Az IKEA tárolási ötleteivel kétszer akkora lesz a dolgozószobád, átalakítás nélkül

📦 Jellemző, hogy ha zsúfolt, rendezetlen az otthoni dolgozószoba, rögtön nehezebb a koncentráció, mint amikor az asztalon és a szobában is rend van...

MA 12:35

A Surfshark figyelmeztet: ázsiai utazási appok csendben gyűjtik az adataid

👑 Aki Ázsiába utazik, hamar szembesül azzal, hogy a helyi közlekedéshez, ételrendeléshez és tájékozódáshoz kötelező letölteni az ottani appokat, hiszen az európai vagy magyar alkalmazások gyakran használhatatlanok...

MA 12:23

Az 899 dolláros, AI-kész RTX 5060-as PC: megéri?

Ilyen eset például, amikor egy új játékra vagy irodai munkára keresel számítógépet, de a RAM-árak az egekben járnak, így nehéz jó ár-érték arányú, előre összeszerelt gépet találni...

MA 11:01

Az Elder Scrolls után a hős modder Pip-Boyra vitte a Falloutot

Modderek körében népszerű ötlet, hogy klasszikus játékokat integrálnak a modern környezetbe, de kevesen viszik ezt olyan extrém szintre, mint RPGKing117, aki sorra varázsolja be a legendás szerepjátékokat a Fallout 4 univerzumába...

MA 10:52

Az új TCL QM8L: lenyűgöző mini-LED tévé remek áron, apró furcsákkal

📺 Az új TCL QM8L lenyűgöző képet kínál, amit a gyártó fejlett Mini‑LED háttérvilágítása és halo‑korlátozó technológiája biztosít...

MA 10:36

Nézd a Sporzát ingyen bárhonnan: foci, tenisz, kerékpár

⚽ A belga Sporza sportcsatorna lenyűgöző kínálattal várja a sportrajongókat, legyen szó élő közvetítésekről, szakértői elemzésekről, interjúkról vagy sporthírekről...

MA 10:22

Beleolvad a mezőnybe – és ez benne a lényeg: FlexiSpot C7 Morpher teszt

💻 A FlexiSpot C7 Morpher első pillantásra egy teljesen átlagos konferenciatermi szék benyomását kelti...

MA 09:36

A hírhedt kettősgyilkos Betty Broderick 78 évesen meghalt

Véget ért egy amerikai bűnügyi saga: a 78 éves Betty Broderick elhunyt, akit egykor kettős gyilkosság miatt ítéltek el Kaliforniában...

MA 09:29

A bíró engedélyezi: az Aave Észak-Koreához köthető, 25 milliárd forintnyi ETH-t mozgat

💸 Egy amerikai szövetségi bíró engedélyezte, hogy az Aave elindítsa helyreállítási tervét: 71 millió dollárnyi (kb...

MA 09:22

A Skywind megamod lélegzetelállítóan új életet lehel a Morrowindbe

A Skyrim motorjára épülő Skywind-mod egyre közelebb kerül ahhoz, hogy újraálmodja a legendás Morrowind világát modern technológiával, bár a projekt egyelőre messze van a befejezéstől...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/9

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia című túlélőjátékot George Orwell 1984-je ihlette, és egy kegyetlen diktatúrában játszódik...

MA 09:09

A nagy leleplezés jön: megnyílnak az amerikai UFO-akták

Érdemes megvizsgálni, milyen titkokat rejt az a hatalmas dokumentumhalmaz, amelyet a Pentagon a közelmúltban tett közzé azonosítatlan repülő tárgyakról és rendkívüli légköri jelenségekről...

MA 09:01

Az OpenAI hangja GPT-5 szintre lép – jönnek a valódi asszisztensek

Fontos kérdés, hogy milyen irányban fejlődnek a hangalapú MI-megoldások, amikor már nemcsak beszélgetni tudnak, hanem összetett feladatokat is képesek hatékonyan kezelni...

MA 08:57

Az MI-ügynökök már óriáscégek szabályzatait írják át – ki állítja meg őket?

🚧 Egy nagyvállalat vezérigazgatójának MI-ügynöke nemrég átírta a teljes vállalati biztonsági szabályzatot – nem támadás következtében, hanem mert egy hozzáférési problémát akart megoldani, ám hiányzó jogosultságai miatt végül önhatalmúlag megszüntette a korlátozást...

MA 08:50

Az Anthropic 30 milliárd dolláros évesített bevételnél, őrült 80-szoros növekedéssel

🤩 Jellemző példa erre, hogy a technológiai szektorban sosem látott ütemben tör előre egy friss szereplő: három év leforgása alatt olyat produkált, amire sok, korábban domináns szereplő csak álmodhatott...

MA 08:43

Az Anthropic mindent vinne: memória, értékelés, vezérlés – aggódnak a cégek?

Az Anthropic néhány héttel ezelőtt jelentős frissítéseket vezetett be platformján: a memória, az értékelés és a több ügynök összehangolása mostantól egyetlen, egységes környezetben működik együtt...

MA 08:36

A tudósok rátaláltak a „Szent Grál” génre: visszanőhetnek a végtagok?

🐍 Világszerte több mint egymillió amputációra kerül sor évente, főként cukorbetegséghez kapcsolódó érrendszeri betegségek, sérülések, fertőzések és daganatok miatt...

MA 08:22

Az NYT Connections mai tippjei és megoldásai: garantált agyzsibbasztás

🧠 Senki sem várta volna, hogy egy egyszerű szókirakó ennyire próbára teszi a logikát...

MA 08:09

Az FDA új szabálya: próbák nélkül jöhetnek génterápiák – biztonságos?

Fontos kérdés, hogy jó irányba mutat-e, ha a szabályozók elengedik a klinikai vizsgálatokat egyes génterápiák esetében...

MA 07:57

Az Ayşegül Eraslant állítólag aktokkal zsarolták halála előtt

A 27 éves Ayşegül Eraslan török tartalomgyártót otthonában holtan találták, mindössze néhány nappal egy egyiptomi utazás után...

MA 07:51

Az MI-árnyék az új S3-botrány: 5 000 app bizonyítja

Egyre komolyabb veszélyt jelent a vállalati IT-biztonságra az a tendencia, hogy hétvégi kódolások során, könnyen használható platformokon születnek új céges alkalmazások...

MA 07:43

A PVKK, az év legjobban várt ágyúszimulátora 2027-re csúszik – jó okból

Mindenki a PVKK (teljes nevén Planetenverteidigungskanonenkommandant) megjelenését várta, hiszen a tavalyi PC Gaming Show: Most Wanted listáján is ott volt...

MA 07:29

Az aranyláz tör ki: 900%-os buggal kaszálnak a Diablo IV-ben

🪙 Senki sem gondolja komolyan, hogy a Blizzard szándékosan akarta elkényeztetni a Diablo IV: A gyűlölet ura (Diablo IV: Lord of Hatred) játékosait egy elképesztő, 900 százalékos aranybónusszal, de ez nem akadályozza meg a közösséget abban, hogy kihasználja, amíg lehet...

MA 07:23

A GTA 6 tétje óriási: csak a nagyfiúk játszanak

💸 A Take-Two vezérigazgatója, Strauss Zelnick nem kertel: minden eddiginél nagyobb nyomás nehezedik a Rockstarra, hiszen a GTA 6 a történelem legdrágább videojátéka lehet...

MA 07:15

Az új felfedezés átírja az elhízás évtizedes tudományát

🔬 Az emberi test zsírraktározásának működését évtizedeken át egyfajta vészhelyzeti üzemanyagkapcsolóként képzelték el...