2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 12:01

A megosztottságon túl: így enyhíthető a társadalmi feszültség

A társadalmi véleménykülönbségek gyakran okoznak feszültséget, ezért sokan erőltetnék a konszenzust...

MA 11:55

Az emberi teljesítmény csúcsa 35 évesen jön – aztán visszaesés?

💪 Egy 47 évig tartó svéd kutatás feltárta, mikor kezd hanyatlani az erőnlét és az izomerő...

MA 11:36

A mesterséges intelligencia már-már úgy működik, mint az emberi agy

Az MI-modellek és az emberi agy működése közötti párhuzamokra mutatott rá egy új kutatás, amelyet svájci (EPFL), amerikai (MIT) és georgiai (Georgia Tech) egyetemek tudósai végeztek...

MA 11:19

A mesterséges intelligencia mindent lát rólad a munkahelyeden?

Az MI eddig háttérsegítőként működött az irodában: összegezte a megbeszéléseket, javaslatokat tett, válaszolt a kérdésekre...

MA 11:02

A mikroműanyag veszélybe sodorja az óceánok klímavédő szerepét

🌊 A mikroműanyagok mára nemcsak az élővilágot fenyegetik, hanem az óceánok globális éghajlatszabályozó szerepét is veszélybe sodorják...

MA 10:58

A RAM-válság elérte az okostelefonokat: tényleg jön a trükközés?

💻 Erre utal többek között az is, hogy az idei évben a RAM ára minden eddiginél magasabbra szökik, ami a teljes technológiai iparágra nagy hatással van...

MA 10:49

A NeurIPS 2025 legnagyobb MI-áttörései: innen indul a jövő

🚀 A mesterséges intelligencia fejlődése új irányt vett: már nem pusztán a modellek mérete számít, hanem sokkal inkább az architektúra, a tanítási dinamika és az értékelési stratégia határozza meg, milyen rendszerek születnek...

MA 10:41

A következő nagy dobás: nátriumion-akkuk és új űrállomások

2026-ban az áttörő technológiák új korszaka kezdődik. A nátriumion-akkumulátorokat már óriáscégek fejlesztik, és ezeket az olcsó, hőálló és hosszú élettartamú energiatárolókat hamarosan széles körben bevethetik...

MA 10:32

A világ kormányainak kedvenc kémprogramja a hibákból is tanul

A Predator nevű, kereskedelmi forgalomban kapható kémprogram új, fejlett képességeire derült fény a Jamf biztonsági kutatóinak vizsgálata nyomán...

MA 10:25

A kakukkfű titkos ereje a precíziós gyógyításban

🥀 A kakukkfűkivonatot régóta sokoldalú természetes gyógymódként tartják számon, jótékony hatása a benne található aktív összetevőkből – például a timol, karvakrol, rozmaringsav és kávésav – fakad...

MA 10:20

Vége az Atari Hotelnek Las Vegasban, csak Phoenix marad

🏨 Hat évvel azután, hogy bejelentették az Atari Hotel-hálózatot nyolc amerikai városban, a grandiózus tervek gyakorlatilag elolvadtak...

MA 10:01

Az ég új urai: lézerrel töltött drónok

🛰 PowerLight Technologies áttörő lézeres töltőrendszert mutatott be, amellyel a drónokat akár 2 km távolságból is vezeték nélkül lehet tölteni repülés közben...

MA 09:57

Az öngyilkos baktériumvédelem forradalma: megérkezett a SPARDA?

A baktériumok természetes védekezési rendszereit egyre jobban megismerik a kutatók, ennek köszönhetően akár forradalmi biotechnológiai eszközök is születhetnek...

MA 09:49

Az alternatív iOS appbolt rövidesen lehúzza a rolót

🔒 A Setapp Mobile alkalmazásbolt február 16-án végleg leáll. Ezzel minden felhasználó elveszíti a hozzáférését az ott megvásárolt vagy letöltött appokhoz, így aki eddig ezen keresztül használt alkalmazásokat, annak át kell mentenie minden fontos adatát, különben végleg elvesznek...

MA 09:41

A vég kezdete: 12 óra alatt feltörik az NTLM-jelszavakat

A Mandiant, a Google Cloud-hoz tartozó biztonsági cég, most közzétett egy új adatbázist, amellyel a Microsoft NTLMv1 algoritmusával védett rendszergazdai jelszavak akár 12 óra alatt feltörhetők, még otthoni hardveren is – nagyjából 210 ezer forintos (600 USD) gépen futtatva...

MA 09:25

Az elbűvölő békaugrás, amely visszahozza a Nintendo-klasszikusok hangulatát

Big Hops egy bájos 3D platformjáték, amelyben egy aranyos békát, Hopot irányítasz...

MA 09:18

Mi lapul a Föld alatt az űrben?

🌐 Ami kezdetben ártalmatlannak tűnt, hamar érdekes kozmikus gondolatkísérletté válik: vajon van-e bármi a Föld alatt az űrben?..

MA 09:10

Kié lesz az űr? Az űrbiznisz erkölcsi frontvonalai

Jeff Bezos, az Amazon és a Blue Origin alapítója néhány hónapja ismét reflektorfénybe kerülve jósolta meg, hogy hamarosan emberek milliói élhetnek majd az űrben – persze főként azért, mert ott akarnak élni, nem pedig dolgozni, hiszen a munkát addigra már költséghatékonyabb lesz robotokra bízni...

MA 09:02

A hatalom záloga Mezopotámiában: a nemi fluiditás

👑 Ebből következően érdemes megérteni, hogy négy és fél évezreddel ezelőtt Mezopotámiában a nemileg kétértelmű emberek rendkívül jelentős és befolyásos tagjai voltak a társadalomnak...