A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 14:49

A régi ASUS Live Update-hiba? Pánikra semmi ok!

🙂 Az elmúlt napokban ismét előtérbe került az ASUS Live Update sérülékenysége, amely CVE-2025-59374 kódon szerepel az ismert sebezhetőségek között...

MA 14:35

Az emlősök rákellenes trükkje: a szüneteltethető terhesség?

Néhány emlős képes leállítani a terhességét, amíg a körülmények nem lesznek ideálisak...

MA 14:17

Az elektromos Polestar megmenekült: milliárdos mentőöv húzta ki a bajból

🚗 A svéd Polestar, az elektromos autókat gyártó márka 110 milliárd forint (300 millió USD) tőkebevonást szerzett, hogy erősítse pénzügyi helyzetét és stabilabbá tegye működését...

MA 14:02

Az arany és az ezüst kilő: válságpánik söpör végig?

💰 Újabb történelmi csúcsra szöktek az arany és az ezüst árfolyamai, miután a rövidített kereskedési hét elején ismét a biztonságra vágyó befektetők kerestek menedéket...

MA 13:49

Az újabb WatchGuard-tűzfalhiba 115 ezer eszközt sodor veszélybe

⚠ Több mint 115 000 WatchGuard Firebox tűzfal maradt védtelen egy kritikus, távoli kódfuttatási (RCE) hibával szemben, amelyet már aktívan kihasználnak a támadók...

MA 13:18

Az Északi-tenger alá temetik a szén-dioxidot – ez lehet a klímaválság új fegyvere?

🌊 A dán partoktól 170 kilométerre, a zord, szeles Északi-tengeren hamarosan új korszak kezdődik: most nem kőolajért fúrnak, hanem az európai erőművekből származó szén-dioxidot (CO2) pumpálnak a tengerfenék alá...

MA 13:02

Az Uber és a Lyft robotaxikat vet be Londonban

A kínai Baidu együttműködésével 2026-tól már London utcáin is megjelennek az önvezető taxik: az Uber és a Lyft is bejelentették, hogy platformjaikon keresztül indítják a Baidu Apollo Go autóit...

MA 12:50

Az Apple és a Google meghátrál Japánban

🇯🇵 Jó példa erre, hogy a világ két legnagyobb technológiai cége, az Apple és a Google most először engedélyezte a mobilalkalmazások terjesztését alternatív alkalmazásboltokon és más fizetési szolgáltatókon keresztül Japánban...

MA 12:33

A valaha készült legélethűbb fekete lyuk-szimuláció megszületett

Évtizedeken át tartó fejlesztések után a számítógépes asztrofizika áttörést ért el: először sikerült olyan részletességű és pontosságú modellt létrehozni, amely valósághűen mutatja be, hogyan nyelnek el anyagot a fekete lyukak, és miként bocsátanak ki intenzív sugárzást...

MA 12:18

Az OpenWrt rajongói ujjonghatnak: a NordVPN teljesen testre szabható

😃 A NordVPN legújabb lépése a nyílt forráskódú közösségben egy fej nélküli, Linux-alapú csomag, amelyet OpenWrt-routerekhez kínálnak...

MA 12:01

Az artritisz titkos fegyvere: egy meglepően hatékony brazil növény

🧡 A brazil tengerpart mentén gyakori, szerény megjelenésű József köpenye (Joseph’s Coat, Alternanthera littoralis) nevű növény eddig főként a népi gyógyászatban kapott szerepet gyulladások, fertőzések és élősködők ellen...

MA 11:33

Az ázsiai tőzsdék szárnyalnak, minden tekintet Kínára szegeződik

📈 Az ázsiai–csendes-óceáni térség részvényindexei hétfőn emelkedtek, miután a Kínai Népi Bank nem változtatott sem az egyéves, sem az ötéves hitelreferencia-kamatlábon: előbbi maradt 3%-on, utóbbi 3,5%-on...

MA 11:17

Az Indie Game Awards kitiltotta az MI-vel készült sikerszoftvert

🎮 A független videojáték-fejlesztők ünnepe, az Indie Game Awards idén komoly visszhangot keltett: kizárták a Clair Obscur: Expedition 33 című szerepjátékot, miután kiderült, hogy a fejlesztés során generatív MI-t használtak...

MA 11:01

Az ingatlanválság dacára Kína befagyasztja az alapkamatot

Kína jegybankja hetedik hónapja változatlanul hagyta az irányadó hitelezési kamatokat, miközben az ország gazdasági mutatói továbbra is gyengélkednek, különösen az ingatlanszektorban...

MA 10:50

Az áramszünet megbénította a Waymo önvezető taxijait San Franciscóban

San Franciscó szombat reggeli áramszünetét egy tűz okozta a Pacific Gas & Electric egyik alállomásán, amely közel 130 000 ügyfelet érintett...

MA 10:43

A Waymo önvezető autói megbénították a forgalmat San Franciscóban

Szombaton hatalmas áramszünet bénította meg San Franciscót, csúcsidőben mintegy 130 000 fogyasztót érintve...

MA 10:36

A nagy befutó: Bitcoin vagy Shiba Inu?

💰 A kriptovaluta világában a Bitcoin és a Shiba Inu az elmúlt évek legnagyobb sztárjai közé tartoznak; mindketten milliomosokat teremtettek a legelső befektetők közül...

MA 10:29

A James Webb leleplezte az univerzum káoszát: galaxisok ütköznek

Káprázatos új fényképet tettek közzé a James Webb űrteleszkóp és a Chandra röntgenobszervatórium: a képen két, egymásba gabalyodó spirálgalaxist látunk, amint épp ütköznek...

MA 10:24

Az asztali erő hátizsákban: itt a Dell Pro Max 18 Plus

A Dell Pro Max 18 Plus egy igazi monstrum a mobil munkaállomások között – a gép ereje fejlesztők, mérnökök, projektmenedzserek és MI-architektusok minden igényét kielégíti...