A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

szerda 20:50

Az edzésappok adatvámpírok: így óvd a magánéleted!

A fitneszappok szezonja ismét itt van: sokan év elején fogadalmat tesznek, hogy fittebbek lesznek, izmot építenek vagy éppen fogyni akarnak...

szerda 20:34

Az új adathalász-trükk: így loptak ki érzékeny adatokat a Microsoft Copilotból

Érdemes megérteni, hogy egy most leleplezett, Reprompt elnevezésű támadási módszerrel rosszindulatú felhasználók akár egyetlen kattintással hozzáférhettek a Microsoft Copilot által kezelt érzékeny adatokhoz, majd onnan észrevétlenül kiszivárogtathatták azokat...

szerda 20:19

A HP Omen Max 16: brutális teljesítmény jó áron, hordozhatatlan

🔥 Fontos kérdés, hogy kinek ajánlható a HP Omen Max 16, egy kifejezetten komoly gamereknek szánt laptop, amely a legerősebb alkatrészeket és remek kijelzőt kínál, ráadásul a csúcskategóriában meglepően kedvező árazással...

szerda 20:02

Veszélyben a gigászi delták: a Nílus és az Amazonas süllyed

Érdekes felvetés, hogy a világ folyódeltái közül tizennyolc – köztük a Nílus, az Amazonas és a Gangesz – gyorsabban süllyed, mint ahogy a globális tengerszint emelkedik...

szerda 19:51

A DJI Neo 2: végre egy drón, ami tényleg neked való?

🚀 Érdemes megnézni, hogy a DJI Neo 2 megjelenése valóban újdonság a hobbi drónozás szerelmeseinek, vagy azoknak is, akik eddig csak kacérkodtak a gondolattal...

szerda 19:33

Az igazi T. rexnek sosem nőtt be a feje lágya?

A legújabb kutatások szerint a Tyrannosaurus rex nemcsak tovább élt, mint eddig gondoltuk, hanem életének jelentős részében folyamatosan nőtt is – akár 40 évig is eltarthatott, mire elérte végső méreteit...

szerda 19:01

Az új LinkedIn-csalás: feltört kommentekkel csapdáznak, fiókok tűnnek el

A hackerek most a LinkedIn hozzászólásait használják ki, hogy kártékony programokat terjesszenek, és felhasználói adatokat lopjanak...

szerda 18:49

Az egyetem ma is aranyat ér – Itt bukik el az MI

Az egyetemek drágák, és sokan megkérdőjelezik, hogy valóban megérik-e. A techcégek vezetői közül sokan úgy gondolják, hogy a diploma már régen nem feltétele a sikeres karriernek...

szerda 18:33

A Civilization VII végre megérkezett az Apple Arcade-re

Sid Meier legendás stratégiai játéka, a Civilization VII február 5-től érkezik az Apple Arcade-re, így már iPhone-on, iPaden és Maceken is építhetsz birodalmat a havi 2700 Ft-os előfizetéssel...

szerda 18:17

A Google Wallet Androidon végre mindent elárul

Az Androidon használt Google Wallet hamarosan nagyot újít: végre lehetővé teszi a teljes tranzakciós előzmények megtekintését és a keresést, nemcsak az éppen használt készüléken rögzített utolsó tíz vásárlást láthatod majd...

szerda 17:49

Az észrevétlen Linux-fenyegetés: a VoidLink új korszakot nyit

Egy új, eddig ismeretlen Linux-kártevő, a VoidLink jóval fejlettebb, mint amit eddig láthattunk...

szerda 17:34

Az elfeledett JPEG XL visszatért: a Google újra támogatja

📷 Erre utal többek között az, hogy a Google végre ismét támogatja a JPEG XL (JXL) képformátumot a nyílt forráskódú Chromium böngészőmotorban, miután 2022-ben végleg elvetették a technológiát...

szerda 17:18

Az új Windows-hiba fenyegeti a gépeket – megérkezett a javítás

Az év első nagy Windows-javítása rögtön egy komoly biztonsági rést foltoz be, amelyet már aktívan kihasználnak támadók...

szerda 17:01

Az USA 2030-ra atomreaktort küldene a Holdra

Új lendületet vehet az űrkutatás, ugyanis a NASA és az USA Energiaügyi Minisztériuma közösen fejlesztik a Hold felszínére szánt atomreaktort, hogy folyamatos, megbízható áramforrást biztosítsanak a majdani holdbázisoknak és tudományos misszióknak...

szerda 16:51

Az ember visszatér a Holdra: közeleg az első Artemis-küldetés

🚀 Az Artemis 2 misszió előkészületei utolsó fázisukba érkeztek, a NASA pedig akár már ezen a hétvégén megkezdheti a hatalmas SLS rakéta és az Orion űrkapszula kigördítését a floridai Kennedy Űrközpont kilövőállásához...

szerda 16:34

A kötelező életkor-ellenőrzés térdre kényszerítette a Robloxot

A Roblox múlt héten kötelezővé tette az életkor-ellenőrzést minden chatelő számára...

szerda 16:01

Váratlanul megjött az Állatátkelő: Új horizontok 3.0-s frissítés

Meglepetés érte a rajongókat: az Állatátkelő: Új horizontok (Animal Crossing: New Horizons) 3...

szerda 15:33

Az önvezetés ára: előfizetésre vált a Tesla nagy dobása

A Tesla teljes önvezető (Full Self-Driving, FSD) rendszerét február 14-e után már csak havi előfizetéssel lehet igénybe venni, egyszeri, 2,9 millió forintos (8 000 USD) díj helyett...

szerda 15:19

Az 5 fitneszapp, ami 2026-ban tényleg lendületben tart

Az új év mindig remek lehetőség arra, hogy újra nekifuss az egészséges életmódnak – de a kitartás általában februárra vagy márciusra alábbhagy...