A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

szombat 18:40

Leghaszontalanabb amerikai szlengek és idiómák

“Wallet biopsy” Szó szerint: pénztárca-biopszia 💸, amikor egy orvos vagy egészségügyi szolgáltató előbb ellenőrzi 🔬, mennyi pénzed / biztosításod van, és aztán dönti el, milyen vizsgálatot kapsz...

csütörtök 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 16:33

Az ünnepi rali jön, vagy újabb pofon vár a tőzsdén?

🎉 November mozgalmas és hektikus hónapja után a befektetők továbbra is bizonytalanul tekintenek december elé...

MA 16:02

Az első feltérképezett szupernóva-kitörés sokkolta a tudósokat

💥 Április 10-én egy hatalmas csillag robbanásának első fényét észlelte az ATLAS nevű figyelőrendszer...

MA 15:49

Az óceánok savasodása felgyorsult: nagyobb a baj, mint hittük

A St Andrews-i Egyetem (University of St Andrews) friss kutatása szerint a part menti tengerek savasodása drámaian felgyorsult, különösen azokon a területeken, ahol a mélyből feltörő tengervíz jelenik meg, vagyis a feláramlási zónákban (upwelling-zónákban)...

MA 15:33

Az árvíz letarolta Srí Lanka fővárosát, közel 200 halott

Srí Lanka fővárosának egész negyedeit öntötte el az árvíz a hétvégén, miután egy erős ciklon súlyos esőzéseket és földcsuszamlásokat váltott ki szerte a szigeten...

MA 15:02

A klímavédelem vakfoltja: amit a modellek nem látnak

Az éghajlatváltozás már most is alapjaiban forgatja fel az emberek jóllétét...

MA 14:50

Az örök emlékek titka: miért nem felejt az agy?

Tipikus jelenség, hogy egy gyerekkori nyár forró délutánja örökre bevésődik, miközben a tegnapi bevásárlólista már másnap reggelre elhalványul...

MA 14:33

Az új Galaxy S26: Forradalom helyett megint finomhangolás?

📱 2026 közeledtével egyre több részlet szivárog ki a Samsung Galaxy S26 szériáról, és már most látszik, hogy a gyártó idén sem kockáztat nagyot...

MA 14:02

A kiberbiztonság titka: a nyitott gondolkodás forradalma

🔒 A modern kiberbiztonságban nemcsak új eszközök és technológiák, hanem gondolkodásmódváltás is elengedhetetlen...

MA 13:18

A Kill Bill elveszett fejezete végre elkészült – Tarantinótól, Fortnite-ban

Fontos kérdés, hogyan kerülhetett Quentin Tarantino legendás bosszúeposza, az Öld meg Billt (Kill Bill) egy új fejezete éppen a Fortnite digitális világába...

MA 13:01

A valódi titkok nem a Stranger Things színdarabban bújnak meg

🔑 Az „A furcsa dolgok: Az első árnyék” (Stranger Things: The First Shadow) című színdarab tavaly decemberi londoni premierje óta sok rajongó tartott attól, hogy fontos részletek csak New Yorkban, ezer dollár feletti (kb...

MA 12:34

A hullámzó kínai gyártás: fordulat jön, vagy újabb zuhanás?

📈 A kínai gyáripar némileg javult novemberben, de továbbra is zsugorodik, immár nyolcadik hónapja...

MA 11:49

Az Asahinál példátlan adatlopásra derült fény

🔒 Egy szeptemberi kibertámadás miatt az Asahi Group Holdings, Japán legnagyobb sörgyártója, közel 1,9 millió ember adatait veszítette el...

MA 11:33

A szoftverhiba földre parancsolta az Airbus gépeit

Több mint 6000 Airbus A320-as gép földre kényszerült világszerte, miután a gyártó felismerte, hogy az intenzív naptevékenység miatt szoftverhiba fenyegeti a repülésbiztonságot...

MA 11:18

Az információ fényen utazik: közel a kvantuminternet kora

Jellemző példa erre, hogy a kvantumteleportáció területén sikerült olyan áttörést elérni, amely az információ fény segítségével történő átvitelét teszi lehetővé – ráadásul teljesen különálló kvantumpontok között...

MA 10:53

Az öt legjobb belépő szintű fényképezőgép vadfotózóknak 2025-ben

📷 A természetfotózás varázsa nehezen utolérhető – vadállatot, madarat vagy akár egy villámgyors mozdulatot elkapni mindig különleges élmény...

MA 10:37

Az ősi dinoszaurusz-múmia átírja a tankönyveket: paták és taréj

Megvizsgálandó, hogy milyen új titkokat rejtenek a dinoszaurusz-múmiák, egy amerikai kutatócsoport most minden eddiginél részletesebb, teljes testű rekonstrukciót alkotott az Edmontosaurus annectensről...

MA 10:29

A ChatGPT új kedvenc funkciója nem az, amire számítasz

💡 Hároméves lett a ChatGPT, és ennek örömére az OpenAI végre elárulta, melyek a legnépszerűbb funkciók a világ kedvenc MI-eszközében...