2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 12:56

A CME-n már a bitcoin volatilitására fogadnak, két cég is

💲 Fontos kérdés, hogy a kriptopiac kiszámíthatatlan ármozgásából hogyan lehet profitálni. Többek között emiatt jelentett be egy újdonságot a világ egyik legnagyobb tőzsdéje, a CME, amely már lehetővé teszi, hogy a kereskedők ne a bitcoin árfolyamára, hanem annak volatilitására, vagyis az ármozgás mértékére fogadjanak...

MA 12:45

Az arany 200 napos átlag alá esett: jöhet a bitcoin-rali?

Érdekes fejlemény, hogy az arany ára ismét lejjebb csúszott: több mint 20%-kal esett az árfolyam a januári rekordhoz, vagyis a kilónkénti 180 millió forinthoz képest, sőt, most először október óta az arany ára az utolsó 200 kereskedési nap átlagára, azaz a 200 napos mozgóátlag alá zuhant...

MA 12:34

A hónap LEGO-szenzációi: 8 új készlet, köztük a valaha legnagyobb

🎁 A Lego idén nyáron minden eddiginél izgalmasabb újdonságokat vezet be, amelyek nemcsak a gyűjtők, hanem a családok érdeklődését is felkeltik...

MA 12:23

Vásárolj legendás, Marvel- és DC-hősök ihlette órákat

Érdemes megvizsgálni, hogy napjainkban az igazi rajongók már nemcsak hagyományos relikviákat gyűjtenek, hanem különleges, a Marvel és DC univerzum hőseit idéző karórákat is...

MA 10:46

Az újabb bitcoin-hullámvasút: pánik, profit és váratlan fordulatok

Szokatlanul mozgalmasan indult a hét a kriptovaluták piacán. A bitcoin árfolyama előbb 63 700 dollárig (23,46 millió forint) emelkedett, majd hirtelen esett vissza 62 900 dollár közelébe...

MA 10:37

Két mod már meg is szelídíti a Gothic Remake zárnyitását

Érdemes megérteni, hogy az új Gothic Remake-ben a fejlődés minden pillanata valódi küzdelem...

MA 10:28

Az XRP 1,10 dollár fölött visszapattan a négyhavi mélypontról

📈 Az XRP nagy eladási hullámot követően ismét a figyelem középpontjába került – az árfolyam már négyhavi mélypontról pattant vissza, de a lendület egyelőre hiányzik...

MA 10:19

Az Acer PD243Y E: Kétpaneles, 24 colos, meglepően hordozható monitor

💻 Amikor a hordozható monitorok kerülnek szóba, általában kisebb, könnyedén szállítható eszközök jutnak eszünkbe...

MA 09:46

A bitcoin 63 700-ig tör, április óta a legtöbb likvidálás

💸 A hétvégén, az elmúlt heti, mintegy 14%-os zuhanás után, a bitcoin árfolyama váratlanul ismét erőre kapott, 63 700 dollárig (kb...

MA 09:37

A 2026-os FIFA-vb Kanadában: így nézheted minden meccset

⚽ A hazai rendezésű világbajnokság előtt a kanadai válogatott történelmi lehetőség kapujában áll...

MA 09:27

Az adócsomag, amely átírhatja a kriptovilág játékszabályait

💰 Bár a legtöbb kriptobefektető számára a tavaszi adóbevallás elsőre távolinak tűnhet, most érdemes figyelni, mert az amerikai Képviselőház legfontosabb adóügyi bizottsága, a Ways and Means Committee gőzerővel dolgozik a kriptopénzekre vonatkozó jogszabályokon...

MA 09:19

A beépített 4G-modemes SSD, amit távolról is megsemmisíthetsz – James Bondnak tervezve

👓 A Computex 2026 egyik legnagyobb meglepetése egy olyan külső SSD volt, amely szó szerint képes saját magát távolról is elpusztítani...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/8

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad)A Between Days egy letisztult, felhasználóbarát alkalmazás, mellyel könnyedén meghatározható, hány nap választ el két megadott dátumot...

MA 09:10

A 7,8-as rengés Kablalan közelében rázta meg a Fülöp-szigeteket

Egy 7,8-as erősségű földrengés rázta meg a Fülöp-szigetek déli részét, Mindanao szigetétől délre, 26 kilométerre Kablanantól...

MA 09:02

A NYT Strands megoldásai és tippjei – június 8., #827

📌 Ha még a reggeli kávé sem indítja be az agytekervényeidet, a legjobb, ha valami igazán izgalmas játékba veted magad...

MA 08:37

Steven Tyler a tárgyalás előtt újra vallatná tini bántalmazási vádlóját

Steven Tyler, az Aerosmith frontembere újabb meghallgatást kér a kiskorúval szembeni szexuális visszaéléssel vádoló nő, Julia Holcomb és a férje meghallgatására, még a nyári pereskedés előtt...

MA 08:28

A Bitcoin 63 ezer alá csúszott: iráni–izraeli csapások, koreai zuhanás

💸 Újabb hullámvasútra került a Bitcoin árfolyama, ahogy a közel-keleti háborús feszültségek ismét megrázták a piacokat...

MA 08:01

Hivatalosan is lezárult a 2022-es DaBaby-féle bowlingverekedés ügye

🏃 Megemlíthető, hogy DaBaby híres-hírhedt bowlingpályás verekedésének jogi következményei végre lezárultak: hivatalosan is megszületett a megállapodás a 2022-es összetűzéssel kapcsolatos perben...

MA 07:55

Az ördögi Quordle: tippek és megoldások, hogy ma ne bukj el

Különösen igaz ez, ha minden alkalommal egyre nehezebb feladatokkal szembesülsz: a mai Quordle fejtörőhöz három különböző magánhangzóra van szükség, de egyetlen válaszban sincs ismétlődő betű...

MA 07:46

Az intézményi tőke kihátrál a Bitcoinból

💸 Érdemes megjegyezni, hogy a Bitcoin most ismét a 60 000 dolláros (közel 22 millió forintos) szint körül jár, de a korábbi hónapokhoz képest egészen más a befektetői hangulat...

MA 07:37

A Gmailre kötött Claude ijesztően jól ismer – és időt spórol

📧 Ebből következően érdemes megérteni, mennyire intelligens lehet egy digitális postafiókasszisztens, ha igazán nekilát a munkának...

MA 07:28

Az ősz ijesztő játékáradatot zúdít ránk

Szeptembertől olyan mennyiségű új videojáték jelenik meg, hogy egyetlen rajongó sem tud majd lépést tartani velük...

MA 07:19

A Fülöp-szigeteket megrázta egy újabb, halálos földrengés

Tipikus eset, amikor a reggeli órákban bekövetkező természeti katasztrófa pár perc alatt felforgatja több százezer ember életét...

MA 07:01

Az új Crazy Taxi a mesterséges intelligencia miatt kap hideget-meleget

🚘 Első pillantásra úgy tűnt, hogy a Crazy Taxi: World Tour igazi különlegesség: öt városon átívelő őrült verseny, tele pörgős zenékkel és a klasszikus őskáosz hangulatával...

MA 06:55

A Széllel szemben: a légi kaland, amire mindig vágytál

Ami először apróságnak tűnt, végül varázslatos, festői utazássá vált: egy fiatal fiú veszi át elveszett nagybátyja csomagszállító szolgáltatását egy légi biciklivel, amely időnként repülőgéppé is átváltozik...

MA 06:46

A NYT Connections mai tippjei és megoldásai – június 8., #1093

Felmerül a kérdés, hogy sikerülhet-e mindennap hibátlanul megfejteni a Connections rejtvényt...

MA 06:37

Az érettségi napján ringbe lépett Jolie és Pitt fia, Knox

🥊 Szinte senki sem várta volna, hogy Angelina Jolie és Brad Pitt fia, Knox az érettségi ünnepség napján nemcsak az érettségi bizonyítványát veszi át, de még aznap este harcművészeti mérkőzésen bokszkesztyűt is húz...

MA 06:28

Az idei PC Gaming Show legőrültebb pillanatai: szörnyek, vámpírszex, repülő biciklik

Az idei PC Gaming Show 2026 ismét minden várakozást felülmúlt: több mint 60 új, feltörekvő vagy épp legendás játékot vonultatott fel, közülük több mint húsz világpremierrel...

MA 06:05

Történelmi események a mai napon (Június 8.)

Rövid visszatekintés egy nap történéseire: Mohamed halála, a francia forradalom új államvallásának bevezetése és a Six-Day War alatt történt USS Liberty-incidens is ekkor zajlott...