2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 08:36

Az XRP 1,32 dollárnál egyensúlyoz: szűkül a sáv, lesz kitörés?

Az XRP továbbra sem képes kitörni az egyre szűkülő sávjából, miután újabb próbálkozás után is elbukott az 1,36 dolláros (480 HUF) szintnél...

MA 08:28

A felturbózott K-vitamin beindíthatja az agy öngyógyítását

Japán kutatók olyan forradalmi vitamin K-alapú vegyületeket hoztak létre, amelyek segíthetnek az agy sérült idegsejtjeinek regenerálásában, sőt, idővel akár az Alzheimer- és Parkinson-kór kezelését is megváltoztathatják...

MA 08:02

A meteoritcsapás aranyfénybe vonta Ghána Lelkek Tavát

🌑 Ghána szívében található a Bosumtwi-tó, amelynek eredete egy ősi, gigászi becsapódásig nyúlik vissza...

MA 07:47

A halálos ütközés előtt: „Rövid az élet” – üzent Dominic Russo

🚘 Fiatal szerelem, heves érzelmek és végzetes döntés – mindez egy tragikus balesetben csúcsosodott ki az Egyesült Államokban...

MA 07:37

Az LHC különös részecskeviselkedést észlelt – átírhatja a fizikát

A genfi Large Hadron Collider (LHC) legfrissebb kutatásai alapjaiban rengethetik meg azt, amit eddig a világegyetem alapvető építőkockáiról hittünk...

MA 07:28

A Joe Lubin által támogatott SharpLink bekerül a Russell-indexekbe

📈 Az utóbbi években a kriptótartalékot építő vállalatok közül az egyik legkiemelkedőbb szereplő, a SharpLink Gaming, hamarosan belép a Russell 2000 és Russell 3000 tőzsdeindexekbe, miután június 29-i zárás után az FTSE Russell végrehajtja éves átsorolását...

MA 07:19

A 007: First Light rajtja: megjelenési dátum és indulási idők

Agent 47 egy kis szabadságra vonul, hamarosan pedig minden tekintet James Bondra szegeződik: május 27-én, szerdán világszerte elrajtol az IO Interactive legújabb játéka, a 007 First Light...

MA 07:10

A Nyaralóház forró reunionján lelepleződött West és Amanda viszonya

A Nyaralóház (Summer House) tizedik évadának egyik legnagyobb rejtélye végül lelepleződött, amikor a résztvevők a forró hangulatú évadzáró műsorban minden eddiginél nyíltabban beszéltek West Wilson és Amanda Batula kapcsolatáról...

MA 07:01

A Fülöp-szigeteki, kitörő tűzhányó fölött felrobbant egy smaragdzöld tűzgömb

🔥 A Fülöp-szigetek középső részén fekvő Mayon vulkán kitörése közben egy látványos, élénkzöld tűzgömb villant át az éjszakai égbolton, majd felrobbant a levegőben...

MA 06:55

A Jackson-hagyaték őre, John McClain, 71 évesen elhunyt

John McClain, a zeneipar legendás alakja, életének 71. évében malibui otthonában hunyt el...

MA 06:37

Az apró Bermuda kriptónagyhatalomra tör

🔮 Ebből következően érdemes megérteni, hogy Bermuda, a kis szigetország, hatalmas lépéseket tesz annak érdekében, hogy a világ első teljesen on-chain, vagyis blokklánc‑alapú gazdaságává váljon...

MA 06:28

A DeepSWE felforgatja a rangsort, trónra ülteti a GPT-5.5-öt

A legmodernebb MI-kódolási ranglisták hónapok óta azt a benyomást keltették, hogy nincs igazi különbség a vezető modellek között...

MA 06:19

Az Off Campus 2 visszatér: új szerelmek és sokkoló távozás

💘 Érdemes megjegyezni, hogy az Off Campus című sorozat első évada óriási sikert aratott mind a nézők, mind a kritikusok körében...

MA 06:05

Történelmi események a mai napon (Május 27.)

Válogatás a történelem mai napjához kötődő mérföldkövekből: királykoronázás, városalapítás, világháborús tragédiák és politikai fordulatok...

kedd 17:23

Az államkötvény-hozamok milliárdokat szívnak ki a bitcoin ETF-ekből

A kriptovaluták iránti lendület komoly csapást szenvedett el, ahogy a befektetők tömegesen menekítik a pénzüket a bitcoin-alapú tőzsdén kereskedett alapokból...

kedd 17:01

Az évszázad hőhulláma sújtja Európát: újabb halálos áldozatok

Döbbenetesen szokatlan, rendkívüli hőséggel küzd Nyugat-Európa: sorra dőlnek a melegrekordok, miközben egyre többen vesztik életüket a forróság következtében...

kedd 16:35

Az új Bond-játék végre igazi Bond-mozi: lopakodás és robbanások

Üldözések, szuperkütyük és látványos akciópillanatok – a 007 First Light minden eddiginél jobban képes átélhetővé tenni, milyen érzés James Bondként beszivárogni a világ legveszélyesebb színtereire...

kedd 16:23

Az új Ferrari Luce sokkol: Jony Ive védi, egy döntést imádnak

A Ferrari leleplezte története első elektromos autóját, a Lucét, ami máris heves vitákat kavart...

kedd 16:13

A GEEKOM A9 Max (2026) tesztje: mini PC, munkaállomás-erővel

Az asztali méretű, kis helyet foglaló gépek mezőnyében a GEEKOM A9 Max 2026 komoly kihívóként lépett színre...

kedd 15:56

A League of Legends nemet mond a kollab skinek dömpingjére

🔴 Ritka az a népszerű online játék, amely még ellenáll a marketing- és együttműködési őrületnek...

kedd 15:45

Az MMO-knak nem kell 200 óra egyedi tartalommal indulniuk

Az új MMO-k fejlesztése manapság igazi kihívás, hiszen a piacot évtizedes múlttal rendelkező játékok uralják...

kedd 15:34

A StablR befagyasztotta az USDR-t és EURR-t 13,5 milliós támadás után

A StablR, egy máltai stabilcoin-kibocsátó felfüggesztette két fő tokenje, a USDR és az EURR minden műveletét, miután jelentős kibertámadás érte...

kedd 15:23

A bitcoin újra gyengélkedik, az MI-tokenek szárnyalnak

Az utóbbi két hétben jelentős lejtmenet jellemezte a legnagyobb kriptopénzek piacát, miközben a hagyományos tőzsdeindexek, mint az S&P 500 és a Nasdaq 100, stabilan emelkedtek...

kedd 15:12

A Bitcoin sorsa kritikus támasz és opciós csata szorításában

📈 A Bitcoin árfolyama napok óta szűk sávban mozog, méghozzá nem véletlenül...

kedd 15:01

A GTA 6-nak ma kellett volna jönnie: egy szuperfan sorba áll

Ami kezdetben ártalmatlannak tűnt, mostanra a rajongók szemében valódi csalódássá vált: május 26...

kedd 14:34

Az MI nem hoz munkahely-apokalipszist? Altman örül, ha téved

🙂 Felmerül a kérdés, hogy mennyire kell tartanunk a munkahelyek elvesztésétől a mesterséges intelligencia (MI) térnyerése miatt...

kedd 14:23

Egy új szemvizsgálat tű nélkül jelzi a vérszegénységet

👀 A vérszegénység kiszűrését eddig csak vérvétellel tudták megoldani, most azonban egy hihetetlenül innovatív eljárás kerülhet reflektorfénybe...

kedd 14:02

A 2500 éves egyiptomi gyöngyfátyol, amely Ozirisszá változtatja a halottat

Több ezer apró, színes gyöngyből készült halotti lepel került elő Luxorban, amely mintegy 2500 évvel ezelőtt szolgált a halottak túlvilágra való átvezetésének szimbólumaként...

kedd 13:56

Az ergonómia bajnoka: Sihoo Doro C300 Pro V2 teszt

Felmerül a kérdés, hogy mennyit számít egy jó irodai szék a mindennapi munkában...