2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 09:15

Az Ultramarine-ok közé tényleg keveredett egy Halo-elit?

😱 Egy igazi rajongó, Skykillerr nevű művész szétmodolta a Warhammer 40,000: Space Marine 2-t: konkrétan játszhatóvá tette benne a Halo-sorozatból ismert félelmetes fehér Elite-et (Ultra, Halo: Reach), és erről egy menő videót is feltöltött...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 4/26

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     RPG Knights of Grayfang (iPhone/iPad)Eldraad egy varázslatos, fantáziadús világ, ahol ember és szörny évszázados háborút vív egymással...

MA 09:08

Az afrikai kontinens kettészakadása gyorsabb, mint hittük

A kelet-afrikai Turkana-árok kétségtelenül híres az emberiség egyik leggazdagabb fosszíliálelet-anyagáról, miközben állandó vulkáni aktivitás jellemzi a területet...

MA 09:01

Az amerikai bitcoin-ETF-ek uralmuk alá hajtják a kriptopiacot

Pénteken áttörés történt az amerikai bitcoin-derivatívák piacán: a BlackRock által menedzselt bitcoin-tőzsdén kereskedett alap (ETF), az IBIT opcióinak piaci mérete elérte, sőt meghaladta a külföldi Deribit opciós piacáét...

MA 08:56

Az agresszív gyíkok felfalják a természet színeit

Tipikus eset, amikor az evolúció szépen, egyensúlyban működik évmilliókig – aztán hirtelen minden felborul...

MA 08:50

Az új Strands: egy vita, ami mindenkit beszippant

🤔 A vasárnapi Strands rejtvény elsőre tréfásan könnyű témát ígért: „Merülj bele” (Get into it)...

MA 08:43

A legújabb kutatás szerint a halolaj árthat az agyadnak

🐞 Az utóbbi években egyre többek kezében tűnik fel valamilyen halolaj-kiegészítő, főleg azok körében, akik szeretnének vigyázni agyuk egészségére...

MA 08:35

Az alaszkai lazac vesztét hozhatják az invazív csukák

Alaszka folyóinak felmelegedése újabb problémát hozott magával: az invazív északi csuka egyre falánkabbá válik...

MA 08:29

Az NYT Connections legújabb trükkjei: így győzd le a rejtvényt

📚 Érdemes látni, mennyire képes meglepni a Connections, a New York Times egyre népszerűbb szójátéka...

MA 08:22

Az életmentő grafén: baktériumölő csoda, emberre nézve veszélytelen

💡 A mindennapi életben számos olyan tárgy vesz körül minket – ruhák, maszkok, fogkefék –, amelyek közvetlenül érintkeznek a testünkkel, így kiemelten fontos a higiénia...

MA 08:01

Az univerzum titkos kohói: gravitációs hullámokból születhetett a sötét anyag

Az Ősrobbanás utáni kaotikus pillanatokban a téridő fodrozódásai többet jelenthettek, mint puszta hullámok: lehet, hogy ezeknek köszönhetjük a galaxisokat összetartó titokzatos sötét anyagot is...

MA 07:57

Az új Michael Jackson-film: táncra perdül a nézőtér, vagy égés?

A moziban ülők most nemcsak pattogatott kukoricáért ugranak fel, hanem a Michael (Michael) című életrajzi film alatt tényleg táncra is perdülnek!..

MA 07:50

Az MI-ügynökök letarolják a kriptót: az ember háttérbe szorul

A modern pénzügyi rendszer mindig is az emberi élet igényeihez igazodott: országhatárokhoz, papírmunkához, banki nyitvatartáshoz...

MA 07:29

Az MI új támadáshullámot szabadított a kriptovilágra

A decentralizált pénzügyi világban (DeFi) évekig a figyelem középpontjában az okosszerződés-hibák álltak...

MA 07:22

Az Assassin’s Creed: Fekete Zászló adaptációja nem spórol a vérrel

🏴 Az Assassin’s Creed: Fekete Zászló (Black Flag) Resynced bejelentése után sok rajongó felkapta a fejét: eltűnt a jól ismert vér, helyette színes szikrák jelentek meg a harcokban...

MA 07:15

Az év washingtoni politikai divatparádéja, amiért Hollywood is rajong

👑 Csak éppen közben mindenki a ruhákat nézi – a 2026-os Fehér Ház tudósítói vacsorája (White House Correspondents’ Dinner) szombat este igazi vörös szőnyeges forgataggá változtatta Washington D...

MA 07:07

A tömeg rejtélye: a különleges részecske nyomában

Egy nemzetközi kutatócsoport most először talált bizonyítékot egy eddig csak elméletben feltételezett különleges állapot, az úgynevezett mezonikus atommag létezésére...

MA 07:01

Az idegek harca: így győzhetsz vasárnap a Quordle-ben

🤔 A Quordle mára igazi kihívást jelent, hiszen egyszerre négy szót kell megfejteni...

MA 06:57

Az IKEA 40 éves: a bútorok, amelyek meghódították otthonainkat

Negyvenéves az IKEA! Ünneplésképp a svéd bútoróriás összegyűjtötte legikonikusabb darabjait – fogadjunk, hogy legalább egy közülük ott lapul nálad is...

MA 06:50

Az elátkozott katonák: a Fallout: New Vegas legbizarrabb befejezése

☠ A döntések jelentősége a szerepjátékokban sokszor jóval túlmutat a fő történeten...

MA 06:44

A megállíthatatlan zöld forradalom: merre tart a bolygónk?

🌱 Erre utal többek között az, hogy a klímatudósok szerint már biztosan lecsúsztunk arról, hogy az ipari forradalom előtti szinthez képest 1,5 Celsius-fokon tudjuk tartani a globális átlaghőmérséklet-emelkedést...

MA 06:36

Az idei London Marathon élőben: itt nézheted

🏃 A világ egyik legrangosabb futóversenyén ismét hatalmas izgalmak várhatók, hiszen a 2026-os londoni maratonon közel 60 ezren rajtolnak el a brit főváros legendás útvonalán, Greenwich-től egészen a The Mall-ig, elhaladva a híres Cutty Sark mellett...

MA 06:29

A miniszterelnök is rajong érte: a Crimson Desert az új király

A Crimson Desert szinte robbanásszerűen hódította meg a koreai és a nemzetközi játékvilágot, hiszen a megjelenés utáni 26 napon belül már 5 millió példányt adtak el belőle világszerte...

MA 06:22

A bélflóra rejtheti a depresszió titkos kulcsát

🤰 Az utóbbi években egyre több bizonyíték utal arra, hogy a bélben élő mikrobák nemcsak az emésztésünkben, hanem az agyunk működésében is fontos szerepet játszanak...

MA 06:05

Történelmi események a mai napon (Április 26.)

Évfordulók, amelyek átformálták a világot: Guernica bombázása, a bangladesi tornádó, a tanzániai egyesülés és a pekingi tavasz szikráját adó szerkesztőségi cikk mind ezen a napon történt...

MA 06:01

Az egyszerű szemvizsgálat, amely megjósolja, meddig élsz?

Haldoklók esetében gyakran felmerül a kérdés: még mennyi időt tölthet együtt a család?..

szombat 21:45

Felpörgött a botrány az aranyáron forgatott Michael-életrajzi film körül

🎥 A Michael Jackson életét feldolgozó új film készítése során egy váratlan jogi hiba okozott feszültséget és hatalmas többletkiadásokat...

szombat 21:12

Az új Bitcoin-pánik: Jön a 14 milliós zuhanás?

Bár a Bitcoin idén 15 százalékot erősödött, és mostanában 78 ezer dollár (kb...

szombat 21:01

Az Epic berobbantotta a Fortnite legdurvább shotgun-őrületét

🔫 Érdekes felvetés, hogy meddig lehet fokozni a fegyverválasztékot egy battle royale játékban úgy, hogy az még élvezhetőbbé tegye az élményt...