2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 21:24

Az Nvidia fénysebességre vált: kulisszák mögött az optikai áttörés

💫 A 2020-as évek közepére rendkívül felgyorsult a mesterséges intelligencia fejlődése, és ehhez az Nvidia óriási teljesítményű GPU-rendszerei adták az alapot...

MA 20:12

Az intézményi tőke tartja felszínen a bitcoint a pánik közepette

A bitcoin ismét a figyelem középpontjába került, hiszen árfolyama 67 100 dollár (kb...

MA 19:33

A bűvös dohánylevél: öt hallucinogén egyetlen növényben

Képzeld el, egy rakás pszichedelikus anyag egyetlen ártatlan dohánylevélben – igen, ezt most tudományosan is megcsinálták!..

MA 19:23

Az adatlopás új hulláma célkeresztbe vett 766 Next.js szervert

Veszélybe kerültek a legnagyobb felhőszolgáltatókra épülő rendszerek, miután hackerek tömegesen támadták meg a Next...

MA 19:13

Az oxigénhiány meglepő titka: védhet a magaslati élet a cukorbetegségtől?

A vörösvértestek nemcsak oxigént szállítanak: most úgy tűnik, komoly szerepük lehet abban, hogy a magaslati lakosok ritkábban válnak cukorbeteggé...

MA 19:01

Az Orion űrkapszula lézerrel élő 4K videót küld a Holdról

📺 Négy űrhajós indult útnak a Hold köré az Artemis II küldetésen, új fejezetet nyitva az űrkommunikációban is...

MA 18:56

Az Artemis II a Holdra megy, vécégondok ide vagy oda

🚀 Már útjuk felénél járnak az űrhajósok, akik történelmi jelentőségű holdkerülő repülésre készülnek az Orion-kapszulában...

MA 18:45

Az USA titkai tényleg egy tanulókártya-appból szivárogtak ki?

Egy Quizlet nevű online tanulási platformon februárban olyan, nyilvánosra állított kártyacsomag bukkant fel, amely valószínűleg rendkívül bizalmas, texasi biztonsági létesítményekhez köthető eljárásokról árult el információkat...

MA 18:33

Az MI felforgat mindent: így lesz a gyerekednek munkája a jövőben

Kisgyerekes szülőként az ember hajlamos túlparázni, hogy merre érdemes vinni a lurkót: magán- vagy állami suliba?..

MA 18:23

Az MI-ügynökök betörnek a kriptópiacra

A kínai Ant Group blokklánc-részlege, az Ant Digital Technologies bemutatta az Anvita platformot, amely lehetővé teszi, hogy önjáró MI-ügynökök minimális emberi beavatkozás mellett vagyont birtokoljanak, kereskedjenek és azonnali fizetéseket bonyolítsanak le...

MA 17:01

Az Artemis II úton, de gond van a holdűrhajósok vécéjével

Az űrutazás következő mérföldkövéhez érkezett a NASA, hiszen az Artemis II küldetés négy asztronautája már néhány napja úton van a Hold felé...

MA 16:56

Az olvadó Antarktisz kincseiért megindul a bányászroham?

🚧 Az Antarktisz felszínét hatalmas arany-, ezüst-, réz- és vaslelőhelyek rejtik – eddig ezek megközelíthetetlenek voltak, de az éghajlatváltozás most mindent felboríthat...

MA 16:45

Az ultravékony fénycsapda áttörést hoz a fény irányításában

💡 Lengyel kutatóknak minden eddiginél vékonyabb rétegben sikerült csapdába ejteniük az infravörös fényt: mindössze 40 nanométer vastagságban, ami ezerszer vékonyabb, mint egy hajszál...

MA 16:12

Az ősi szupernóva feltárul: új rejtélyre bukkant a NASA távcsöve

Közel kétezer évvel ezelőtt kínai csillagászok egy különös, ideiglenes „vendégcsillagot” figyeltek meg az éjszakai égbolton, az Alfa Centauri irányában...

MA 16:01

Az égre tükröt küldenének – jön az álmatlan káosz?

Az elkövetkező években radikálisan megváltozhat a Föld éjszakai égboltja: a Reflect Orbital nevű cég tervezi, hogy hatalmas tükrökkel felszerelt műholdakat állít pályára, melyek képesek lennének 5-6 km széles földi területekre napfényt vetíteni – a telihold fényétől a verőfényes dél ragyogásáig...

MA 15:57

Az Instax Mini 13: a nosztalgia varázsa vagy olcsó retró?

Érdemes megvizsgálni, hogy a digitális korszakban mennyire van helye egy analóg instant fényképezőgépnek, mint a Fujifilm Instax Mini 13...

MA 15:47

A Palantir MI-forradalma, amit senki sem tud lemásolni

🛡 Érdekes felvetés, hogy a legforróbb techmeló, a forward-deployed engineer (FDE), gyökeresen felforgatta a szoftveripart, miközben a legtöbb cég aligha tudja azt valóban megvalósítani...

MA 15:24

Az MI-től rettegünk: az elavulás réme sosem volt erősebb

Az amerikai munkahelyeken új, mindennapokat átszövő félelem uralkodik: a munkavállalók egyre kevésbé attól tartanak, hogy elbocsátják őket, inkább attól, hogy munkájuk jelentéktelenné válik a mesterséges intelligencia előretörése miatt...

MA 15:12

Az MI most tényleg felforgatja az amerikai iskolákat?

Az amerikai oktatás ma éles kanyarban halad. Mesterségesintelligencia-cégek azt ígérik, hogy a munkaerőpiac teljesen átalakul, miközben már senki sem tudja igazán, mit is jelent pályára készen állni...

MA 15:02

A torinói lepel rejtélye: sárgarépa- és korallnyomok?

Kevesen vannak, akik ne hallottak volna a torinói lepelről, arról a titokzatos vászonról, amelyet sokan Jézus testét beborító halotti lepelként tisztelnek...

MA 14:57

A védelmi ipar lehet a gyengélkedő európai autógyárak mentőöve?

🛡 Az európai autóipar kritikus állapotban van. Az elektromos autók iránti kereslet jelentős lassulása, a kínai versenytársakkal szemben elvesztett piaci részesedés, valamint a megemelkedett hitelköltségek olyan tökéletes vihart idéztek elő, amelyből még nem sikerült kilábalni...

MA 14:45

A frankfurti mélyben rejtőző római szentély sötét titkai

Frankfurt északi részén, egy építkezés során egyedülálló római szentély maradványai kerültek elő, amelyek egészen új fényt vethetnek az ókori vallási szokásokra...

MA 14:34

Az agy öregedését fékező új fehérje áttörést hoz a memóriában

💡 Lényeges, hogy az öregedés elsőként a hippokampuszt sújtja, amely az emlékezet és a tanulás központjaként működik...

MA 14:02

Az okosórák kora lejárt: jön a láthatatlan fitneszforradalom

A hagyományos okosórák világa után most a kijelző nélküli, teljesen diszkrét fitneszpántok kora érkezett el...

MA 13:56

Az otthoni kamerák valóban biztonságot adnak, vagy többet ártanak?

Képzeld el: a szomszédod felszerel egy új kapucsengő-kamerát, sőt, talán rögtön kettőt is...

MA 13:45

Az irodai technika már diktál, nem a főnök?

💻 A brit munkahelyeken a megbízható technika ma már csendben felér az alapfizetés jelentőségével...

MA 13:34

Az Artemis II legkényesebb kérdése: mi legyen a fagyott vizelettel?

Az Orion űrhajó jelenleg tíznapos mélyűrbeli útja során jóval közelebb jár a Holdhoz, mint a Földhöz, és eddig minden meglepően zökkenőmentesen megy...

MA 13:23

Az új szponzorválság ára: 80 millió fontos bukó a Premier League-ben

Fontos kérdés, hogy mi vár a Premier League csapatokra azután, hogy a szerencsejáték-cégek hirdetéseit kitiltották a mezekről a következő idénytől...

MA 13:12

Az iskolapad helyett már a bíróságon: így lett MI-cégvezér

Logan Brown már 12 évesen a helyi ügyészségen töltötte a szabadidejét, miközben többen csak álmodoznak a pályaválasztásról ilyen korban...