A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
filózó
Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?
🍹 Érdemes megvizsgálni, mit tud egy olcsó, mégis sokoldalú kézi turmixgép, ha igényed van gyors és rugalmas konyhai segítőre – főleg, ha a pénztárcádat sem akarod kiüríteni minden főzés előtt...
Immár 77 év után búcsút mondhatunk a Critérium du Dauphiné (teljes nevén Critérium du Dauphiné Libre) elnevezésnek, mivel az idei eseményt meglehetősen vitatott módon átkeresztelték Tour Auvergne – Rhône-Alpes-ra...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Lively Letters – Phonics (iPhone/iPad)Ez az alkalmazás megjelenése után villámgyorsan az App Store legnépszerűbb, fizetős oktatási szoftverévé vált...
🖖 Jó példa erre, hogy a lengyel Bloober Team egy igazán szokatlan sci-fi projektbe vág bele: pszichológiai horrorjátékot fejleszt a Star Trek-univerzumban...
Erre utal többek között az, hogy Kim Kardashian a Monacói Nagydíj hétvégéjén igazán mindent beleadott, és testvérével, Khloéval együtt jelent meg a Forma–1 egyik legfényűzőbb futamán...
A Tigriskirály (Tiger King) című sorozat sokat emlegetett szereplője, Doc Antle hatalmas győzelmet aratott a bíróságon: a virginiai legfelsőbb bíróság ugyanis hatályon kívül helyezte az összes, az oroszlánkölykök vásárlásával kapcsolatos elmarasztaló ítéletet...
🎬 Péntek este a Tribeca Fesztiválon Madonna legújabb rövidfilmje, a Vallomások II (Confessions II) debütált, de ez az esemény távol állt a hagyományos filmpremierek csendes ünneplésétől...
🚀 Az Archetype Entertainment fejlesztésében készülő sci-fi akció-RPG, az Exodus a Future Games Show-n kapott látványos, bővített játékmenet-videót, amely minden eddiginél közelebbről mutatja be a játékot...
💸 Meta nemrég bejelentette, hogy Kolumbiában és a Fülöp-szigeteken indulva, majd év végéig több mint 160 országra kiterjesztve tartalomkészítőknek ezentúl USDC-ben (dollárhoz kötött stabilcoinban) fizet – jelentős lépés ez a digitális fizetőeszközök elterjedése szempontjából...
🥵 Dél-Afrika perzselő hőségében a déli bütykös varangygerléknél furcsa változások figyelhetők meg: a madarak képtelenek helyesen gondolkodni, egyszerű feladatokat sem tudnak megoldani...
💀 Ilyen eset például, amikor egy túl ambiciózus horrorjátékot újragondolnak: az első A süllyedő város (The Sinking City) története kifulladt az óriási, de üresnek érződő nyitott világban...
🔒 Ez a jelenség jól illusztrálható azzal, hogy még a felújított Gothic sem lett könnyebb, és a játékosok ugyanúgy megszenvednek a zárfeltöréssel, mint annak idején...
Rendkívüli nap a történelemben: alkotmányos mérföldkő Angliában, fordulatok a francia és a közel-keleti hadszíntereken, és egy merész légicsapás, amely átírta a Közel-Kelet nukleáris térképét...
💀 Lényeges szempont, hogy az utóbbi időben egyre több fiatal férfi próbálja különböző extrém módszerekkel, például plasztikai beavatkozásokkal, hormoninjekciókkal vagy szélsőséges fogyókúrával javítani a külsejét...
💰 Annak vizsgálata, hogy egy 20 millió dolláros családi befektetésből miként lehet felépíteni egy több mint 1 milliárd dolláros birodalmat a kriptovaluták világában...
💰 Egy lényeges szempont, hogy a Polymarket és a Kalshi váratlanul hatalmas forgalmat produkálnak, és ezzel magukhoz vonzzák a legnagyobb kvantitatív kereskedési cégeket...
⚡ A Microsoft Build 2026 eseményén minden a látványos platformbejelentésekről és MI-bemutatókról szólt, de több rejtettebb újdonság is született, amelyek a következő években még előtérbe kerülhetnek...
😷 Vízhez és talajhoz kötődő mikrobák kerültek a kutatók figyelmének középpontjába mint rejtett veszélyforrások: bizonyos szabadon élő amőbák különösen veszélyessé válhatnak, ahogy a klíma melegszik, és a világszerte elöregedő vízhálózatok karbantartása elmarad...
⚙ Többek között a jövő kvantumtechnológiái, például a szuperérzékeny szenzorok és a kvantumszámítógépek rendkívüli képességei az összefonódás nevű jelenségen alapulnak, amikor részecskék mélyen összekapcsolódnak, és egymásra olyan módon hatnak, amit a klasszikus fizika nem tud megmagyarázni...
🎮 Egy lényeges szempont, hogy a Modern hadviselés 4. (Modern Warfare 4) fejlesztői most egy igazi DMZ-élményt ígérnek a játékosoknak: nem béta, nem mellékes extrakciós próbálkozás, hanem egy kiforrott, önálló játékmód a Call of Duty-univerzumban...