A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
filózó
Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?
🚀 A Wall Street az utóbbi napokban a SpaceX-re figyelt, miután a cég minden képzeletet felülmúló, 9000 milliárd forint (25 milliárd dollár) értékben adott el kötvényeket...
A floridai Dél-Floridai Egyetem kutatói egy hathetes antarktiszi expedícióról nem mindennapi felfedezéssel tértek haza: úgy találták, hogy egy apró tengeri élőlény, az aszcídia által termelt bakteriális toxin hatékony fegyver lehet a melanóma, vagyis a legveszélyesebb bőrrák ellen...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. CrestWall – 4K Wallpapers (iPhone/iPad)A CrestWall egy igényesen összeállított háttérképgyűjteményt kínál iPhone-ra, kiváló, 4K felbontásban...
🔥 Éjszaka közeledtével még mindig csörög a telefon – egy új ügyfélüzenet, egy komment, amire válaszolni kell, vagy egy trend, ami reggelre már elavultnak számít majd...
A Tesla idén nyáron ismét reflektorfénybe kerül, amikor közzéteszi második negyedéves autóeladási adatait – ezek alapján derül majd ki, vajon képes-e tartós növekedésre egy viharos év után...
Hihetetlen, de mégis igaz, hogy az egyik legizgalmasabb újdonság a 2026-os Computexen az Asustor új Flashstor 12 Pro Gen3 és Flashstor 6 Gen3 teljesen flashalapú NAS-ai voltak...
Erős nap a történelemben: az első transzpacífikus repülés, Argentína első női elnökének beiktatása és egy súlyos szöuli áruház-összeomlás mind ide köthető...
🔥 Európa idén nyáron extrém hőhullámmal szembesül, amely nemcsak hőmérsékleti rekordokat döntött, hanem a halálozások számát is jelentősen megnövelte...
A szupervulkán-kitörések messze a Föld leghatalmasabb vulkáni eseményei közé tartoznak. Egy-egy ilyen kitörés több mint 1 000 köbkilométer magma, kőzet és hamu felszabadításával fenekestül forgathatja fel a klímát, az élővilágot, vagy akár az emberi társadalmakat...
A vállalatok egyre gyakrabban alkalmazzák a generatív MI-t és az automatizált fejlesztői eszközöket, ennek azonban súlyos pénzügyi következményei lehetnek...
Érdemes megvizsgálni, hogy a kontinensre zúduló kánikula milyen extrém helyzeteket teremt: több mint 191 millió ember tapasztalhatta meg a 35 °C-ot is meghaladó hőmérsékletet, miközben kelet felé terjed a hőhullám...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days egy egyszerű, letisztult alkalmazás, amellyel pillanatok alatt megtudhatjuk, hány nap választ el két tetszőleges dátumot...
Mai időutazásunkon felvillannak a történelem legélesebb fordulópontjai: a szarajevói merénylet nyomán világháború robbant ki, Poltaván eldőlt Európa hatalmi egyensúlya, a Case Blue hadművelet pedig új fejezetet nyitott a keleti fronton...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days egy letisztult, könnyen kezelhető alkalmazás, amely villámgyorsan kiszámolja, hány nap választ el két tetszőleges dátumot...
Viharos nap a történelemben: király a csatatéren, uruguayi parlament feloszlatása, amerikai döntés a koreai háborúról, az Entebbébe térített gép és a Space Shuttle Columbia startja egyaránt ide esik...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. FormatX: Video Audio Converter (iPhone/iPad)A FormatX egy minden egyben formátum-átalakító eszköz, amely támogatja a videó-, hang- és képfájlok konvertálását...
Kiemelkedő fordulópontok sora: Julianus császár sorsfordító halála, a mongolok döntő győzelme, a karácsony amerikai szövetségi ünneppé válása és a Berlin Blockád légihídjának indulása új fejezeteket nyitott a történelemben...