A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
filózó
Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?
💰 A nagybankok – köztük a Morgan Stanley – egyre komolyabban foglalkoznak a digitális eszközök piacával, miután nő az ügyféloldali igény a Bitcoin iránt...
🎉 Nem hiszem el, de Jeremy Allen White nemcsak a Star Wars univerzumában repked, hanem most éppen a valóságban is rátolt egy nagy adrenalinbombát a gyerekeivel!..
💡 A Norton VPN for Agents a VPN-ek világában egy teljesen új irányt képvisel: kifejezetten MI-ügynökökre optimalizált, önállóan működő megoldásról van szó, amely feleslegessé teszi a klasszikus kliensalkalmazásokat és a bonyolult telepítési folyamatokat is...
🤔 A mai Quordle (1561. játék) kifejezetten izgalmasra sikerült, ugyanis négy különböző magánhangzó játszott szerepet – A, E, I, O, valamint U –, de a Y ezúttal nem érdemel figyelmet...
Mai időutazásunkon merényletek, döntő csaták és világtörténelmi fordulópontok sorakoznak. Kiemelkedik a német kapituláció 1945-ből, a kent állami lövöldözés 1970-ből, a Greenpeace születése, valamint Rabin és Arafat békemegállapodása...
Rio de Janeiroban szombat este felejthetetlen hangulat uralkodott, amikor Kolumbia szupersztárja, Shakira adott ingyenes koncertet a legendás Copacabana strandon...
Az asztronómia világában új mérföldkőhöz érkeztek a Warwicki Egyetem kutatói, akik több mint 100 exobolygó létezését erősítették meg a NASA TESS űrteleszkópjának adataiból...
Jellemző, hogy egyre több felhasználó szenved a Windows 11 memóriaigényétől, miközben a memóriamodulok megdrágultak, és alig akad pénztárcabarát RAM a piacon...
🚨 A tisztább, zöldebb jövő felé vezető út tele van ellentmondásokkal: a mesterséges intelligenciához, szélerőművekhez, mobiltelefonokhoz, elektromos autókhoz és védelmi rendszerekhez nélkülözhetetlen kritikus ásványokat döntően a világ legszegényebb vidékein bányásszák, az ott élők egészsége és környezete pedig végzetesen megsínyli ezt...
A kvantummechanika világa tele van meglepő, néha meghökkentő elméletekkel. Az egészen parányi részecskék nem viselkednek úgy, mint a hétköznapi tárgyak: egyszerre több állapotban lehetnek jelen, amit szuperpozíciónak nevezünk...
🔥 Szombat délután káosz tört ki a New York-i Szcientológia-egyház épületében, amikor egy csapat tizenéves randalírozva betört az oldalajtón, és súlyos károkat okozott az ingatlanban...
Az űriparban egyre nagyobb hangsúlyt kap a rugalmasság és a rendszerkompatibilitás, hiszen az űrbéli eszközöknek szigorú energia- és hőmérsékleti korlátokkal, időszakos földi kapcsolattal és rendkívül hosszú élettartammal kell számolniuk...
Itt egy játék, amelynek a koncepciója egyszerű, de annál ellenállhatatlanabb: a kertedet meg kell védened az élőhalottak inváziójától, miközben szokatlan fegyvereid nem mások, mint a saját növényeid...
Az emlékek és a térbeli tájékozódás szempontjából kulcsfontosságú agyi terület, a hippokampusz működése új megvilágítást kapott az osztrák ISTA kutatóinak friss eredményei nyomán...
Mike Cagney neve sokaknak ismerős lehet a pénzügyi technológiák világában, de most új pályára állt: a blokklánc segítségével alakítaná át a Wall Street mélyrétegeit...
Érdemes megvizsgálni, mennyire fogadta be az amerikai társadalom a kriptovalutákat, miközben azok eredetileg a hagyományos bankrendszer bukásaira adott válaszként jelentek meg...
A Premier League egyik legjobban várt összecsapásán két északnyugati nagyágyú találkozik az Old Traffordon, ahol a Manchester United egy BL-hely bebiztosításáért harcol...
💸 Feltételezhető, hogy akik mostanában szeretnék fejleszteni gamer PC-jüket, nem lesznek boldogok a Microsoft legújabb közlése után: rövid időre ugyanis 32 GB RAM-ot ajánlottak a Windows 11-et használó játékosok számára, ha valaki zökkenőmentes élményre vágyik többfeladatos használat (pl...