A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
filózó
Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?
A techóriások eddig messzire kerülték, hogy felelősséget vállaljanak azért, ha termékeik vagy szolgáltatásaik hibásan működnek, vagy félrevezető információkat adnak...
A legtöbb vállalat manapság egyszerűen csak rá akarja húzni a mesterséges intelligenciát egy olyan működési modellre, amelyet még a múlt század stabil, kiszámítható világára szabtak...
Senki sem várta volna, hogy egy amerikai nő, akit gyerekként untatott az Apollo–11 holdraszállása, egyszer egy több mint 650 milliárd forintot érő vállalat egyik arca lesz – és története még ma is elképesztően inspiráló...
Erre utal többek között az, hogy a Microsoft hat alapvető Windows-alkalmazást fejlesztett tovább egy átfogó frissítéssel: a Photos, Paint, Calculator, Clock, Media Player, valamint a Voice Recorder újdonságokat kapott...
Az Oxfordi Egyetem kutatói egy teljesen újfajta kvantumszuperpozíciót hoztak létre, amely a híres Schrödinger-macska gondolatkísérletnél is érdekesebb eredményeket mutat...
A szén-dioxid újrahasznosítása metanollá hosszú ideje a vegyipar egyik nagy ígérete, mégis makacs akadályokba ütközött a folyamat tökéletesítése során...
Az új tudományos fejlesztéseknek köszönhetően végre olyan fehérjeturmixok kerülhetnek az asztalodra, amelyek nemcsak egészségesek, hanem ízre és állagra is jóval kellemesebbek...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Inkflow Plus Visual Notebook (iPhone/iPad)Az Inkflow egy vizuális gondolkodást támogató alkalmazás...
Érdemes megvizsgálni, miért fizet valaki 3 millió dollárt (nagyjából 1,1 milliárd forintot) egyetlen videojátékért: egy ritka, bontatlan Super Mario testvérek (Super Mario Bros.)..
A legújabb kutatás szerint a prediabéteszből – vagyis a cukorbetegséget megelőző állapotból – visszaforduló embereknél jelentősen csökken a szív- és érrendszeri halálozás esélye...
🕵 Egy összehangolt akcióban az FBI, a Google és a Black Lotus Labs közösen számolták fel a hatalmas kínai Outsider Enterprise adathalász-hálózatot, amely több ezer hamis weboldallal próbált hitelkártyaadatokat és jelszavakat megszerezni...
🔐 Képzeld el, hogy úgy nyitod ki a bejárati ajtót, mintha A Jedi visszatérben (Return of the Jedi) használnád az Erőt – elég, ha felemeled a tenyered...
A NASA X-59 kísérleti repülőgépe új mérföldkövet ért el: nemrég sikeresen teljesített egy tesztrepülést, amelyen szuperszonikus sebességgel, nagy magasságban repült...
💀 Érdemes megvizsgálni, hogy a régmúlt földimókusai milyen meglepő szokásokkal rendelkeztek, amelyek fényt derítenek izgalmas ökológiai kapcsolatokra a jégkorszak idejéből...
✏️ Érdekes felvetés, hogy egy modern digitális eszköz képes lehet visszahozni a kézzel írás élményét, ráadásul úgy, hogy lemond a mai tabletek szinte kötelező bonyolultságáról...
Viharos háborúk, birodalmak sorsa és sorsfordító természeti katasztrófák jelölik ezt a napot: a rigómezei ütközet és a Mount Pinatubo pusztító kitörése mellett II...
Sokan vásároltak iPhone 16 vagy iPhone 15 Pro készüléket abban a reményben, hogy az Apple által beharangozott, vadonatúj okosfunkciókat azonnal használhatják...
Egykori rendszergazda miatt bénult le egy iowai iskolai körzet: 21 hónap börtönre ítélték, miután hónapokon keresztül támadta volt munkahelyének rendszereit...