A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
filózó
Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?
💊 Külön említést érdemel, hogy egy régóta ismert, különféle betegségek kezelésére használt gyógyszer most áttörést jelenthet olyan gyerekek számára, akik Bachmann–Bupp-szindrómában szenvednek – ebben a rendkívül ritka, életet veszélyeztető genetikai rendellenességben világszerte csupán néhány tucat ember érintett...
Egy spanyol kisvárosban, Berlanga de Duero-ban, véletlen leletként bukkantak rá egy törött bronzkupára, amely valószínűleg egy római katona emlékét őrzi 1900 évvel ezelőttről...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Waltz of the Wizard (iPhone/iPad)A Waltz of the Wizard egy első személyű, fizika alapú varázslószimulátor, amelyet a klasszikus fantasy világa inspirált...
Egy lényeges szempont, hogy rengetegen használják a Bilibili-t, Kína vezető videómegosztóját, ahol anime, képregény, játék, divat, technológia, életmód és más kategóriájú tartalmak közül lehet válogatni...
🔥 Érdemes megvizsgálni, hogy a Fenegyerek: Újjászületve (Daredevil: Born Again) legújabb epizódja mennyire ügyesen csempészi vissza a régi ismerősöket a Marvel-rajongók kedvenc Netflixes sorozatából...
Napok óta tartotta magát az XRP az 1,40 dolláros (kb. 515 HUF) támasz felett, de most különösen erős eladási hullám söpört végig rajta, visszafordítva ezt a szintet ellenállássá...
Külön említést érdemel, hogy az utóbbi napokban a Vanquish játékosbázisa szokatlanul látványosan nőtt a Steamen – mindez majdnem egy évtizeddel a megjelenése után...
Többek között azoknak, akik szeretik a napi gacha játékokat, most érdemes figyelni: már nem kell sokat várni, és az ingyenesen játszható A soha-léttől az örökkévalóságig (Neverness to Everness, NTE) végre megjelenik...
👻 Isabel Allende világhírű, A szellemek háza (The House of the Spirits) című regényét most először dolgozza fel egy spanyol nyelvű televíziós sorozat, amely nyolc epizódban követi három nő – Clara, Blanca és Alba – évtizedeken átívelő családi történetét egy konzervatív dél-amerikai országban...
A Google Cloud Next 2026 eseményen több mint 260 bejelentés hangzott el, mégis megbújt néhány kevésbé látványos, ám annál jelentősebb újdonság a Google Workspace-ben...
📉 Tipikus eset, amikor minden szem a kriptón van: a Robinhood első negyedévében a kriptóhoz köthető bevételei óriási, 47%-os visszaesést mutattak, mindössze 49 milliárd forintnak (134 millió USD) megfelelő bevételt érve el ezen a fronton...
A Diablo 4 legfrissebb kiegészítője, a Gyűlölet Ura (Lord of Hatred) minden eddiginél magasabbra emelte a nehézségi szinteket, így a játékosok most még komolyabb kihívásokkal néznek szembe...
A városi fantasztikum és a menő gacha-hullám újabb csúcspontjára értünk a Neverness to Everness-ben, ahol bónusz Annulithokat szerezhetsz, ha nem hagyod ki a friss kódokat!..
A kriptovaluták piacán az év legnagyobb fordulópontjának tűnik, hogy a Wall Street óriásai, mint a Morgan Stanley, a BlackRock és a Fidelity egyre aktívabbak a bitcoin piacán, különösen a spot bitcoin ETF-ek formájában...
A sportvilág digitális forradalma új szintre lép: a Chiliz nevű blokkláncplatform egyszerre terjeszkedik a Solana és a Coinbase által fejlesztett Base hálózatra...
A The Division Resurgence eredetileg kizárólag mobilra készült, de a Ubisoft váratlanul, minden különösebb felhajtás nélkül PC-n is elérhetővé tette...
🏊 A MI-fejlesztés eddig zárt, méregdrága csodamodellek összecsapásaként tűnt fel: hol az Anthropic, hol az OpenAI villantott valami újat, de mindig fizetős és többnyire csak API-n át elérhető formában...
👨🩺 Tipikus eset: az orvostudomány rég várt áttörése végre körvonalazódni látszik. Preeklampszia esetén a várandós nők vérnyomása veszélyesen megemelkedik, ami akár halálos szövődményekkel is járhat...
💼 Friss, egységesített felülettel érkezett a Gemini Enterprise, ahol ugyanúgy lehet társalogni az AI-ügynökeiddel, ahogy a jól ismert Workspace-appokban...