2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 07:01

A Mac-ed 49 nap után összeomlik – ezt titkolja az Apple

💀 Milyen para már, amikor a Mac-ed hirtelen megáll, pedig csak békésen szöszmötöl az irodában vagy a gardróbban, egy csomó fontos feladattal a háttérben?..

MA 06:57

A kátyúk réme: az önvezető taxi megóvja a gumikat

Hihetetlen, de mégis igaz, hogy a Waymo önvezető autói mostantól nemcsak utasokat szállítanak, hanem a kátyúvadászatban is besegítenek...

MA 06:44

A mesterséges intelligencia a kanapén: Claude húszórás terápiája

🛌 Ilyen eset például, amikor egy fejlett MI-t pszichiátriai „kezelésnek” vetnek alá, hogy feltérképezzék annak mentális állapotát...

MA 06:36

Az Instagram végre enged: visszaszívhatod a kommentbénázásokat

Na hát ennyit erről, hogy az Instagramon minden örök – mostantól visszavonhatod vagy kijavíthatod a kommentjeidet, amelyeket posztok alá írsz, persze csak 15 percen belül...

MA 06:29

Az OpenAI az új ChatGPT Pro-val csábítja át a fejlesztőket

Az OpenAI új szintet vezetett be a ChatGPT-előfizetéseknél, amellyel egyértelműen a fejlesztői közösséget igyekszik magához láncolni...

MA 06:22

Az új kriptósztárok letaszítják trónjáról a bitcoin ETF-eket?

Nakamoto, SharpLink és Strive nevét most érdemes megjegyezni: ezek a digitális vagyonkezelő cégek a legnagyobb zuhanás után akár a bitcoin ETF-eknél is jobban teljesíthetnek...

MA 06:15

Az új LucidRook kártevő tajvani NGO-kat és egyetemeket támad

Egy fejlett, Lua-alapú, LucidRook nevű kártevő ütötte fel a fejét Tajvanon, amely nonprofit szervezeteket és egyetemeket támad phishing (adathalász) e-mailekkel...

MA 06:09

A Nap széttépte az üstököst – oda a várt csoda

Az égbolt szerelmesei hetek óta készültek arra, hogy idén tavasszal átélhessék a rendkívüli látványt: egy új „napközeli” – vagyis extrém közel a Naphoz suhanó – üstökös tűnt fel, amely akár nappal is látható fényességet ígért...

MA 06:05

Történelmi események a mai napon (Április 10.)

Ma olyan mérföldkövek sorjáznak, mint a Statute of Anne első szerzői jogi törvénye, a pingpong-diplomácia áttörése, és a szmolenszki légikatasztrófa tragédiája...

csütörtök 21:35

A Hades 2 berobban – durva újdonságok az Xbox Game Passben

Áprilisban igazán izgalmas időszak vár az Xbox Game Pass előfizetőire: díjnyertes folytatások, zseniális új független címek, klasszikusok ráncfelvarrott kiadásai és persze jó néhány addiktív gyöngyszem kerül fel a platformra...

csütörtök 21:23

Az MI-ügynökök forradalma: amikor a kód önmagát írja át

A mesterséges intelligencia fejlesztésének egyik legfőbb kihívása, hogy olyan autonóm ügynökök épüljenek, amelyek képesek alkalmazkodni a környezet változásaihoz anélkül, hogy az alapul szolgáló nagy nyelvi modellt újra kellene tanítani...

csütörtök 21:13

Az új T‑Mobile csomagok közül melyik a legjobb 2026-ban?

A T-Mobile 2026-ot egy váratlan új csomag bejelentésével indította, amely minden eddigi várakozást felülmúlt...

csütörtök 21:02

Az Antarktisz bajban: már a császárpingvin is veszélyeztetett

🐧 Érdemes megvizsgálni, hogy az Antarktisz két ikonikus állata, a császárpingvin és az antarktiszi (délsarki) medvefóka drámai helyzetbe kerültek...

csütörtök 20:56

Az új Lyme-vakcina áttörést ígér – de kérik-e majd?

💉 Míg az elmúlt években a Lyme-kór egyre komolyabb egészségügyi problémává nőtte ki magát, most új remény villant fel: a Pfizer és a Valneva közös fejlesztése révén egy hatékony vakcina kerülhet a piacra, amely segíthet megfékezni ezt a kullancsok által terjesztett betegséget...

csütörtök 20:45

A bölcs vezetők pénteken nem döntenek – így kerüld el a kiégést

Ami először apróságnak tűnt, könnyen válhat sorsfordító hibává egy hosszú, megerőltető munkahét végén...

csütörtök 20:34

A Kia új pickupja 2030-ra letarolja Amerikát

A következő években merész lépésre készül a dél-koreai Kia: az amerikai autópiacra szán egy teljesen új pickup-modellt...

csütörtök 20:23

Az offline MI végre megérkezett: a Gemma 4 a zsebedben

📱 A Google a napokban elérhetővé tette új alkalmazását, az AI Edge Gallery-t, ami letölthető a Google Play Áruházból és az Apple App Store-ból is...

csütörtök 20:12

A nyugalmadért kapcsold ki végre a Spotify-videókat!

🔊 Mondták már, hogy retró zenelejátszó-élményt szeretnél egy ekkora appban? Most már lehet!..

csütörtök 20:01

Az új One UI 9 hoz heti időjárás-előrejelzést?

☀️ Úgy tűnik, a Samsung most komolyan fejleszti a Now Brief funkcióját: a kiszivárgott képernyőfotók alapján már nemcsak az aktuális nap időjárását mutatja majd, hanem egy teljes, hétnapos előrejelzést is, részletesen megadva a napi maximumokat és minimumokat, valamint ikonokkal illusztrálva a várható időjárást...

csütörtök 19:56

Az amerikai álom az Applenél továbbra is csak díszlet

Az Apple ismét bővíti úgynevezett amerikai gyártási programját, de az iPhone-ok továbbra sem készülnek az Egyesült Államokban...

csütörtök 19:45

Az Artemis II visszatérésének küszöbén: űrhősök a nagy finálé előtt

Közel tíz nap kaland után az Artemis II legénysége már az ablakukon át látja a Földet, a hazatérésük célját...

csütörtök 19:34

Az édesítőszerek könnyen átverik az agyadat

Érdekes felvetés, hogy nemcsak az számít, mi van a poharunkban, hanem az is, mit gondolunk róla...

csütörtök 19:23

Az Xbox-kontrollerek akku nélkül érkeztek – ingyenes csere indul

🔋 Több Xbox-játékos vette észre, hogy az utóbbi hónapokban vásárolt vezeték nélküli Xbox-kontrollerükből hiányzott a mellékelt elem...

csütörtök 19:12

Az Eurail-adatlopás 300 ezret érint: cseréld a jelszavad, ha Euraillel utaztál

🔒 A kontinens legnagyobb vasúti utazásait szervező Eurail kénytelen volt elismerni, hogy tavaly december végén hackerek több mint 300 ezer ügyfél személyes adataihoz jutottak hozzá...

csütörtök 18:34

Az új Pixel 11-széria a kijelzőmániások álma

Pár hónap múlva már a Pixel 11 szériát foghatjuk kézbe – és bármilyen hihetetlen, de ezek a telefonok lehetnek az elsők, amelyek megkapják a Samsung vadonatúj M16 OLED paneljét...

csütörtök 18:23

A YouTube Shorts-ot elárasztják az MI-avatárok

A YouTube mostantól lehetőséget ad arra, hogy saját képmásoddal szerepelj a Shorts-videókban, még ha éppen nincs is kamerád kéznél...

csütörtök 18:01

Az új Gemini-asszisztens megőrjíti a Google Home felhasználóit

🤯 Emellett a Google Home felhasználói egyre nagyobb számban tapasztalnak komoly problémákat a Gemini nevű, frissített hangalapú asszisztenssel, amelyet már 16 új országban vezetik be...

csütörtök 17:45

Az OpenAI parkolópályára tette a Stargate UK-t: szabályozás, energiaárak

⚠ Az OpenAI felfüggesztette az Egyesült Királyságba tervezett Stargate nagyléptékű MI-infrastruktúra kiépítését, miután makacs energiaár-emelkedés és bizonytalan szabályozási környezet húzta keresztbe a számításaikat...

csütörtök 17:34

A Bithumb gigászi melléfogása: tévedésből 40 milliárd dollárnyi bitcoint

Jól mutatja, hogy egyetlen elütés is okozhat milliárdos kárt: a második legnagyobb dél-koreai kriptotőzsde, a Bithumb munkatársai februárban tévedésből egy promóció során „BTC”-t írtak „KRW” helyett, így 249 nyertesnek nem 620 000 forintnyi összeget, hanem fejenként 620 000 bitcoint, összesen több mint 40 milliárd dollárt (14 320 milliárd forintot) írtak jóvá belső rendszerükben...