2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 20:58

A DocuSign óva int: ne bízd az MI-re a szerződéseket

Hihetetlen, de igaz, hogy a digitális szerződéskötés sokkal több, mint néhány kattintás egy weboldalon...

MA 20:37

A mesterséges intelligencia már kiszúrja a gyomokat, a gazdák ujjonganak

🌾 A gazdák életét egy új MI-modell könnyíti meg Seattle-ben, ahol a Carbon Robotics nevű cég olyan robotokat gyárt, amelyek lézerekkel irtják a gyomnövényeket...

MA 20:20

Az állami hekkerek feltörték a Notepad++-t

A Notepad++ fejlesztői bejelentették, hogy a népszerű szövegszerkesztőt célzott kibertámadás érte, amelynek hátterében valószínűsíthetően egy államilag támogatott szereplő áll...

MA 20:01

A csodahozamot ígérő átverések világszerte terjednek

A hamis, szuperhozamot ígérő befektetési programok (HYIP) terjedése újabb csúcsra ért: ezek a csalások irreális hozamokat, például 40%-os nyereséget 72 óra alatt ígérnek, miközben semmilyen valódi megtérülést nem biztosítanak...

MA 19:57

A kezdő futó felszerelése: mi kell, és mi pénzkidobás?

Felmerül a kérdés, hogy mire van szükség, ha most kezdesz el futni...

MA 19:38

Az első MI-közösségi oldal, ahol robotok robotoknak posztolnak

🤖 Fontos kérdés, hogy mi történik, ha a közösségi oldalakon nem emberek, hanem MI-k kommunikálnak egymással...

MA 19:22

Az örökké változó Univerzum: üveglemezek és óriástávcsövek nyomában

Az éjszakai égbolt egy évszázadnyi története rejtőzik poros üveglemezeken és a legmodernebb csillagászati szuperszámítógépek adatfolyamában...

MA 19:01

A Starbucks robotokra bízná a nagy megújulást

A Starbucks hatalmas összegeket fektet MI-alapú automatizálásba: robotokat tesztelnek, amelyek átveszik az autós kiszolgálásnál a rendeléseket, virtuális asszisztensekkel segítik a baristák munkáját a receptek és a beosztások terén, valamint digitális rendszerekkel mérik a készleteket...

MA 18:55

Az új fehérje áttörést hozhat a depresszió és bélpanaszok kezelésében

💡 A krónikus stressz kikezdi a bél védőrétegét, fokozva az áteresztőképességet, amit a köznyelv csak „lyukas bél” szindrómaként emleget...

MA 18:37

Az óceán rejtőzködő zsenije, akit a saját esze veszélyeztet

Érdemes megvizsgálni, hogy egy látszólag sikeres evolúciós stratégia hogyan lehet végzetes gyengeség forrása a Föld egyik legelterjedtebb élőlénye számára...

MA 18:21

Az MI-uralta munkahelyek 2026-os rejtett buktatói

Érdemes megvizsgálni, hogy az MI-vel kapcsolatos várakozások és a valóság között milyen szakadék tátong napjainkban...

MA 18:01

Az MI a bűnbak, vagy máshol van a gond?

🤔 Az elmúlt évben több mint 50 ezer elbocsátást indokoltak hivatalosan mesterséges intelligenciával...

MA 17:37

Az iPhone-ra megérkezik a Vivo és az Oppo teleobjektív-kiegészítője

A PGYTech különleges kamerás szettel teszi profibbá az iPhone 16 Pro és Pro Max, illetve az iPhone 17 Pro és Pro Max készülékeket...

MA 17:19

A TikTok leáll, Amerika forrong – itt az új vihar

Amerikában napokra teljesen leállt a TikTok, miután a téli viharok miatt megsérült az Oracle egyik legfontosabb, általa üzemeltetett adatközpontja...

MA 17:02

Az indiai kormány gigantikus adókedvezménnyel vadássza a felhőóriásokat

💸 India újabb lépést tett, hogy a világ technológiai központjává váljon, és 20 évig tartó adómentességet kínál azoknak a külföldi cégeknek, amelyek Indiából kiszolgálva nyújtanak felhőalapú adatokat a világ bármely más országába...

MA 16:55

Az Oracle 18 ezermilliárdot önt az MI-lázba

💸 Az Oracle részvényei 5%-ot emelkedtek a hétfői kereskedésben, miután a vállalat bejelentette, hogy 2026-ban 16 500–18 300 milliárd forintnyi tőkét tervez bevonni adósság és részvénykibocsátás útján...

MA 16:20

Az MI feltárja a DNS sötét anyagát, orvosok tüdőt gyártanak

🔮 A tudomány világát új áttörések rázzák fel: az MI végre közelebb vihet minket a DNS titkainak megfejtéséhez, eközben orvosok először tartottak életben beteget mesterséges tüdővel, és egy egzotikus növény látványosan cáfolja az evolúció klasszikus elméleteit...

MA 16:02

Az új Pixel témacsomagok már úton, az MI-ikonokra még várunk

📱 A Google nemrég visszavonta a Gonosz témacsomagot (Wicked) a Pixel telefonokról, amelyet a Gonosz: Mindörökké (Wicked: For Good) című film bemutatója alkalmából indítottak Ariana Grande közreműködésével...

MA 15:55

Az MI-ben őrségváltás: a Microsoftnál tarol a Claude Code

A Microsoft fejlesztői már hónapok óta összevetik az Anthropic-féle Claude Code, az Anysphere Cursor és a GitHub Copilot előnyeit és hátrányait, keresve a legjobb MI-kódoló eszközt...

MA 15:38

Az MI bekeményít: a CFO-knak fel kell kötni a gatyát

🛡 A vállalati MI-stratégia középpontjába egyre gyakrabban a pénzügyi vezetők (CFO-k) kerülnek...

MA 15:19

Az olimpiai nyitóünnepség, amiről beszélni fog a világ

A 2026-os milánói-cortinai téli olimpia nyitóünnepsége minden eddiginél nagyobb látványosságot ígér...

MA 15:03

A 7 végzetes hely, ahová soha ne tedd az otthoni kamerát

Az okos otthoni biztonsági kamerák manapság tele vannak fejlett funkciókkal: vezeték nélküli megoldások, mozgásérzékelés, akár MI-alapú képességek...

MA 14:56

Az otthoni biztonsági kamerák üzemidő-bajnokai

Nem mindegy, mennyi ideig húzza egy akkumulátorról a kültéri, vezeték nélküli biztonsági kamerád – főleg, ha a cél az, hogy szinte teljesen megfeledkezhess arról, mikor kell majd töltened...

MA 14:38

Az új Pixel 10a unalmasnak látszik – épp ettől zseniális

👍 A Pixel 10a első pillantásra egyetlen izgalmat sem tartogat: a dizájn szinte ugyanaz, a hardver szintén, a fejlesztések inkább kozmetikaiak, mint forradalmiak...

MA 14:22

Az Oukitel RT10: ipari extrákkal turbózott, szuperstrapabíró tablet

🛡 Aki munkahelyi környezetbe keres igazán masszív táblagépet, az Oukitel Industry RT10-zel jó eséllyel nem nyúl mellé...

MA 14:01

Az új kriptóhullám: zuhannak a részvények, áll a Bitcoin

📈 A Bitcoin árfolyama közel 1%-ot emelkedett, most 77 000 dollár, azaz nagyjából 28,1 millió forint körül jár...

MA 13:55

Az első szingapúri űrügynökséggel elrajtol Ázsia új űrversenye

Szingapúr áprilisban elindítja első nemzeti űrügynökségét, hogy vezető szerepet vállaljon a gyorsan növekvő űriparban...

MA 13:18

A Pentagonnal csap össze az Anthropic: botrány a 72 milliárdos MI-szerződés miatt

Az Anthropic és a Pentagon között 72 milliárd forint (200 millió USD) értékű MI-szerződés sorsa komoly veszélybe került...

MA 12:55

A várva várt Bitcoin-szuperciklus elmarad? CZ lehűti a kedélyeket

💸 Hirtelen bizonytalanság: a szuperciklus lekerült a napirendről Changpeng Zhao, vagyis CZ, a Binance korábbi vezetője még hetekkel ezelőtt is arról beszélt, hogy soha nem látott kripto-szuperciklus jöhet a tömeges intézményi befektetések és a kriptóbarát szabályozás miatt...