2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

szerda 20:55

A WSOP-on már Solanával is fizethető a nevezés

🃋 A Las Vegas-i World Series of Poker idei versenyén már digitális valutával, a Solanával is lehet nevezési díjat fizetni...

szerda 20:34

A stadion Wi-Fi az igazi veszély: hétből tíz VB-szurkoló kockáztatja adatait

A közelgő 2026-os labdarúgó-világbajnokság apropóján milliók készülnek arra, hogy a stadionokban és környékükön közös élményeken osztozzanak – de nem zárható ki annak a lehetősége, hogy épp ez a lelkesedés teszi őket a digitális bűnözők célpontjaivá...

szerda 20:23

Az új Fable-ben nincs többé szarv vagy glória – mert újraalkothatod magad

💫 Fontos kérdés, mitől lesz igazán egyedi az érkező Mese (Fable) újraértelmezés, amely ezúttal szakít a régi játékokra jellemző, látványos erkölcsi skálákkal...

szerda 20:12

Az első amerikai szabálytervezet: a CFTC felrázza az előrejelző piacokat

Erre utal többek között az, hogy az Amerikai Árutőzsdei Kereskedelmi Bizottság (CFTC) nyilvánosságra hozta az első, előrejelző piacokat érintő szabályozási javaslatát, amely jelentős változást hozhat a sport- és politikai fogadások világában...

szerda 20:01

A végső frissítés: mind a 26 új katalizátor a Destiny 2-ben

⚡ A Destiny 2 végső nagy frissítése minden eddiginél izgalmasabbá varázsolja a fegyvereket...

szerda 19:56

A három pénisszel született férfi, aki halála után felajánlotta testét – orvosi rejtély

A brit egyetem orvostanhallgatóit különleges felfedezés várta, amikor egy 78 éves férfi holttestét boncolták: a férfi nem egy, hanem három pénisszel született...

szerda 19:45

Az atlanti hidegfolt a Golf-áramlat gyengülését jelzi

Az Atlanti-óceán északi részén, Grönland és Izland déli vizein egy furcsa, lehűlt terület jelent meg, amelyet évek óta vizsgálnak a kutatók...

szerda 19:34

Az otthoni iroda új királya: itt a Secretlab Atlas

💼 Fontos kérdés, hogyan tehetjük kényelmessé és praktikusabbá az otthoni munkavégzést. A Secretlab új széke pontosan ezt célozza: az Atlas egy kifejezetten otthoni irodába tervezett szék, amely a kényelmet és az egészséges tartást ötvözi...

szerda 19:23

A testben közvetlenül termel és juttat gyógyszert a génmódosított féreg

🐍 Genetikailag módosított fonálférgek forradalmasíthatják a gyógyszerbevitelt, miután a kutatóknak sikerült olyan horogférget alkotniuk, amely képes létfontosságú antitoxint termelni az élő szervezetben...

szerda 19:12

A Logitech új, összehajtható egere saját hordtáskával érkezik

🖱 A hordozható eszközök forradalma újabb meglepetéssel bővült: a Logitech megalkotta az első összecsukható gamer egeret...

szerda 19:01

A kvantumóra ketyeg: a veszély a Bitcoint fenyegeti, nem az Ethereumot

⌛ Különösen említést érdemel, hogy az utóbbi hónapokban új lendületet kapott a digitális eszközök biztonsági kockázatainak vizsgálata...

szerda 18:44

A CoinDesk 20 esik 1,4%-ot, minden tag mínuszban

📉 A piac egészét rövid idő alatt pirosba borította az eladási hullám, a CoinDesk 20 indexe pedig 1,4%-kal, 1663,81 pontra csökkent a kedd délutáni állapothoz képest...

szerda 18:34

Az Activisiontól mini csodák sorozatával szabadult a Toys for Bob

Érdemes megérteni, hogy a Toys for Bob hosszú utat járt be, míg odáig jutott, hogy újra önálló stúdióként dolgozhasson saját játékán...

szerda 18:24

A gépi tempójú védelem kora: újra kell építeni a SOC-ot

A kibertámadások sebessége és kifinomultsága sosem volt akkora, mint napjainkban. A hagyományos védelmi rendszerek egyre kevésbé tudnak lépést tartani az MI-vezérelt támadásokkal...

szerda 17:01

A bíró lecsapott: MI-halucinációk miatt két év eltiltás, bírság, 60 nap szünet

🚧 Érdemes megérteni, hogy egy amerikai perben egyszerre négy ügyvédet is rajtakaptak azon, hogy valótlan, MI által kitalált jogi hivatkozásokat használtak...

szerda 16:57

Az Anthropic mégis kiadta a túl veszélyesnek ítélt Fable 5-öt

😵 Lényeges szempont, hogy az Anthropic új MI-modellje, a Fable 5 most először válik közvetlenül elérhetővé a nagyközönség számára, noha korábban még maga a cég is túl kockázatosnak tartotta a nyilvános bevezetését...

szerda 16:34

A Philips új égbolt-lámpája lenyűgöz, de okos funkciók nélkül túlárazott

A Philips bemutatta legújabb mennyezeti lámpáját, amely igazi tetőablak-hatását kelti, és a természetes napfény élményét nyújtja a lakásban...

szerda 16:01

A Zcash és a Hyperliquid vezetik az esést, shortolják a bitcoint

📉 A kriptovaluta-piacokat ismét jelentős nyomás alatt tartja a közelgő amerikai inflációs adatok várakozása, miközben a bitcoin árfolyama újra 61 500 dollár (kb...

szerda 15:56

Az MIT új űrhajtóműve akár Marsra repítheti a kisműholdakat

A világűr meghódítása az elmúlt években óriási fejlődésen ment keresztül, de a kis műholdak – az úgynevezett CubeSatok – még mindig komoly korlátokkal küzdenek...

szerda 15:45

A Google Gemini világszerte akadozik: ezt tudjuk eddig a leállásról

⚠ Reggel óta rengetegen tapasztalják, hogy a Google Gemini nem működik rendesen: hibák sorozata jelenik meg az asztali és mobil változatban is, a felhasználók pedig valódi segítség nélkül maradnak...

szerda 15:34

A Microsoft rekordot döntött: több mint 200 sebezhetőséget foltoztak be

A Microsoft minden eddiginél nagyobb javítócsomagot adott ki június közepén, amely majdnem 200 különböző biztonsági rést szüntetett meg a Windows operációs rendszerben és a kapcsolódó szoftverekben...

szerda 15:23

A Kelet-antarktiszi jégtakaró mélyén óriási, legyező alakú szerkezetre bukkantak

🖼 Egy hatalmas, legyezőszerű formációt fedeztek fel a kelet-antarktiszi jégtakaró alatt, amely több, eddig is ismert medencét köt össze a felszín alatt...

szerda 15:12

A júniusi Windows 11-frissítés három nagy dobása: villámgyors appok és menük

⚡ Megérkezett a Windows 11 júniusi frissítése, amely több fontos újdonságot hozott magával, és ha eddig lassúnak érezted a rendszert, most végre fellélegezhetsz...

szerda 14:56

A Bitcoin DeFi-projekt lehúzta a rolót: senkit sem érdekelt

🛑 A Botanix, a Bitcoin második rétegű hálózata, mindössze egy évvel a főhálózat indulása után végleg leállította a működését...

szerda 14:45

A klasszikus agyteszt leleplezte az MI legnagyobb gyengeségét

Miközben a mesterséges intelligencia már esszéket ír, kérdésekre válaszol és bonyolult problémákat old meg, meglepő gyengeségre is fény derült: nehezére esik koncentrálni, ha zavaró tényezők jelennek meg...

szerda 14:34

Az inflációs forgatókönyv, amely 60 ezer alá ütheti a bitcoint

📈 A bitcoin árfolyama hetek óta ingadozik a 61 ezer dolláros szint körül, miközben egyre nagyobb figyelem hárul az amerikai inflációs adatokra...

szerda 14:23

A muslica teljes agytérképe váratlan titkot árult el

Egy nemzetközi kutatócsoportnak először sikerült minden idegsejt-kapcsolatot feltérképeznie egy felnőtt muslica teljes központi idegrendszerében...

szerda 13:56

Az XRP-piacon pánikeladások – közel a mélypont?

📈 Az utóbbi időben egyre többen adják el veszteséggel az XRP-t, ami jelezheti, hogy a piaci lejtmenet a végéhez közeledik...

szerda 13:45

Az Amazon egymilliárd fontot fektet be, 4 ezer új állást teremt Britanniában

💰 Az Amazon komoly lendületet ad az Egyesült Királyság gazdaságának: két vadonatúj létesítmény nyílik Northampton és Kettering városában, összesen több mint 4 000 új munkahelyet teremtve...