A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 15:02

Az MI-láz ára: tényleg megéri a féktelen költekezés?

Más fényben tűnik fel a történet, ha megnézzük, mennyit költenek a nagy techcégek MI-adatközpontokra, és hogy ezek a kiadások mennyire térülnek meg...

MA 14:49

Az elhízás elleni műtét ötször hatékonyabb az Ozempicnél

💉 Az elhízás kezelése az elmúlt években jelentős figyelmet kapott, főleg a rendkívül népszerű GLP-1 típusú gyógyszerek, például az Ozempic és a Zepbound terjedése miatt...

MA 14:33

Az óriásbank újabb kriptót céloz: érkezik az Ethereum bizalmi alap

A Morgan Stanley tovább erősíti pozícióját a kriptovilágban: most egy Ethereum bizalmi alap (Ethereum Trust) regisztrációs kérelmét nyújtotta be az amerikai értékpapír-felügyelethez (SEC)...

MA 14:17

Az új Klipsch fejhallgatóval visszatér a hi-fi varázsa

A 2026-os CES-en a Klipsch bemutatta legújabb fejhallgató-sorozatát, az Atlas-t, ami az első ilyen fejlesztésük évek óta...

MA 14:01

A Lenovo új szintre emeli a Legion és LOQ gamer gépeket

🎮 A Lenovo több fronton is újít: frissített Legion és LOQ laptopokkal jelentkezik, amelyek már az RTX 50-sorozatú GPU-val és MI-re felkészített processzorokkal érkeznek...

MA 13:49

Az ok, amiért döcögnek a frissítések a Samsung-mobilokon

A Google már 2019-ben kettéválasztotta az Android frissítéseit: a cél az volt, hogy bizonyos fontos újításokat – például a Digitális jólétet (Digital Wellbeing), az Adatvédelmi irányítópultot (Privacy Dashboard) vagy a lopásvédelmet – közvetlenül, a gyártók közreműködése nélkül juttathasson el a felhasználókhoz...

MA 13:33

Az új fenyegetés: Chrome-bővítmények ellopják az MI-beszélgetéseket

Egyre komolyabb veszélyt jelentenek a böngészőbe telepíthető rosszindulatú bővítmények, amelyek már nemcsak adatokat, hanem MI-csevegéseket is lopnak...

MA 13:17

A mindent tudó okosszemüveg: a Lenovo MI-s nagy dobása

A Lenovo új MI-alapú okosszemüveg-koncepcióval rukkolt elő a CES-en. A mindössze 45 grammos Lenovo AI Glasses Concept egész nap hordható, egyetlen töltéssel nyolc óráig bírja, vagyis épp egy munkanapra elegendő...

MA 13:01

Az OpenAI Codex Max: a fejlesztők titkos fegyvere?

🔧 Az OpenAI új szintre emeli a fejlesztői MI-t: érkezik a GPT-5...

MA 12:49

Az MI-asszisztens, amely mindent elintéz helyetted

🤖 A Lenovo bemutatta legújabb MI-fejlesztését, a Qira-t, amelyet teljes körű, rendszerszintű segédként képzeltek el: egyszerre lesz elérhető a Lenovo laptopjain és a Motorola telefonokon...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/7

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Overlap: World Clock (iPhone/iPad)Az Overlap egy intelligens világóra alkalmazás, amely jelentősen megkönnyíti a különböző időzónákban élők számára az egyeztetést...

MA 06:05

Történelmi események a mai napon (Január 7.)

Röviden: ezen a napon Galileo Galilei először pillantotta meg a négy legnagyobb Jupiter-holdat, elindult a szenátusi tárgyalás Bill Clinton impeachment-ügyében, és a Charlie Hebdo elleni terrortámadás megrázta Párizst...

kedd 09:37

Az AMD újra odacsap: a Ryzen AI 400-as sorozattal ráijeszt az Intelre

Érdekes felvetés, hogy ami először apróságnak tűnt – az AMD új Ryzen 7 9850X3D-jének bejelentése –, az valójában csak a jéghegy csúcsa a 2026-os CES-en...

kedd 09:29

Az Nvidia végre a Linuxot és a Fire TV-t is komolyan veszi

🚀 Az Nvidia befejezte az RTX 5080-as frissítést a GeForce Now felhőalapú játékplatformján, és most új funkciókat kapnak az előfizetők...

kedd 09:14

Az izzó galaxishalmaz új fejezetet nyit a világegyetem történetében

💫 Egy minden eddiginél forróbb galaxishalmazt fedeztek fel a korai világegyetemben, ami teljesen váratlanul érte a csillagászokat...

kedd 09:01

Az adatbrókerek rémálma: Kalifornia kemény szabályokkal csap le

Kaliforniában januártól életbe lépett az ország legszigorúbb adatvédelmi jogszabálya, amely jelentősen leegyszerűsíti az állampolgárok számára a személyes adataik törlését és további gyűjtésük megtiltását...

kedd 08:57

Az új SmartVoice eszközök net nélkül is lehallgatnak

🔈 Az Emerson bemutatta SmartVoice nevű eszközeit, amelyekkel egyszerű hangutasításokkal irányíthatod a mindennapi háztartási gépeket, méghozzá alkalmazás, Wi‑Fi vagy bármilyen okosotthon-hub nélkül...

kedd 08:51

Az Nvidia zsebre vágható MI-gépe új ligába lépett

🤖 Érdekes felvetés, hogy egy asztali MI-minigép hirtelen a figyelem középpontjába került: az Nvidia DGX Spark a legújabb szoftverfrissítésnek köszönhetően már több mint kétszeres teljesítménynövekedést ígér októberi bemutatkozása óta...

kedd 08:43

A jövő Hyundai-gyáraiban az emberformájú robotok veszik át a munkát

🤖 A Hyundai Motor Group 2028-tól emberformájú robotokat telepít gyáraiba, ezzel lépést tartva a legnagyobb cégekkel a robotizációs versenyben...