A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 20:49

A kígyók hőlátása költözik az okostelefonokba

Kínai kutatók olyan mesterséges képrögzítő rendszert fejlesztettek, amelyet a kígyók elképesztő hőlátása inspirált...

MA 20:34

Az iMac Pro visszatér: most jön az igazi áttörés?

💻 Egy lényeges szempont, hogy újabb kiszivárgott információk szerint az Apple már dolgozik egy új iMac Pro modellen, amelybe valószínűleg az M5 Max lapka kerül...

MA 20:18

Az ősi méhek döbbenetes titka: fészkek a rágcsálók fogaiban

Különleges felfedezésre bukkantak a tudósok Hispaniola szigetén, ahol egy barlangban több tucatnyi megkövesedett méhfészket találtak rágcsálócsontokban – ezeket egykoron baglyok halmozták fel, miután elfogyasztották zsákmányukat, több mint ötezer évvel ezelőtt...

MA 20:01

Az ember, aki rendet tesz az MI-képkáoszban

📝 Az MI által generált képek elárasztják az internetet, és az emberek egyre kevésbé tudják eldönteni, mi valódi és mi nem...

MA 19:51

A OnePlus 15R: óriási kijelző, bivaly akksi, csalódás a kamera

📷 Nehéz elhinni, de kevesebb mint hat héttel az előző OnePlus mobil bemutatója után máris itt az újabb készülék: a OnePlus 15R...

MA 19:33

A mesterséges intelligencia felzabálja a Föld vizét és áramát 2025-ben

Évről évre nő az MI környezeti terhelése: 2025-re az új kutatások szerint az MI-rendszerek annyi szén-dioxidot bocsátanak ki, mint egész New York városa, és annyi vizet használnak el, mint amennyit az emberek palackozott vízből világszerte elfogyasztanak...

MA 19:17

Az újabb Firefox-botrány: veszélyes bővítmények vadásznak az adatokra

Több mint egy tucat olyan Firefox-böngészőbővítményt találtak, amelyek titokban hátsó kapukat nyitnak, és figyelik a felhasználók böngészési szokásait...

MA 19:01

A Coursera bekebelezi az Udemy-t: egyesülnek az e‑learning óriásai

A Coursera bejelentette, hogy részvénycserés ügylet keretében felvásárolja az Udemy-t, így a 900 millió dolláros (kb...

MA 18:49

Az újabb IIS-baki káoszt hozott a Windows gépeken

⚠ A Microsoft ismét figyelmeztetést adott ki: a vállalati ügyfelek egy része komoly problémákkal szembesülhet a frissített Windows rendszereken, mivel az Internet Information Services (IIS) és a Message Queuing (MSMQ) összeomolhatnak...

MA 18:34

A Google villámgyors MI-je: itt a Gemini 3 Flash

A Google globálisan elérhetővé tette a Gemini 3 Flash nevű MI-modellt, amely ígéretük szerint legalább olyan gyorsan használható, mint a hagyományos kereső...

MA 18:17

A Gemini 3 Flash végre turbóra kapcsolja a mesterséges intelligenciát

⚡ Megérkezett a Gemini 3 Flash, a Google új, villámgyors MI-modellje, amely minden eddiginél gyorsabban válaszol, miközben megőrzi csúcskategóriás logikai képességeit...

MA 18:02

A tőzsdecápák Solanára váltanak: ezért hasít a STKE

📈 A Solana (SOL) elképesztő növekedése mellé egyre többen sorakoznak fel, akik könnyedén, tőzsdén keresztül is részesedni szeretnének a sikerből...

MA 17:50

Az év nagy dobása a Samsungtól: érdemes hajtogathatóra váltani?

📱 Felmerül a kérdés, hogy miért fordítja a Samsung egyre nagyobb figyelmét az összehajtható telefonokra, miközben a hagyományos készülékek terén eddig is piacvezető volt...

MA 17:33

Az infláció bezuhant – jöhet a karácsonyi kamatvágás?

🎁 Az Egyesült Királyságban novemberre 3,2%-ra esett vissza az infláció, amely lényegesen alacsonyabb, mint az elemzők által várt 3,5%...

MA 17:18

A pompeii áldozatok gyapjúköpenyeinek rejtélye: miért haltak így meg?

Új kutatások szerint Pompeii áldozatainak egy része vastag gyapjúköpenyt viselt, amikor a Vezúv kitört, annak ellenére, hogy az esemény augusztus végén, általában forró időben zajlott...

MA 17:02

Az adatközpontok valódi ára: ki fizeti az áramot?

Érdemes megérteni, hogy az amerikai szenátorok egyre határozottabban követelik a techcégektől: tegyék világossá, hogyan akarják megakadályozni, hogy adatközpont-projektjeik miatt tovább emelkedjenek az áramárak, különösen ott, ahol a lakosság már most is drágán fizet az energiáért...

MA 16:50

Az agyfejlődés titka: egyetlen génhiba mindent felborít

Régóta foglalkoztatja a kutatókat, miért alakul ki egyes gyerekeknél szokatlanul kicsi agy (mikrokefália)...

MA 16:34

Közeleg az első Apple Silicon-alapú iMac Pro

💻 Hihetetlen, de mégis igaz: az Apple házon belüli szoftverfrissítései ismét felfedték, min dolgoznak éppen Cupertinóban...

MA 16:17

A Tesla bajban: Kalifornia megbüntetné az Autopilot miatt

A kaliforniai Közlekedési Hatóság (DMV) komoly lépésre szánta el magát a Tesla ellen: ha a cég nem hagy fel a félrevezető marketinggel, amely túlhangsúlyozza autói önvezető képességeit, akár egy hónapra is felfüggeszthetik a járművek értékesítését az államban...