2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

szerda 20:55

A szuperbaktériumok rémálma: mesterségesen tervezett vírusok

A tudósok áttörő módszerrel, mesterséges úton terveznek és állítanak elő baktériumokat támadó vírusokat (bakteriofágokat), hogy legyőzzék az antibiotikum-rezisztens baktériumokat...

szerda 20:38

Az emberiség legősibb sziklaművészete jóval megelőzte Európát

Egy lényeges szempont, hogy Indonézia délkeleti részén, Sulawesi szigetén bukkantak rá a világ eddig ismert legidősebb sziklarajzára: legalább 67 800 éves kéznyomat díszíti a barlang falát...

szerda 20:22

A HP Pavilion x360 14: Megéri a súlyát?

Megemlíthető továbbá, hogy a 2-in-1 laptopok sosem voltak még ilyen népszerűek: a HP Pavilion x360 14 pedig egy stílusos, kicsit robusztus, de meglepően sokoldalú, táskában könnyen hordható PC, amit leginkább napi irodai és multimédiás feladatokra találtak ki...

szerda 20:01

Az élet csírái az űr hideg sötétjében is kialakulhatnak

🚀 Ebből következően érdemes megérteni, hogy az élet vegyi alapanyagai elképzelhetően jóval a bolygók kialakulása előtt készen állnak az univerzumban...

szerda 19:55

Elfogyott a pénz az űrkutatás tanácsadóinál

💸 A NASA váratlanul megszünteti több, független bolygótudományi tanácsadó csoport anyagi támogatását – derült ki egy január 16-án közzétett hivatalos levélből...

szerda 19:38

A felelőtlen tesztappok könnyen utat nyitnak a hackereknek

⚠ Fortune 500-as cégeknél és nagy technológiai beszállítóknál tömegesen nyitnak kiskaput a nem megfelelően beállított biztonsági tesztalkalmazások...

szerda 19:20

Az óceán mélye vagy a profit? Trump a bányászatot pártolja

🚤 Az amerikai Trump-kormányzat újabb, sokak szerint meggondolatlan lépést tett: megkönnyíti az utat a mélytengeri bányászat előtt, és ezzel a világ óceánjainak mindeddig érintetlen tartalékait teszi elérhetővé a nagyvállalatoknak...

szerda 19:01

A YouTube hadat üzen az MI-szemétnek

Neal Mohan, a YouTube vezérigazgatója éves beszámolójában bemutatta a platform 2026-os terveit, amelyekben nagy szerepet szán a mesterséges intelligenciának, miközben határozottan fellép az úgynevezett MI-szemét, vagyis a gyenge minőségű MI-tartalmak ellen...

szerda 18:55

Az erdő fénye: amit csak a szarvasok látnak

🌲 Hajnalban és alkonyatkor az erdőben sétálva az emberek szemének gyakran minden egyhangúnak, szürkének tűnik...

szerda 18:39

Az állatok titkos iránytűje: így tájékozódnak a világban

🐾 A világ távoli zugaiban, például egy apró indiai-óceáni szigeten, hat denevér indult útnak, miközben agyukba ültetett apró eszközök információkat sugároztak vissza a kutatóknak...

szerda 18:19

Az epaulettecápa felrúgja a természet szaporodási szabályait

🦈 A James Cook Egyetem kutatói meglepő felfedezést tettek az epaulette cápákkal (járó cápa, walking shark) kapcsolatban: ezek az állatok képesek párosodni és petéket rakni anélkül, hogy energiafelhasználásuk mérhetően növekedne...

szerda 18:01

Az autós Pwn2Ownon egymás után törték fel a Teslákat

A Pwn2Own Automotive 2026 hackerverseny első napján minden rekord megdőlt: összesen 37 eddig ismeretlen sebezhetőséget (zero-day-t) használtak ki a résztvevők, a főnyereményt pedig a Tesla infotainment rendszerének (Infotainment System) feltörése hozta el...

szerda 17:56

Az MI-forradalom következő felvonása: a vezetők Davosban üzletelnek

💰 A svájci Davos idén szokás szerint mozgalmas, de most különösen érezhető a feszültség, mivel a Trump-kormányzat is megérkezett a Világgazdasági Fórumra...

szerda 17:39

A végső VPN-teszt: Kiderül, szivárog-e bármi?

Bárhonnan böngészel is, a VPN használatával biztonságban szeretnéd tudni a személyes adataidat és az online tevékenységedet...

szerda 17:01

A kaliforniai erdőtüzek füstje növelheti az autizmus kockázatát

🌳 Érdekes felvetés, hogy Dél-Kaliforniában az erdőtüzek által okozott légszennyezés összefüggésben lehet a gyermekek autizmusának gyakoribb diagnosztizálásával...

szerda 16:55

Az új hőseink: a doomscrolling ellen harcoló influenszerek

Egy-egy Instagram-görgetés könnyen hosszúra nyúlhat, akár észrevétlenül is elveszíthetünk fél órát, miközben csak tíz perc szünetet akartunk tartani...

szerda 16:37

Az MI-háború új frontja: reklámözön vagy tiszta élmény?

💬 Az OpenAI az Egyesült Államokban már elkezdte tesztelni a hirdetéseket a ChatGPT-ben, akár ingyenesen, akár havi 2900 forintos Go-előfizetéssel használod...

szerda 16:21

Az Alphabet nagy dobása: két MI-sztár veszik át a CapitalG vezetését

Ilyen eset például, amikor egy kosárlabdacsapatban minden este más játékos nyeri meg a meccset, mert a háttérből előlép valaki, akire addig senki sem figyelt...

szerda 16:02

Az Amazon-vezér kételkedik az MI-lufi sikerében

Az MI-forradalom felforgatja az üzleti világot, de még az óriásoknál is érezhető a bizonytalanság – Andy Jassy, az Amazon vezérigazgatója például elismeri, hogy az MI-piac jelenlegi felfutása könnyen véget érhet...