A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 12:33

Az újévi fogadalmak ideje lejárt – jöhet a szerencsekártya!

A január minden évben tiszta lappal kecsegtet. Elengedheted a múlt hibáit, és úgy érezheted, hogy idén végre új ember leszel, új szokásokkal és jó szándékkal...

MA 12:18

Az új HP ZBook X G1i: a profik hordozható erőműve

Érdemes megvizsgálni, hogy a HP ZBook X G1i mennyire hozza elérhető közelségbe az asztali munkaállomások erejét akár egy hátizsákban is...

MA 12:02

A mesterséges intelligencia már 50 ezret küldött utcára 2025-ben

💀 A 2025-ös évben az elbocsátások mindennapossá váltak az amerikai munkaerőpiacon, és a mesterséges intelligencia (MI) egyre gyakoribb indokként jelent meg az állások megszűnése során...

MA 11:50

Az Elf leckéje: így őröl fel minket a megélhetés

Felmerül a kérdés, hogy mennyibe kerülne ma Buddy, a Mi a manó?..

MA 11:34

Az MI-botrány az Indie Game Awards-on: elvették a díjakat a Clair Obscurtól

A Sandfall Interactive nagy sikerű, kritikusok által elismert RPG-je, a Clair-obscur: 33...

MA 11:02

Az amerikai alap kiszáll a Sportradarból: miért most?

🏆 A kaliforniai székhelyű Global IMC jelentősen csökkentette részesedését a Sportradar Group AG-ben, több mint 7 millió dollár (kb...

MA 10:57

Végleg vége az olcsó Steam Deck korszakának

💸 A Steam Deck-rajongók számára rossz hír, hogy a Valve beszüntette az utolsó megfizethető, LCD-s modellt is...

MA 10:39

Az év rejtett gyöngyszemei: játékok, amikről lemaradtál

💎 2025-ben a videojáték-ipar elképesztő mennyiségű címet ontott magából, de szinte lehetetlen mindenre odafigyelni...

MA 10:32

Az inka kőcsodák titkai: így emelték fel a birodalmat

Az inka civilizáció építőművészetét évszázadok óta rejtély övezi. A mai Peru, Ecuador, Bolívia, Chile és Argentína területén elterülő, több mint tízmillió lakosú inka birodalom hivatalosan az 1500-as években bekövetkezett spanyol hódításig uralta a térséget...

MA 10:17

A 2025-ös társasjátékrobbanás legizgalmasabb újdonságai

🎲 A társasjáték-rajongók számára 2025 a nehézségek ellenére is kiemelkedő év lett – a vámok alaposan felforgatták a piacot, de így is rengeteg kiváló cím jelent meg...

MA 09:43

A Switch 2 olcsóbb kazettáinak titka kiszivárgott?

🔑 A Nintendo következő konzolja, a Switch 2 várhatóan olcsóbb fizikai játékkazettákat kaphat, legalábbis erre utalt egy korai, idő előtt törölt bejegyzés egy retro játékokkal foglalkozó kiadótól, az ININ Games-től...

MA 09:37

Az új Dogpile: Tetris, Balatro és kiskutyák őrült találkája

A Dogpile egy meglepően friss játék, amely ötvözi a pakliépítős stratégiát, a match-3 mechanikát, a roguelike hangulatot és persze rengeteg aranyos kutyát...

MA 09:22

Az okos kosár titka: így lesz egészséges a bevásárlás

Az egészséges táplálkozás egyik kulcsa, hogy tudatosan vásárolj az élelmiszerboltban. Egyre többen esküsznek arra a bevált módszerre, hogy elsősorban a bolt peremén keresd az alapanyagokat...

MA 09:16

Az Apple nyit, de vasmarokkal fogja az iPhone-okat Japánban

Az Apple jelentős módosításokat jelentett be a japán iOS-rendszerben, hogy megfeleljen a Mobil Szoftver Versenytörvénynek (MSCA)...

MA 09:08

A mesterséges intelligenciás autók elárasztották San Franciscót – káosz a sötétben

🚗 San Franciscót december 20-án hatalmas áramszünet bénította meg, aminek következtében a Waymo önvezető autói egyszerűen leálltak az utakon...

MA 09:02

Az Ozempic-láz kincsvadászata: a turkálás új aranykora

💎 Tíz éven át vadásztam arra a kabátra, amilyet Winona Ryder visel a Furcsa dolgok (Stranger Things) első évadában...

MA 08:59

Az igazi távcsőpárbaj: melyik Celestron 10×42 a nyerő?

A hobbifelfedezők és természetjárók szinte mind találkoztak már a 10×42-es távcsövekkel...

MA 08:36

A RansomHouse új titkosító trükkökkel riogatja az áldozatokat

Az ismert RansomHouse zsarolóvírus-csoport nemrég komoly fejlesztéseken esett át: eddigi egyszerű titkosítási eljárása helyett most egy összetettebb, többrétegű titkosítási módszert alkalmaz...

MA 08:29

A műanyagválság elharapózik – ideje lépniük a kormányoknak!

A műanyagszennyezés világszerte egyre csak nő, miközben a globális műanyag-egyezményről szóló tárgyalások évek óta elakadtak...