A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 18:02

Az óriás, ami egy pickupnál is nagyobb: új dinoszaurusz Thaiföldön

Mintegy 125 millió évvel ezelőtt a mai Thaiföldön egy óriási, halakat fogyasztó ragadozó dinoszaurusz járta a folyókat...

MA 17:50

Az idő előtti nyugdíj 55 évesen: tényleg megéri kiszállni?

Érdemes megvizsgálni, valóban jobb-e a megszokott 62 éves kor helyett már 55 évesen elbúcsúzni a munka világától...

MA 17:36

A Disney újra trónon: visszatért a kasszák királya

Megvizsgálva a világ mozipiacát, látható, hogy még mindig jóval elmarad a pandémia előtti időszaktól, ám a Disney-nek mégis sikerült egyedülálló rekordot elérnie: az első stúdió lett 2019 óta, amely átlépte a 6 milliárd dolláros (kb...

MA 17:17

Az állam bekeményít: jönnek a figyelmeztető címkék a közösségi oldalakon

⚠ New York állam kötelező figyelmeztető címkéket vezet be a közösségimédia-platformokon, amelyek a felhasználókat a mentális egészségre leselkedő veszélyekre figyelmeztetik...

MA 17:02

Az amerikaiak túlélő üzemmódban: megélhetési válság szorítja őket

Kezdetben az infláció, majd az élelmiszer- és lakhatási árak emelkedése csak apróbb bosszúságnak tűnt, de mára valódi válsággá nőtte ki magát, amely az amerikaiak többségét sújtja...

MA 16:50

Az A törvény nevében új évada érkezik – mit tudunk?

🔮 A A törvény nevében (True Detective) rajongói fellélegezhetnek: hivatalosan is készül az ötödik évad...

MA 16:34

A modderek új menedéke: érkezik a GGMods

🛠 Érdemes megvizsgálni, merre tart a videojátékokhoz készült modok világa, hiszen a GGMods 2029...

MA 16:18

Az időskori nyugdíjpara vége: így pótold a hiányzó milliókat

Egy 73 éves arizonai nő, Robin, nyilvánosan beszélt arról, hogy nincs sem 401(k)-nyugdíjszámlája, sem jelentős megtakarítása, miközben több mint 4,4 millió forintnyi (12 000 USD) diákhitelt görget maga előtt, mégis lakásvásárlást tervez a következő három éven belül...

MA 16:02

Az okosszemüvegek nagy visszatérése: ezeket vedd meg most

Az okosszemüvegeket néhány éve még futurisztikus kütyüknek tartották, de ma már egyre fejlettebb, praktikus eszközökké váltak, amelyek segítenek a kommunikációban, navigációban, fitneszkövetésben, filmezésben vagy épp játékban...

MA 15:49

Az új Grubhub-csalás csábító tízszeres bitcoinos visszatérítést ígér

💸 Furcsa üzenetek lepték el a Grubhub-felhasználók e-mail-fiókját: a látszólag hivatalos címről küldött levelek azt ígérték, hogy ha a megadott bitcoin-pénztárcára utalnak, az elküldött összeg tízszeresét kapják majd vissza...

MA 15:19

Az emberré válás titkai: 2025 döbbenetes felfedezései

🧠 A 2025-ös év számtalan döbbenetes felismerést hozott őseink múltjából. Többségük modern DNS-vizsgálatokra és ősi genomok elemzésére épült, így sikerült új megvilágításba helyezni a hárommillió éves emberi történelmet...

MA 15:02

A Galaxy S26 műholdas áttörést hoz, brutál játékélménnyel – az árak egyelőre titokban

📿 A Samsung vadonatúj Galaxy S26 modelljei számos izgalmas fejlesztést hoznak a várakozások szerint, de egyvalamit továbbra is sűrű homály fed: az árakat...

MA 14:49

A védelem kulcsa: gondolkodj úgy, mint egy hacker

A kiberbűnözők legyőzéséhez nem elég a hagyományos védelem – ugyanúgy kell gondolkodni, mint ők...

MA 14:33

A Nap titka: tényleg csak egy törpecsillag?

☀ A Nap hatalmas, legalábbis a Földhöz és a többi bolygóhoz képest...

MA 13:49

Az offline tárolás visszatért: megjött a 40 TB-os mágnesszalag

📦 A Fujifilm új, 40 TB natív kapacitású mágnesszalagja forradalmi lépést jelent az archiválásban...

MA 13:17

A multik híznak, a kicsik elsorvadnak

Amerika legnagyobb vállalatai tombolnak a tőzsdén: a mesterséges intelligencia (MI) és az egekbe szökő profit rekordokat döntenek, míg a kisvállalkozások egyre nehezebb helyzetbe kerülnek...

MA 12:49

Az OpenAI nagy dobása: reklámok lephetik el a ChatGPT-t

📢 Az OpenAI komoly változást készít elő: a tervek szerint a ChatGPT-ben hamarosan megjelenhetnek a szponzorált tartalmak, vagyis fizetett hirdetések kerülhetnek a válaszok közé...

MA 12:34

Az Egyesült Királyság MI-nagyhatalmi álma: tényleg itt az áttörés?

🇬🇧 Amikor az Egyesült Királyság elindította nagyszabású MI-stratégiáját, Keir Starmer miniszterelnök célja az volt, hogy az ország az MI egyik globális élvonalává váljon...

MA 12:17

Az év játékpokolja: a végtelenbe fulladó PromptQuest

A Microsoft nemrégiben újra elővette a legendás Zork szöveges kalandjátékot, de már nem puszta nosztalgiával tekintek rá...