A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 13:17

A fél internet lebénult: visszafelé sült el a Cloudflare védelme

Ma világszerte leálltak weboldalak és online platformok, sok felhasználó “500 Internal Server Error” üzenettel találkozott...

MA 13:01

Az új rémálom az interneten: virtuális emberrablással zsarolnak

🚦 A bűnözők egyre kifinomultabb módszereket vetnek be, hogy pénzt csaljanak ki emberektől az interneten...

MA 12:49

Az új bálnaszerű termesz: különös jövevény a lombkoronából

A dél-amerikai esőerdők magasában ritka felfedezésre bukkantak kutatók: egy apró, ám lenyűgöző termeszfajt azonosítottak, amely a legendás Moby Dickre (Moby-Dick) emlékeztet...

MA 12:34

Az Amazon új húzásai: most tényleg beindul a szekér?

📦 Az elmúlt hét kiemelkedően mozgalmas volt az Amazon életében, és úgy tűnik, a befektetők izgalmas időszak előtt állnak...

MA 12:19

Az elérhető hifi csábítása: a DALI Kupid polc-hangszórók magukkal ragadnak

🎧 Húsz év tapasztalatával nehéz lenne ellenállni annak az állításnak, hogy a Dali Kupid az egyik legjobb belépő a passzív polc-hangszórók világába...

MA 11:50

Az internet negyede bedőlt egy elhibázott MI-frissítés miatt

Pénteken jelentős hálózati leállás sújtotta a Cloudflare ügyfeleit és a globális internetforgalmat...

MA 11:34

Az új ajánlás eltörölné az újszülöttek hepatitis B oltását

💉 Az amerikai Betegségmegelőzési és Járványügyi Központok (CDC) befolyásos oltási tanácsadó testülete jelentős változást szorgalmaz a hepatitis B vakcina alkalmazási rendjében...

MA 10:57

Az Europol lecsapott egy 270 milliárdos kriptocsaló-hálózatra

🛡 Egész Európán átívelő akcióban csapott le az Europol egy olyan pénzmosó és kriptocsaló hálózatra, amely több mint 700 millió dollárt (kb...

MA 10:43

Kifacsarja a metaverzum kasszáját az MI-szemüveg

A Meta hivatalosan is megerősítette, hogy a Reality Labs fejlesztési keretének egy részét a metaverzumból MI-szemüvegekre és viselhető eszközökre csoportosítják át...

MA 10:29

Az új spanyol sertéspestis-hullám: laborból szökött a vírus?

🐷 Spanyolország sertéságazatát komolyan megrázta az afrikai sertéspestis legújabb kitörése, amelynek okát egyelőre nem ismerik pontosan, de a laboratóriumi baleset lehetőségét sem zárták ki...

MA 10:23

A társasjátékok következő nagy dobása: mi vár ránk?

🎲 A PAX Unplugged minden ősszel a társasjátékos világ egyik legnagyobb eseménye Philadelphiában...

MA 10:16

Az ingyenes fájlmegosztók veszélyesek: gondold meg, mit töltesz le!

⚠ A legtöbben gondolkodás nélkül használják a Dropboxot, a Boxot vagy a WeTransfer ingyenes verzióit fájlok gyors cseréjéhez – legyen szó karácsonyi ajándékötletekről vagy egyéb személyes tervekről...

MA 10:03

Az agy tényleg úgy érti a nyelvet, mint a ChatGPT?

🧐 Fontos kérdés, hogy a nyelv a gondolkodásunk központi eleme, vagy csupán különálló folyamat...

MA 09:58

A frissen felfedezett tűzamőba újraírja az élet határait

Fontos kérdés, hogy hol húzódnak az élet határai a Földön. Különösen igaz ez akkor, amikor szélsőséges körülmények között élő organizmusokat fedeznek fel, amelyek felülírják a tudomány eddigi ismereteit...

MA 09:50

Az új rákgyógyszer váratlan mellékhatása: lassuló öregedés

Egy londoni kutatócsoport váratlan felfedezést tett: egy kísérleti rákgyógyszer, a rapalink-1 nemcsak a daganatos sejtek növekedését lassíthatja, hanem jelentősen meghosszabbíthatja az élesztősejtek élettartamát is...

MA 09:44

Az EU 51 milliárdos bírsággal sújtotta az X-et a megtévesztő kék pipákért

💸 Az Európai Bizottság 120 millió eurós, azaz mintegy 51 milliárd forintos bírságot szabott ki az X-re (korábbi nevén Twitter), mert a közösségi hálózat megszegte az átláthatósági kötelezettségeket a Digitális Szolgáltatásokról szóló rendelet (DSA) alapján...

MA 09:38

Az óriási napfolt fenyeget – lesújt-e ismét a Nap?

Egy hatalmas napfoltcsoport, az AR 4294–4296 most bukkant fel a Nap felszínén, közvetlenül a Föld felé fordulva...

MA 09:29

A Google visszatámad az MI-háborúban: meginog a ChatGPT trónja?

Bár a ChatGPT továbbra is vezeti a mesterségesintelligencia-chatbotok piacát, növekedése az utóbbi hónapokban lassulni kezdett...

MA 09:23

A petesejt megfiatalítható? Itt a termékenységi áttörés

💫 A tudomány újabb lépést tett a nők termékenységének meghosszabbítása felé. Egy különleges, laboratóriumi módszerrel sikerült modellezni az öregedő petesejtekben bekövetkező változásokat...