A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 06:16

Jön a váltás: az Apple Card kibocsátója a Chase lesz

Az Apple és a Chase közös bejelentése szerint az elkövetkező 24 hónapban a Chase lesz az Apple Card új kibocsátója, miközben a Mastercard marad a fizetési hálózat...

MA 06:06

Történelmi események a mai napon (Január 9.)

Válogatás a történelem mai napjának eseményeiből: birodalmak sorsa dőlt el, háborúk fordulópontjai következtek, és tragédiák rázták meg a világot...

MA 06:03

A James Webb rajtakapta az első szökevény szupermasszív fekete lyukat

Egyedülálló felfedezést tárt fel a James Webb-űrteleszkóp: egy szupermasszív fekete lyuk elszabadult gazdagalaxisából, és közel 3,6 millió km/h sebességgel száguld az űrben...

csütörtök 20:49

A világegyetem első küllős spirálgalaxisára bukkantak

💫 Eddig ismeretlen, több mint 11,5 milliárd éve létező küllős spirálgalaxist fedeztek fel, amely már alig 2 milliárd évvel az ősrobbanás (Big Bang) után kialakult...

csütörtök 20:33

A Rubin Obszervatórium felfedezte a valaha mért leggyorsabb óriásaszteroidát

🚀 A Vera C. Rubin Obszervatórium mindössze hét éjszaka alatt végzett megfigyelései során lenyűgöző felfedezés született: sikerült azonosítani egy hatalmas, rekorddöntő aszteroidát, amely elképesztő sebességgel forog...

csütörtök 20:18

Az űrszemét-bomba ketyeg: három nap múlva jön a káosz?

💥 A műholdak rohamosan közelednek egymáshoz a Föld körül, és sosem voltunk még ilyen közel egy katasztrofális ütközési láncreakcióhoz...

csütörtök 20:02

Az Android 17-tel végre elrejtheted a privát értesítéseket

🔒 Az Android 17 várhatóan komoly lépést tesz a magánszféra védelmében: végre natív alkalmazászár funkcióval érkezhet...

csütörtök 19:33

A BlackBerry visszatér: teszten a Clicks Communicator

Lényeges szempont, hogy a régi BlackBerry-rajongók újra örülhetnek: megjelent egy olyan okostelefon, amely a fizikai billentyűzet élményét hozza vissza a modern Android világába...

csütörtök 19:17

Az emberiség 60 ezer éve mérgezett nyílhegyekkel vadászott

Új kutatások szerint az emberek sokkal hamarabb kezdték mérgezett nyílhegyeket használni, mint azt korábban gondolták – az eddigi legrégebbinek hitt, 6800 éves példányok helyett már 60 ezer évvel ezelőtt is használtak ilyen halálos fegyvereket Dél-Afrikában...

csütörtök 19:01

A Copilot már a vásárlásra is rábeszél

A Microsoft új funkcióval bővíti Copilot chatbotját: mostantól közvetlenül a beszélgetés során lehet vásárolni, anélkül, hogy külön webshopokra vagy boltokra lenne szükség...

csütörtök 18:50

Az MI-támadások végtelen körforgása: a ChatGPT ismét adatokat szivárogtat

🕵 Bár a nagy nyelvi modellek, mint a ChatGPT, látványos fejlődésen mentek keresztül az elmúlt években, a biztonsági kihívásokkal továbbra is küzdenek...

csütörtök 18:34

Az akihabarai bolt kétségbeesetten könyörög régi PC-kért: mindenből kifogytak

💻 Tokió híres elektronikai negyedében, Akihabarában most már szó szerint kincset érnek a régi PC-k...

csütörtök 18:17

Az MI-verseny új fejezete: a Marvell felvásárolta az XConn‑t

A Marvell nagy dobással jelentkezett: megvásárolta az XConn Technologies-t, ezzel két kulcsfontosságú technológiai területen is előrelépett...

csütörtök 18:01

Az OpenAI elleni perben Musk beszáll a harcba

Elon Musk, a világ leggazdagabb embere és az OpenAI egyik társalapítója, most bíróságon harcol a ChatGPT fejlesztői ellen, mert szerinte a csapat megszegte eredeti nonprofit küldetését, amikor profitorientált vállalattá alakult...

csütörtök 17:49

A perzselő ausztrál hőség újabb pusztító bozóttüzekkel fenyeget

Ausztráliát most olyan hőhullám sújtja, amely súlyos bozóttüzek kitörésével fenyeget, miután a hőmérséklet az ország délkeleti részein több helyen is 40 °C fölé emelkedett...

csütörtök 17:34

Az akkumulátorok újrahasznosítása a jövőnk záloga

🔋 Hihetetlen, de igaz, hogy az életünk egyre nagyobb részét akkumulátorok hajtják – legyen szó a zsebünkben lapuló okoseszközről, vagy éppen adatközpontokról, katonai rendszerekről, mikrohálózatokról...

csütörtök 17:17

Az új Volvo EX60 644 km-t megy, és villámgyorsan tölt

🚗 A hónap végén mutatkozik be a Volvo legújabb elektromos SUV-je, az EX60, amely több úttörő megoldást hoz a villanyautók világába...

csütörtök 17:03

Az MI-modellek egyre inkább ugyanúgy látják a világot

👁 Érdemes megvizsgálni, miként érzékeli és dolgozza fel a valóságot az MI az emberi agyhoz hasonlóan...

csütörtök 16:49

Az Exchange Online megint döcög: leáll az IMAP4-es levelezés

📦 A Microsoft újabb leállással küzd az Exchange Online-ban, amely miatt sok felhasználó nem tudja elérni postafiókját IMAP4-en keresztül...