A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 06:37

A mesterséges intelligencia mostantól a randizást is megkönnyíti

💖 Az online társkeresők egyik legnehezebb pillanata, amikor fogalmad sincs, mit írj elsőre...

MA 06:31

Az utolsó Park City-i Sundance: sztárparádé, világpremierek, váratlan fordulatok

🎥 Tipikus példája annak, amikor egy fesztivál történelmet ír: a 2026-os Sundance Filmfesztivál az utolsó lesz Park City-ben, és minden eddiginél erősebb, változatosabb programot ígér...

MA 06:22

Az MI már a Spotify-lejátszási listádat is átírja

🎵 A Spotify új bétás funkciója, a Prompted Playlists, végre tényleg átadja a vezérlést a hallgatóknak...

MA 06:14

A mesterséges intelligencia új csodafegyvere: a Qualcomm bekebelezi a Ventanát

A Qualcomm felvásárolta a Ventana Micro Systems-t, amely a RISC-V-alapú processzorok tervezésével vált ismertté...

MA 06:10

Az MI-biztonsági szűrők sosem lesznek megkerülhetetlenek

Ebből következően érdemes megérteni, hogy az MI-alapú rendszerek, például a ChatGPT vagy a Google Gemini, mennyire tehetők biztonságossá...

MA 06:06

Történelmi események a mai napon (December 11.)

Mi történt ezen a napon a történelemben? Erős fordulópontok jelölték ezt a napot: 1941-ben Németország és Olaszország hadat üzent az Egyesült Államoknak, az USA pedig viszonozta; az Apollo 17 lett az utolsó Apollo-küldetés, amely a Holdra szállt; Bernard Madoff letartóztatásával fény derült a pénzügyek egyik legnagyobb csalására...

MA 06:01

A ChatGPT-be költözik a Photoshop – új korszak jön

🧱 Mostantól bárki elérheti az Adobe leghasznosabb képszerkesztő eszközeit a ChatGPT-n belül, és akár egy mondattal is átalakíthatja saját fotóit...

szerda 20:49

A Mars rejtélyes hatása: tényleg alakítja a Föld éghajlatát?

Évmilliók óta váltakoznak a jégkorszakok és melegebb időszakok a Földön, amit bolygónk pályájának és tengelyferdeségének finom változásai irányítanak...

szerda 20:33

A King Gizzard kivonul, MI-klónok lepik el a Spotify-t

🎧 Miután az ausztrál King Gizzard & the Lizard Wizard hangos tiltakozás közepette elhagyta a Spotify-t, a rajongók megdöbbenve tapasztalták, hogy a platform máris MI által generált klónokat kínál helyettük...

szerda 20:19

Az MI-chatbotok csődöt mondanak az öngyilkossági segélyvonalakon

Ez a jelenség jól illusztrálható azzal, hogy egyre többen fordulnak MI-hez lelki problémáikkal, de a legnépszerűbb chatbotok váratlanul rosszul vizsgáztak abban, hogyan reagálnak az önsértési vagy öngyilkossági gondolatokat tartalmazó kérésekre...

szerda 20:02

A lítium trónkövetelője? Berobbanhat a nátrium‑ion akkumulátor

⚡ Tipikus eset, amikor a tudósok egy váratlan áttöréssel rukkolnak elő, amely akár felforgathatja az akkumulátorok piacát...

szerda 19:50

Az eddig mért leghosszabb gammakitörés rejtélye felforgatta az asztrofizikát

🚀 Érdemes megérteni, hogy a gammakitörések (GRB) a világegyetem legnagyobb energiájú robbanásai, mégis megfejthetetlennek tűnnek...

szerda 19:34

A Bluebird-hadművelet Musk bakiját meglovagolva indítaná újra a Twittert

Tipikus eset, amikor egy kihagyott ziccer visszaüthet: egy amerikai startup úgy véli, Elon Musk végzetes hibát vétett, amikor a legendás Twittert X-re nevezte át, és ezzel végleg eltüntette a logót és a márkanevet a térképről...

szerda 19:17

Az új Spiderman adathalász-szolgáltatás Európa bankjait veszi célba

🕵 Egy új, Spiderman nevű adathalász eszköz jelent meg, amely valósághű másolatokat készít több európai bank és kriptopénztárca oldalairól...

szerda 19:01

Az Nvidia már a tartózkodási helyedet is követné: jön a nyomkövető MI‑chip

Az Nvidia új, helymeghatározásra alkalmas technológiát fejlesztett, amely képes megmondani, pontosan melyik országban működnek az MI-chipjei...

szerda 18:49

Az MI-képzés káosza: mindenki mást okol

😕 A munkahelyi MI-képzés nélkül ma már nehéz lenne lépést tartani: az alkalmazottaknak elengedhetetlen megtanulni, hogyan használják a mesterséges intelligenciát anélkül, hogy veszélyben éreznék az állásukat vagy a karrierjüket...

szerda 18:33

A manhattani dugódíj máris kitisztította a levegőt

Januárban indult New Yorkban a dugódíjrendszer, amelyben az autósok csúcsidőben 3500 Ft-ot (kb...

szerda 18:18

A gyenge kód leállítja a gyártást – milliárdos bukó a vége

💥 Meg kell vizsgálni, hogy a gyártóvállalatok miért nem engedhetik meg maguknak a gyenge szoftverfejlesztést, és miért vált kulcskérdéssé, hogy már a fejlesztés során beépüljön a biztonság, ne pedig utólag próbálják meg védeni az elkészült alkalmazásokat...