A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 08:36

Az újabb Cisco-botrány: hónapok óta kihasználnak egy súlyos sebezhetőséget

🚫 A kínai kormányhoz köthető hackerek több hete támadják a Cisco AsyncOS legsúlyosabb hibáját bizonyos Secure Email Gateway és Secure Email and Web Manager eszközökön, kihasználva egy nulladik napi (0-day) sérülékenységet – a javítás továbbra sincs kilátásban...

MA 08:30

Az álláshirdetések szellemei: így vernek át minket

👻 Az álláskeresők rémálma: egyre több hamis hirdetés Álláskeresés közben nemcsak a versennyel, hanem egyre gyakrabban szellemhirdetésekkel is szembe kell nézni, vagyis olyan pozíciókkal, amelyek valójában már nem léteznek, vagy soha nem is töltötték be...

MA 08:22

Az éhség titkát egy apró fehérje őrzi

🔬 Ami először apróságnak tűnt, mára az elhízás mögött rejlő egyik kulcstényezővé nőtte ki magát: egy eddig rejtve maradt fehérje segíthet megmagyarázni, miért kontrollálják egyesek könnyebben az étvágyukat, míg mások folyamatosan küzdenek a sóvárgással...

MA 08:15

A rejtélyes molekula, amely átírhatja a Down-szindrómás agyműködést

Amerikai kutatók új eredményei szerint egy hiányzó molekula pótlása átalakíthatja a Down-szindrómás agy kapcsolatait – ráadásul még felnőttkorban is...

MA 08:09

A JWST leleplezte az univerzum titokzatos fekete lyukát

💫 A James Webb űrteleszkóp váratlan felfedezést tett: egy ősi galaxison belül talált egy rejtett szupermasszív fekete lyukat, amely átírhatja mindazt, amit a világegyetem legrejtélyesebb jelenségeiről gondoltunk...

MA 08:02

A békák bélbaktériumai, amelyek leszámolnak a daganatokkal

A japán JAIST kutatói meghökkentő felfedezést tettek: kétéltűek és hüllők bélrendszeréből származó baktériumok, egyetlen adagban beadva, teljesen eltüntetik az egerek vastagbélrákját...

MA 07:57

Az OpenAI megnyitotta a ChatGPT-alkalmazásboltot

💻 Az OpenAI újabb lépést tett afelé, hogy a ChatGPT egy mindenre képes alkalmazássá váljon, amely közvetlenül csatlakozik például az Apple Musichoz vagy a DoorDash-hez...

MA 07:43

A legújabb Cisco-hiba miatt kínai hackerek átvették az irányítást

⚠ A Cisco súlyos biztonsági rést fedezett fel Secure Email Gateway (SEG) és Secure Email and Web Manager (SEWM) eszközeiben, amelyeket jelenleg is kihasználnak ismeretlen támadók...

MA 07:36

Az eltűnt Mars-szonda nyomában: a NASA kétségbeesett mentőakciója

🚨 A NASA hetek óta próbál kapcsolatot teremteni a MAVEN Mars-szondával, amely december elején teljesen elnémult...

MA 07:29

Az első citrom alakú bolygó – és ez még csak a kezdet

🍋 Egyedülálló, citrom alakú exobolygót fedeztek fel csillagászok a James Webb-űrteleszkóppal, amely egy sűrű, gyorsan forgó, halott csillag körül kering...

MA 07:25

Az udvar királya: így teljesített a Gozney Dome pizzakemence

👑 Gigászi méret és luxus dizájn A Gozney Dome (Gen 2) és a még nagyobb Dome XL (Gen 2) minden eddiginél komolyabb, professzionális szintű pizzakemence, amely az udvari kemencék világában igazi státuszszimbólum...

MA 07:15

A nagy e-learning összefogás: a Coursera felvásárolja az Udemyt

🎓 A Coursera és az Udemy jelentős egyesülést jelentett be, amelynek értéke közel 900 milliárd forint, vagyis mintegy 2,5 milliárd dollár...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Smoothie-3D (iPhone/iPad)A Smoothie-3D egy felhasználóbarát alkalmazás, amely lehetővé teszi, hogy egyetlen kép körvonalának megadásával saját, egyedi 3D-modelleket hozzunk létre...

MA 07:08

Az AWS-t titokban kriptobányászatra használják a hackerek

Az Amazon AWS GuardDuty szolgáltatása figyelmeztetett: új, folyamatos kriptobányász-kampány használja ki feltört felhasználói fiókokat az Elastic Compute Cloud (EC2) és az Elastic Container Service (ECS) felhőszervereken...

MA 07:02

A világegyetem új különce: bizarr alakú exobolygót talált a NASA

Űrkutatók egy szokatlan, citrom alakú exobolygót fedeztek fel a NASA James Webb-űrteleszkópjával...

MA 06:57

Az első kínai EUV-gép: nyugati technológia kínai gyártásban?

Kínai kutatók egy Shenzhenben fejlesztett új EUV-litográfiai berendezéssel álltak elő, amely akár alapja lehet a jövő mesterségesintelligencia-rendszereit kiszolgáló chipek gyártásának...

MA 06:51

Az Instacart árait már a hatóságok vizsgálják

Az Instacart, az élelmiszerszállítási piac egyik vezető szereplője, komoly nyomás alá került, miután kiderült: az amerikai Szövetségi Kereskedelmi Bizottság (FTC) vizsgálatot indított a cég MI-alapú árazási rendszerével kapcsolatban...

MA 06:44

Az NVIDIA ConnectX-8 C8240 a hálózati kártyák új királya?

Az NVIDIA ConnectX-8 C8240 kétségkívül a SuperNIC kategóriájába tartozik. Ez a hálózati kártya két QSFP112 porttal, valamint PCIe Gen6-os switch-csel rendelkezik, és akár 800 Gbps kétirányú átviteli sebességre képes egy PCIe Gen5-ös szerverben is...

MA 06:37

Az új Bluesky barátkereső nem bombáz meghívókkal

👥 A Bluesky, amely az X és a Threads riválisaként jelent meg a közösségi médiában, most egy olyan barátkereső funkciót vezet be, amelynek középpontjában a felhasználói adatvédelem áll...