2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 18:01

Az űrnél hidegebb hűtők tartják életben a kvantumszámítógépeket

A csillogó arany csillárra hasonlító szerkezet, amely mostanában a kvantumszámítógépek emblémája lett, valójában egy brutális hűtőszekrény...

MA 17:57

A mindennapok láthatatlan szikrái: az elektrosztatikus töltés titkai

Az elektrosztatikus jelenségeket mindenki ismeri: ha lufit dörzsölsz a hajadhoz, a hajszálak szétállnak, vagy egy szőnyegen végigsétálva apró kisülésekkel sokkolsz másokat...

MA 17:45

Az Insilico és az Eli Lilly óriásüzlete: jönnek az MI-gyógyszerek

Tipikus példa arra, amikor az MI nemcsak gyorsít, hanem új szintre emeli a gyógyszerkutatást: az amerikai gyógyszeróriás, az Eli Lilly, 1000 milliárd forintos (2,75 milliárd USD) szerződést kötött a hongkongi Insilico Medicine-nel, hogy világszerte elérhetővé tegyék a mesterséges intelligencia által fejlesztett gyógyszereket...

MA 17:34

Az agyvérzés rejtélyes fiatalító ereje: új esély az agynak?

Érdemes megérteni, hogy az agyvérzés nem csupán pusztít: meglepő módon elindíthat egyfajta fiatalító folyamatot az agyban...

MA 17:24

Ha kialszik a Nap: mi vár az emberiségre?

☀ A Föld története összeforrt a Nappal: ez a forró, hatalmas gömb ad állandó meleget és fényt, formálja az éghajlatot és a vizek körforgását...

MA 17:12

Az osztrákok szigorítanak: 14 év alatt tiltott a közösségi média

🚫 Minden eddiginél radikálisabb húzásra készül Ausztria: most tényleg el akarja tiltani a 14 év alattiakat a közösségi média használatától...

MA 17:01

Az Apple TV-sek kiakadtak: a Netflix tényleg elrontotta az appot

🗴 A Netflix legújabb frissítése alaposan felborzolta az Apple TV-t használók kedélyeit...

MA 16:56

Az eldobható kesztyűk meghamisítják a mikroműanyag-méréseket?

A mikroműanyagok kutatása közben gyakran használt nitril- és latexkesztyűk jelentősen torzíthatják a laboreredményeket – legalábbis ez derül ki a Michigani Egyetem friss vizsgálatából...

MA 16:45

Az önjavító űrkamerák forradalma: túlélés a Jupiter poklában

🚀 Felmerül a kérdés, hogyan működhetnek hosszú távon űrszondák kamerái egy olyan extrém sugárzású környezetben, mint a Jupiter körüli térség...

MA 16:36

Az igazság nyomában: amikor a hazugságvizsgáló is téved

🔎 Érdemes megvizsgálni, miként vált a poligráf, azaz a hazugságvizsgáló, az igazság utáni hajszában ikonikus, mégis ellentmondásos eszközzé...

MA 16:24

Az Android egérrel csúnyán elhasal: továbbra sincs rendes Vissza-gomb

Lassan, de biztosan érik az Android átalakulása: a rendszer már most is egyre asztalibb, fejlettebb ablakkezeléssel, egyre jobb többablakos funkciókkal, és mindennel, ami egy mindennapos számítógéphez kell – legalábbis papíron...

MA 14:02

Az iOS 26.4 végre valódi újdonságokkal turbózza fel az iPhone-t

Az iOS 26.4 érkezésével az Apple ismét számos frissítéssel lepte meg az iPhone‑felhasználókat...

MA 13:57

A Rák-köd látványos metamorfózisa új titkokat tár fel

A Rák-köd, a Földtől 6500 fényévre lévő, a Bika csillagképben található szupernóva-maradvány az elmúlt 25 évben jelentős változásokon ment keresztül a Hubble űrtávcső felvételei tanúsága szerint...

MA 13:46

A nagy rejtély: miért éhezünk meg füvezés után?

🍲 A kannabisz egyik legismertebb mellékhatása a hirtelen, szinte megállíthatatlan farkaséhség. Ez a jelenség annyira erőteljes, hogy rendszeres használat mellett még azok is extra mennyiségű kalóriát vihetnek be, akik egyébként jóllakottak...

MA 13:34

Az olcsó napenergia forradalma: itt a valódi energiaváltás

☀ Az elmúlt húsz évben a napenergia bővülése messze túlszárnyalta a várakozásokat...

MA 12:02

Az elnöki app, amire senki sem várt

Az új hivatalos Fehér Ház-alkalmazás elérhetővé vált az App Store-ban és a Google Playen, és azt ígéri, hogy közvetlen kapcsolatot teremt a Fehér Házzal...

MA 11:34

A csokirablás, amely felkavarta Európát: 12 tonna KitKat tűnt el nyomtalanul

Olaszországból indult útnak egy rakomány KitKat, egész pontosan 12 tonna, vagyis nagyjából 413 800 szelet csoki, hogy aztán valahol Lengyelország felé végleg eltűnjön...

MA 11:24

Az Anthropicot lehagyják a kínai MI-óriások

📈 Az MI-ipar egyre élesebb versenyben működik, amelyben az Anthropic, a Claude modellek fejlesztője jelenleg komoly nehézségekkel küzd...

MA 11:02

Az USA világméretű egészségügyi vészhelyzetet robbanthat ki

Erre utal többek között az, hogy Donald Trump elnökké választása óta az Egyesült Államok drasztikus lépéseket tett a globális egészségügyi együttműködések leépítésére...

MA 10:45

Az amerikai VTuberek már arénákat töltenek meg

🎭 A Los Angeles-i esti meccsen a Milwaukee Brewers öt–háromra vezet a Dodgers ellen, amikor egy váratlan fordulat mindenkit meglep: a stadion főképernyőjén nem egy élő előadó, hanem Gawr Gura, a Hololive egyik virtuális sztárja jelenik meg, és énekelni kezdi a Take Me Out to the Ball Game dalt...

MA 10:37

Az andalúz üvegháztenger: Spanyolország óriási zöldségkertje az űrből is látszik

Különösen említést érdemel, hogy Dél-Spanyolországban, Andalúziában húzódik Európa zöldségkertje, amelyet műholdról is könnyen észre lehet venni...

MA 10:29

Az Apple diadala: két garázssráctól a techvilág trónjáig

👑 Például ma már elképzelhetetlennek tűnik a világ az Apple eszközei nélkül, pedig minden egy kaliforniai külvárosi garázsban kezdődött...

MA 10:22

Az elképesztő brazil táj, ami sivatagnak látszik, de nem az

🏔 Lençóis Maranhenses Brazília északkeleti partvidékén található, 1500 négyzetkilométeren elterülő nemzeti park, amely fehér homokdűnéiről és a bennük időszakosan kialakuló lagúnákról híres...

MA 10:15

Az OpenAI hatalmi játszmája: ki a valódi főnök?

Megáll az ész, milyen tempóban átalakul az OpenAI világa! Alig dobta piacra az MI‑videóalkalmazását, máris újabb óriási átszervezésen esett át a cég, amely konkrétan megrengeti az alapokat...

MA 10:08

Az önuralom titka: fejlődj fájdalommentesen, erőlködés nélkül

Vágyakozol arra az új videojátékra, de közben küzdesz, hogy lejjebb tornászd a hitelkártya-tartozásodat?..

MA 09:43

Az Öböl megkerülhető: üzemel Szaúd-Arábia napi 7 millió hordós vezetéke

Szaúd-Arábia kelet–nyugati olajvezetéke immár teljes kapacitáson, napi 7 millió hordóval működik, ami kulcsfontosságú mérföldkő az ország hosszú távú energiapolitikájában...

MA 09:15

Az édesítőszer, amely észrevétlenül veszélyezteti az agyad egészségét

Az alacsony szénhidráttartalmú jégkrémektől, keto fehérjeszeletektől a “cukormentes” üdítőkig számos népszerű élelmiszer tartalmaz eritritet...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 3/29

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Super Investor (iPhone/iPad)Az SEC által közzétett jelentések részletes és hiteles információkat szolgáltatnak a vállalatok pénzügyi helyzetéről, valamint működésükről...

MA 09:01

A pénzügyi vitáktól félsz? Lehet, hogy nincs igazad!

Egy párkapcsolat működésének komoly próbája az anyagiak kezelése. Sok pár éppen olyan problémákkal küzd, mint az adósság rendezése, a lakásvásárlás vagy a közös háztartás vezetése...