2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 21:45

A Subnautica 2 hátborzongató lenne, ha végre csendben maradna

🦈 A Subnautica 2 bemutatja, milyen is az, amikor valaki igazán egyedül marad egy idegen világban...

MA 21:34

A világ legősibb sziklarajza 67 800 éves? Inog a bizonyíték?

Fontos kérdés, hogy mennyire megbízhatóak azok az eredmények, amelyek szerint a világ legősibb barlangrajzainak kora akár 67 800 év...

MA 21:22

Péntek estére gyengül a bitcoin, Warsh átveszi a Fed irányítását

📈 Ez a jelenség jól illusztrálható azzal, hogy péntek délután a kriptodevizák árfolyama csendben csúszik lefelé, miközben a tőzsdék egyelőre kitartanak...

MA 21:12

Az Einstein–Rosen-híd felfedheti az idő rejtett tükrét

Felmerül a kérdés, hogy valóban kaput nyit-e Einstein féreglyuka az univerzum különböző pontjai között, vagy inkább egy sokkal izgalmasabb és kevésbé megfogható jelentést hordoz...

MA 20:56

A Riot új rendszere 2 milliós papírnehezékké teszi a csaló hardvereket

A videojátékosok és a csalók közötti küzdelem új fordulatot vett. A fejlesztők eszköztára egyre bővül, de a csalók is évről évre új módszerekkel próbálkoznak...

MA 20:23

Az elavult B12-ajánlások az agyadra is veszélyt jelenthetnek

💡 Az időskorúak egészségesnek tűnő B12-vitaminszintje mögött lappanghatnak agyi károsodások és romló gondolkodási képességek...

MA 20:12

A fókakölykök rejtélyes halála mögött: kannibál fókák a Sable-szigeten

Évtizedeken át rejtély övezte a Sable-sziget fókakölykeit sújtó különös haláleseteket. Az Atlanti-óceán északkeleti részén, Új-Skócia partjaitól nem messze fekvő szigetről folyamatosan jelentettek elpusztult fókakölyköket, testükön hátborzongató, spirális sebekkel...

MA 19:55

A milliárdosklubban már Messi is Beckham oldalán, Inter Miamival

Érdemes megvizsgálni, hogyan vált Lionel Messi a világ egyik legsikeresebb futballista-befektetőjévé alig három év alatt az Egyesült Államokban...

MA 19:45

A D&B 642 milliós cégadatbázisát újraépítette az MI-ügynököknek

💻 Közel két évszázados munka eredményeként a Dun & Bradstreet (D&B) kialakított egy hatalmas, világszerte 642 millió céget lefedő üzleti adattárházat...

MA 19:34

A foci-vb-re készülve ez az 5 tévéfunkció számít

A foci-világbajnokság közeledtével sokan döntenek úgy, hogy érdemes új, nagyobb vagy jobb minőségű tévét beszerezni...

MA 19:23

Az IREN társalapítója: Az MI-t az infrastruktúra fogja vissza, nem a chipek

A világ MI-fejlesztési láza töretlen, ám a növekedés igazi akadálya már nem a chipek elérhetősége, hanem a fizikai infrastruktúra...

MA 19:12

Az új Modern Warfare mindent visz: soha nem látott élmény jön

Hivatalosan is visszatér a Modern Warfare-sorozat – az Activision bejelentette, hogy a következő Call of Duty-játék egy meghatározó, új epizód lesz, amelyet az Infinity Ward fejleszt...

MA 19:01

A nagy fordulat: a marhahús nem növeli a cukorbetegség kockázatát

Az Egyesült Államokban több mint 135 millió felnőtt szenved 2-es típusú cukorbetegségben vagy tartozik a veszélyeztetettek közé...

MA 18:56

A Spotify új AI-ja engedélyezett, fizetett remixeket és feldolgozásokat generál

Érdemes megvizsgálni, hogy a Spotify egy olyan új eszközt fejleszt, amellyel a felhasználók mesterséges remixeket és feldolgozásokat készíthetnek kedvenc dalaikból...

MA 18:34

A hétköznapi ételek rejtett rákkeltő vegyszerei leleplezve

Első pillantásra talán egészségesnek tűnik minden, ami a tányérodon van, hiszen figyelsz a napi mozgásra, a kalóriákra, és szívesen válogatsz zöldségekből, gyümölcsökből...

MA 18:23

A fogyasztói bizalom rekordmélyen májusban, az iráni háború szítja az inflációs félelmeket

Májusban többéves mélypontra zuhant a fogyasztói bizalom, miközben az amerikai–iráni háború és a magas olajárak miatt egyre többen tartanak az árak újabb emelkedésétől...

MA 16:22

Az Ark Invest négy nap alatt 12,5 millió dollárért Bullish-részvényt vett

Miközben a digitális eszközök árfolyama hetek óta hullámzik, az Ark Invest ismét kihasználta az alkalmat, hogy megerősítse pozícióját a kriptoszektorban...

MA 16:12

A Microsoft orvosolta az eltűnő Windows 11-asztal gondját: jön a javítás

Az utóbbi hetekben sok Windows 11-felhasználó találkozott különös hibákkal: az asztal teljesen eltűnt, a tálca megfagyott, a Fájlkezelő (File Explorer) vagy a Feladatnézet (Task View) akadozott, vagy éppen egyáltalán nem válaszolt...

MA 16:01

Az ősi kémiai trükk új üveget hoz: CO2-t és hidrogént fog be

🧠 Az üveggyártás múltjából ismert trükköt a jövő szolgálatába állították a kutatók, akik egy új típusú üveget fejlesztettek ki, amely képes megkötni a szén-dioxidot és a hidrogént...

MA 15:56

A mesterséges intelligencia gyorsabban ontja a sérülékeny kódot, mint javítani tudnánk

A vállalatok egyre gyakrabban engednek át hibás, ismerten sebezhető kódot az éles rendszerekbe, és mára ez a hozzáállás szinte általánossá vált...

MA 15:45

A Nereid kilóg a sorból: a James Webb kulcsa a Naprendszerhez

Neptunusz története évmilliárdokkal ezelőtt kezdődött, amikor a bolygó még épp csak kialakult a Naprendszerben...

MA 15:34

Az MI utoléri az emberi gondolkodást? Kutatók szerint csak mintázatokat magolt.

💡 Bár a tudományos világot megrázta egy tanulmány, amely azt állította, hogy egy haladó nyelvi modell képes az emberi gondolkodás pontos szimulálására, most mindez más megvilágításba került...

MA 15:23

A Steam Controller töltője állandóan áram alatt – egy érintés is ráz

⚠ A modern vezeték nélküli kontrollerek egyre magasabb árat képviselnek, de az extra költségekért cserébe általában kényelmes töltőrendszert is kínálnak – például a Steam Controller mágneses töltőtalpát...

MA 15:12

A 11 legjobb hűtőláda a kánikulára, egykori szabadtéri rovat szerkesztőjének ajánlásával

🍺 A nyári kalandokhoz elengedhetetlen egy jó hűtőláda, legyen szó tengerparti kirándulásról, baráti grillezésről vagy parkbeli piknikezésről...

MA 15:01

A Dune: Awakening szakít az MMO-val – új irányt vesz

🌙 A Dune: Awakening fejlesztői úgy döntöttek, végre tiszta vizet öntenek a pohárba a játékmenet műfaját illetően...

MA 14:56

Az Ebola tombol: lángokban áll egy kongói egészségügyi központ

Az északkelet-kongói Bunia városa közelében fekvő Rwampara településen helyiek gyújtottak fel egy egészségügyi központot, miután nem engedték, hogy egy elhunyt ismerősük holttestét hazavigyék temetésre...

MA 14:45

Az altcoin-rotáció felpörög, a Bitcoin sávban ragadt

📈 Lényeges szempont, hogy a kriptopiac legnagyobb sztárjai, a Bitcoin és az Ethereum, gyakorlatilag semmit sem változtak az elmúlt napokban, szűk sávban mozogva...

MA 14:34

A tudósok áttörése: gyógyszerek és műtét nélkül múlhat az ízületi fájdalom

Lényeges szempont, hogy a mozgással járó ízületi fájdalom a 40 év feletti felnőttek csaknem negyedénél megnehezíti a mindennapokat, és jelentős oka a felnőttkori mozgáskorlátozottságnak...

MA 14:23

Az Nvidia csillagászati ára: egy Vera Rubin rack 2,8 milliárd Ft

Senki sem várta volna, hogy ekkora összeget kérjenek egyetlen szerverrackért, de az Nvidia Vera Rubin VR200 NVL72 rendszer ára minden eddigit felülmúl...