A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 18:02

Az amerikai szankciók befagyasztották a 66 milliárd forintnyi USDT-t

🔒 Tether eddig példátlan összeget, több mint 182 millió dollárnyi (kb. 66 milliárd forint) USDT-t fagyasztott be öt Tron-blokkláncú tárcában, miután igazodott az amerikai pénzügyminisztérium szankciós előírásaihoz...

MA 17:50

Az Instagram jelszókáosza és a Veeam súlyos sebezhetőségei

🔒 Ez a jelenség jól illusztrálható azzal, hogy napjaink egyik legnépszerűbb közösségi oldalán, az Instagramon érzékeny felhasználói adatok tömege válhat veszélyeztetetté néhány programhiba miatt...

MA 17:33

Az egészségügy forradalmát hozza el Claude, berobban az MI

💉 Az Anthropic elhozta Claude-ot az egészségügybe, ezzel felveszi a versenyt az OpenAI ChatGPT-jével...

MA 17:20

Az arany újra tarol, a Bitcoin elbukik a menedék próbáján

Különösen igaz ez akkor, ha a gazdasági és politikai feszültségek elérik a csúcspontot: a hagyományos menedékeszközök, mint az arany vagy az államkötvények még mindig legyőzik a Bitcoint...

MA 17:02

Az akváriumok vége? Florida betiltaná a védett tengeri fajok befogását

Tavaly nyáron Floridát bejárta egy felháborodást keltő videó, amelyen férfiak Panama City partjainál egy óriás ördögráját fogtak be – egy szövetségi szinten veszélyeztetett fajt – majd a hajójukra emelték...

MA 16:49

Az MI-tanácsokkal életeket sodort veszélybe a Google

⚠️ A Google nemrég csendben eltávolította az MI Overviews nevű funkcióját bizonyos májvizsgálatokkal kapcsolatos kereséseknél, miután kiderült, hogy a rendszer veszélyes, félrevezető egészségügyi tanácsokat adott...

MA 16:34

A legendás Midas nyomában: az elveszett királysír Törökországban

🪙 Törökország évezredeken átívelő temetkezési halmai mindig tartogattak meglepetéseket, de a nyugat-anatóliai Karaa tumulusz most igazán felkavarta az állóvizet...

MA 16:17

Az új otthoni vércukormérők: megéri váltani?

Érdekes felvetés, hogy már nem kell minden vércukormérésért orvoshoz menni: ma egy megbízható, otthoni vércukormérővel akár naponta is nyomon követheted, hogyan reagál a szervezeted az ételekre és a mozgásra...

MA 16:02

Itt a gluténteszter: a gluténérzékenyek rég várt álma

A gluténérzékenyek számára valódi áttörést jelent a NIMA új generációs kézi gluténérzékelője, amely mostantól rendelhető az interneten...

MA 15:49

Az argentin Patagónia lángtengerben – tombol az erdőtűz

Dél-Argentína egyre súlyosabb erdőtüzekkel küzd: a lángok már több mint 15 000 hektárt pusztítottak el a héten Patagóniában...

MA 15:33

A Microsoft Lens leáll: búcsú a kedvenc PDF-szkennernek

📷 A Microsoft bejelentette, hogy a közkedvelt Lens PDF-szkennelő alkalmazás 2026. február 9-én végleg eltűnik a Google Play Áruházból és az Apple App Store-ból, és ugyanazon a napon a támogatása is megszűnik...

MA 15:19

A legütősebb monitorok csúcsa: ilyen volt a CES 2026

Érdemes áttekinteni, mik a legizgalmasabb újdonságok, amelyeket a Las Vegas-i CES 2026-on mutattak be monitorfronton...

MA 15:02

A jövő pénze? Itt a stabilcoin-fizetések forradalma

A Latin-Amerikában indult VelaFi újabb mérföldkőhöz érkezett: 7,3 milliárd forintnyi (20 millió USD) tőkét gyűjtött be legutóbbi befektetési körében, így összesen már több mint 14,7 milliárd forintot (40 millió USD) sikerült megszereznie...

MA 14:33

Az igazi Wagyu titka: a márványosság genetikai kódja

Ausztrál kutatók minden eddiginél részletesebb szarvasmarha-genomot állítottak össze, amely a Wagyu húsmárványozottságának genetikai hátterét tárja fel...

MA 14:18

Az új anakondát Will Smith fedezte fel

🐍 A 2024-es év nagy meglepetést hozott a tudósoknak: egy eddig ismeretlen óriás anakondát fedeztek fel Dél-Amerikában...

MA 14:02

A nagy amerikai bankok leszámolnak a kriptójutalmakkal

Az amerikai Szenátus előtt álló kriptotörvény kapcsán újabb konfliktus bontakozott ki: a Coinbase látványosan tiltakozik a bankok törekvése ellen, mert megpróbálják kizárólag maguknak lefoglalni a stabilcoin-megtakarítások utáni jutalmak kifizetését...

MA 13:50

Az űr új rejtélye: titokzatos lökéshullám egy halott csillagnál

🛰 Egy halott csillag, az RXJ0528+2838 körül felfedezett különleges lökéshullám alaposan zavarba hozta a csillagászokat...

MA 13:33

Az új Division 3 lehet az év legnagyobb dobása

A Division-sorozat rajongói izgatottan várják, min dolgoznak a Massive Entertainment fejlesztői a Division 3-mal...

MA 13:17

A OnePlus tényleg kukázza a két legjobban várt mobilját?

😱 A OnePlus 2026-ra tervezett két kiemelt készülékét, a OnePlus Open 2-t és a OnePlus 15s-t is törölhette a cég, legalábbis egy megbízható forrás szerint...