2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 09:50

A század leglátványosabb sarki fénye: napvihar rázta meg a Földet

🌈 Az elmúlt éjszaka a Föld mágneses mezejét az elmúlt 23 év egyik legerősebb napvihara érte el, amely élénk sarki fényeket váltott ki az Egyesült Államokban, sőt egészen Dél-Kaliforniáig is eljutott az égi látványosság...

MA 09:41

Megérkezett a VoidLink: a mesterséges intelligencia már kártevőt is ír

A VoidLink nevű, frissen felfedezett felhőalapú kártevő-keretrendszer fejlesztése mögött egyetlen embert sejtenek, aki MI-modellel gyorsította fel a munkát...

MA 09:33

A védvonalon rés tátong: kritikus hiba a Cloudflare WAF-ban

⚠ A Cloudflare szakemberei egy komoly biztonsági hibát javítottak ki a cég webalkalmazás-tűzfalában (WAF), amely lehetőséget adott támadóknak arra, hogy megkerüljék a tűzfalat, és közvetlenül elérjék az eredeti szervereket...

MA 09:26

Az RSV tombol: áttörések a csecsemők védelmében

😷 Az RSV, vagyis a légúti óriássejtes vírus újra felfutóban van, és különösen a kisgyerekek körében terjed gyorsan...

MA 09:18

Az áttörhetetlen kvantumszámítógép leleplezve: súlyos biztonsági rések

A kvantumszámítógépek forradalmasíthatják a gyógyszerkutatást, az üzleti elemzéseket, sőt, teljes iparágakat is átalakíthatnak...

MA 09:09

A Netflix mobilalkalmazás vadonatúj külsőt kap

📱 A Netflix idén teljesen megújítja mobilos felületét, hogy az a következő években is korszerű maradjon, és igazodjon a cég egyre bővülő tartalmi kínálatához...

MA 09:01

Az új Netflix-app olyan, mint a TikTok, csak vörösben?

A Netflix új, teljesen átdolgozott mobilalkalmazást tervez, hogy lépést tartson a YouTube, a TikTok és az Instagram által uralt mobilos videónézéssel...

MA 08:58

A kontinensek vándorlása több klímakatasztrófát okoz, mint gondoltuk

Bolygónk történelme során hatalmas klímaváltozásokon ment keresztül. A Föld hol fagyos, hol szinte trópusi állapotok között ingadozott, az úgynevezett „jégkorszaki” és „üvegházi” időszakok során...

MA 08:41

Az MI áttörést hozhat Afrikában: a Gates–OpenAI új programja

Megemlíthető továbbá, hogy a Gates Alapítvány és az OpenAI közös erővel, 18 milliárd forintnyi (50 millió dollár) támogatással elindították a Horizon1000 nevű kezdeményezést, melynek célja, hogy 2028-ig ezer afrikai alapellátó egészségügyi rendelőt szereljenek fel MI-eszközökkel...

MA 08:33

A fiatalok legnagyobb félelme az MI – mások vállat vonnak

Az új kutatások szerint a Z generáció tagjai félnek leginkább attól, hogy az MI elveszi a munkájukat, annak ellenére, hogy a technológiát a legügyesebben használják...

MA 08:26

Az MIT új MI-keretrendszere átírja a játékszabályokat a szövegértésben

🧠 A Massachusetts Institute of Technology kutatói vadonatúj megközelítést dolgoztak ki, amellyel a mesterségesintelligencia-alapú nyelvi modellek akár tízmillió szavas szövegeken is képesek hatékonyan dolgozni...

MA 08:19

Az évszázados rejtély: két titokzatos forma átírja a geometria törvényeit

Képzeld el, hogy a Földet soha nem láttuk volna felülről, és az égben vastag, áthatolhatatlan felhőréteg borult volna fölénk...

MA 08:03

Az egészségesebb szívért: 9 egyszerű mindennapi szokás

Érdemes megérteni, hogy a szív- és érrendszeri betegségek továbbra is a vezető haláloknak számítanak Magyarországon, ahogy világszerte is, hiszen csak az Egyesült Államokban minden 34...

MA 07:49

A Parkinson-kór új gyenge pontja: lelepleztek egy rejtett fehérjét

Tudósok feltárták, hogyan gyorsít fel egy alattomos fehérjekapcsolat az agysejtek pusztulását a Parkinson-kórban, és már most olyan célzott terápián dolgoznak, amely képes lehet visszafordítani ezt a folyamatot...

MA 07:41

Az ACF súlyos hibája veszélybe sodorja a WordPress-oldalakat

Egy kritikus sérülékenység miatt hackertámadások érték több mint 50 000 WordPress-oldalt, amelyek az Advanced Custom Fields: Extended (ACF Extended) bővítményt futtatják...

MA 07:33

A Helix-köd sosem látott pompában: tarol a Webb-felvétel

A Helix-köd az egyik legismertebb és legtöbbet fotózott planetáris köd, főként jellegzetes gyűrűs formája miatt...

MA 07:25

Az új Trump-tarifák földindulást okoztak a kriptópiacon

💰 Jó példa erre, amikor egyetlen politikai bejelentés hullámokat vet a pénzügyi piacokon — most éppen a kriptovilág volt a legnagyobb vesztese...

MA 07:17

Az univerzum szeme: lélegzetelállító új Webb-kép a Helix-ködről

👀 Néha nem árt kikapcsolni, és a világegyetem vizsgálata épp ideális menedék lehet...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/21

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     30 day Fitness Coach at home (iPhone/iPad)A 30 Day FITNESS coach at home App egy ingyenes alkalmazás, amellyel otthon, 30 nap alatt fejleszthetők a hasizmai...