2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 17:39

A végső VPN-teszt: Kiderül, szivárog-e bármi?

Bárhonnan böngészel is, a VPN használatával biztonságban szeretnéd tudni a személyes adataidat és az online tevékenységedet...

MA 17:01

A kaliforniai erdőtüzek füstje növelheti az autizmus kockázatát

🌳 Érdekes felvetés, hogy Dél-Kaliforniában az erdőtüzek által okozott légszennyezés összefüggésben lehet a gyermekek autizmusának gyakoribb diagnosztizálásával...

MA 16:55

Az új hőseink: a doomscrolling ellen harcoló influenszerek

Egy-egy Instagram-görgetés könnyen hosszúra nyúlhat, akár észrevétlenül is elveszíthetünk fél órát, miközben csak tíz perc szünetet akartunk tartani...

MA 16:37

Az MI-háború új frontja: reklámözön vagy tiszta élmény?

💬 Az OpenAI az Egyesült Államokban már elkezdte tesztelni a hirdetéseket a ChatGPT-ben, akár ingyenesen, akár havi 2900 forintos Go-előfizetéssel használod...

MA 16:21

Az Alphabet nagy dobása: két MI-sztár veszik át a CapitalG vezetését

Ilyen eset például, amikor egy kosárlabdacsapatban minden este más játékos nyeri meg a meccset, mert a háttérből előlép valaki, akire addig senki sem figyelt...

MA 16:02

Az Amazon-vezér kételkedik az MI-lufi sikerében

Az MI-forradalom felforgatja az üzleti világot, de még az óriásoknál is érezhető a bizonytalanság – Andy Jassy, az Amazon vezérigazgatója például elismeri, hogy az MI-piac jelenlegi felfutása könnyen véget érhet...

MA 15:39

Az űrszonda leleplezte a Nap óriáskitöréseinek titkát

🚀 A Nap felszínén tomboló gigászi robbanások, azaz a napkitörések lélegzetelállító energiájú jelenségek, amelyek nemcsak csillagunkat, de a Föld körüli technológiát is befolyásolhatják...

MA 15:20

A hegyek vészesen gyorsan melegszenek az Alpoktól a Himalájáig

A világ hegyei sokkal gyorsabban melegszenek, mint azt korábban gondoltuk. Az utóbbi évtizedekben a hegységek hőmérséklete évente átlagosan 0,21 Celsius-fokkal gyorsabban nőtt, mint az őket körülvevő sík területeké...

MA 15:02

Az OpenAI már fizet az energiáért, és csökkenti vízfogyasztását

Az OpenAI új ígéretet tett: adatközpontjai saját maguk fedezik energiafelhasználásuk költségeit, és a vállalat lépéseket tesz a vízhasználat minimalizálására...

MA 14:56

Az óriásbankok felforgatják a londoni elit béreit

💸 Az utóbbi hónapokban jelentős változás indult el a brit bankvilágban: a JPMorgan és a Citigroup vezetői most azt fontolgatják, hogy megvágják – vagy akár teljesen megszüntetik – a magas beosztású brit munkatársaik fix juttatásait...

MA 14:19

A női bélfájdalom titkos kulcsa az ösztrogén?

A nők gyakrabban, ráadásul súlyosabb formában tapasztalnak bélfájdalmat, mint a férfiak – ebben pedig az ösztrogén lehet a ludas, legalábbis egy új egérkísérlet szerint...

MA 14:01

Az 5G meghódítja a stadionokat: mostantól mindenki VIP

🏆 A zsúfolt stadionokban vagy arénákban mindig akad egy probléma: amikor igazán elindul a buli, a mobilhálózat gyakorlatilag használhatatlan lesz...

MA 13:56

A középkor legendás szuperhajója bukkant fel Dánia partjainál!

⚓ Búvárok egy hatalmas középkori hajóroncsot fedeztek fel Dánia partjai mellett, Koppenhágánál, az Öresund szorosban...

MA 13:39

Az axolotl, a világ új kedvence: így lett sztár

Ebből következően érdemes megérteni, miért lett az axolotl az utóbbi idők egyik legnépszerűbb kedvence és kulturális ikonja, miközben saját élőhelyén már-már kihalófélben van...

MA 13:20

Az apró szokások éveket adhatnak az életedhez

💪 Az életmód kis lépései gyakran drámaibb hatással lehetnek egészségünkre, mint gondolnánk...

MA 13:01

A Netflix új aranybányája: a hirdetések milliárdokat termelnek

2025-ben a Netflix hirdetésekből elképesztő, 570 milliárd forintot (1,5 milliárd USD, azaz kb...

MA 12:55

Az OpenAI mostantól megtippeli, hány éves vagy

🕵 Az OpenAI új korfelismerő modellt vezet be a ChatGPT-be, amely képes megtippelni, hány éves a felhasználója, és szükség esetén biztonsági korlátozásokat alkalmazhat, hogy megakadályozza a tinédzserek általi visszaéléseket...

MA 12:37

Az új csodabeton a levegőből szívja ki a szén-dioxidot

🌧 Az építőipar forradalmát hozhatja el a Worcester Polytechnic Institute fejlesztése: az új anyag, az Enzimatikus Szerkezeti Anyag, röviden ESM (Enzymatic Structural Material), erősebb, tartósabb és tisztább, mint a hagyományos beton – miközben nem szennyezi a levegőt, hanem épp ellenkezőleg: kivonja belőle a szén-dioxidot...

MA 12:19

A ChatGPT bekeményít: szigorú szűrés a kiskorúak védelmében

A ChatGPT új védelmi rendszert vezet be világszerte, amelynek célja, hogy a 18 év alatti felhasználók minél kevesebb káros vagy érzékeny tartalomhoz férjenek hozzá...