2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 12:56

Az áttörés az ínygyulladás ellen: a jó baktériumok megkímélve

😃 A szájban állandóan több száz baktériumfaj él együtt, folyamatos kommunikációban egymással...

MA 12:45

A Zcash egy hónapon belül kvantum-visszaállítható pénztárcákat indít, 2027-re kvantumbiztos

Különösen igaz ez akkor, ha a digitális pénzügyek jövőjét nézzük: hamarosan alapjaiban változhat meg, ahogyan a kriptovaluták biztonságát kezeljük...

MA 12:34

A világegyetem legnagyobb fekete lyukai erőszakos összeolvadásokban születhetnek?

💫 A tudósok új bizonyítékokat találtak arra, hogy a Világegyetem legnagyobb fekete lyukai nem egyszerűen magányos csillagok összeomlásából jönnek létre...

MA 12:01

Az orvosok figyelmeztetnek: a biotin megzavarhatja a rákkezelést

Sokan remélik, hogy a rákkezelések után visszanyerhetik hajukat, ezért szívesen fordulnak különféle étrend-kiegészítőkhöz, például a biotinhoz...

MA 11:01

Miért nehéz eladni a perp DEX-eket az intézményeknek?

📈 A nagyobb intézményi befektetők hiányoznak a perp DEX-ek (folyamatos határidős szerződéseket kínáló decentralizált tőzsdék) világából, miközben bitcoint és más jelentős tokeneket egyre inkább ETF-eken és központosított tőzsdéken keresztül vásárolnak...

MA 10:57

A RuPaul’s Drag Race All Stars 11: hol nézheted, 18 királynő küzd

🎭 Nézzük, mennyire pörgős évadra számíthatunk, hiszen május 8-án érkezik RuPaul legújabb All Stars évada...

MA 10:50

A Giro d’Italia 2026 ingyen: streamelés és teljes tévékalauz

🎬 2026 májusában ismét minden a kerékpározás körül forog, amikor elrajtol a Giro d’Italia, a szezon első háromhetes körversenye...

MA 10:43

Az univerzum titka: a folyadékok áramlása átírhatja az élet eredetét

🌊 A londoni Queen Mary Egyetem kutatói egészen új fényben vizsgálják az univerzum kialakulását és az élet lehetőségeit...

MA 10:29

A korallzátonyok titkai, amelyek forradalmasíthatják az orvoslást

🦈 Nehéz elhinni, de a tenger mélyén megbújó korallzátonyok valódi molekuláris kincsesbánya, amelyet eddig alig fedeztünk fel...

MA 10:22

A 3I/ATLAS üstökös sosem látott vizet hoz Naprendszerünkbe

💧 A tavaly felfedezett 3I/ATLAS üstökös egy ritka intersztelláris látogató, amely olyan távolról érkezett, ahonnan csak kevesen jutnak el Naprendszerünkbe...

MA 09:29

A tojás akár 27%-kal csökkentheti az Alzheimer-kór kockázatát

Érdemes megvizsgálni, hogy milyen tényezők hatnak az időskori agyműködésre, és miként lehet a demencia kialakulását megelőzni...

MA 09:16

A NASA Curiosityja robotkarján ragadt marsi kővel egy hétig küzdött

Tipikus eset, amikor egy látszólag egyszerű feladat váratlanul komoly akadállyá válik: a NASA Curiosity marsjárója egy egész héten át küzdött, hogy megszabaduljon egy makacs kőtől, amely a robotkar végére szorult...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/8

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Voxaro (iPhone/iPad)A Voxaro egy innovatív alkalmazás, amely valós időben alakítja át a beszédet jól szerkesztett, tiszta szöveggé...

MA 09:08

Az MI-ügynökök megoldhatják a kripto felhasználói gondjait?

💻 A kriptovilágban régóta visszatérő probléma, hogy a digitális pénztárcák és a stabilcoinok használata sokak számára még mindig nehézkes, és csak kevesen találták meg bennük a mindennapi pénzügyi élet valódi értelmét...

MA 09:02

Az univerzális Apple Watch-kábel, amit felesleges kütyünek hittem, utazáskor nélkülözhetetlen

🚀 A hosszú évek alatt megszokott útitársaim közé tartoznak a különböző töltők és kábelek, hiszen repülős üzleti utakra vagy akár néhány órás autózásokra mindig vinnem kell minden eszközöm töltőjét...

MA 08:57

Az újabb amerikai–iráni feszültség padlóra küldte a Bitcoint

💸 A kriptovaluták piacán ismét erős hullámzás tapasztalható: a Bitcoin árfolyama gyorsan visszaesett a 29,5 millió forint (79 000 dollár) körüli szintre, miután az Egyesült Államok csapást mért iráni célpontokra...

MA 08:50

Az ausztrálok hajnali háromkor csaphatnak le a Steam Controllerre

Erre utal például az, hogy az új Steam Controller pillanatok alatt elfogyott Ausztráliában, a keddi megjelenését követően...

MA 08:36

A következő stabilcoin-boomot a nagyvállalatok és az MI-ügynökök vezetik

🥇 A stabilcoinok világa teljesen új korszakba lép: multinacionális cégek egyre szélesebb körben használják határokon átnyúló pénzmozgásokhoz, miközben a mesterséges intelligenciával működő ügynökök is önálló kifizetéseket hajtanak végre a blokkláncon...

MA 08:29

A Kobo új, bohókás tokjai gyönyörűek, de hol az új hardver?

A 2026-os New York-i BookCon rendezvényen mutatta be a Kobo legújabb limitált szériás tokjait, amelyek színes és játékos dizájnnal hívják fel magukra a figyelmet...

MA 08:08

A Sakana 7B-je vezényli a GPT-5-öt, Claude-ot és Geminit

💻 A Sakana AI kutatói áttörő megközelítéssel új alapokra helyezték az MI-modellek együttműködését...

MA 08:02

Az új MI három évvel előbb azonosítja a hasnyálmirigyrákot, mint az orvosok

🧠 Fontos kérdés, hogy a hasnyálmirigyrákot mikor sikerül felfedezni, hiszen ez életet menthet...

MA 07:57

Az amerikaiaknak globális kriptólikviditást hozna a Binance.US újjáélesztése

💰 Fontos kérdés, hogy mikor férhetnek hozzá ismét az amerikai felhasználók a globális kriptovaluta-piac legjobb áraihoz...

MA 07:43

Az on-chain adatvédelem és elszámoltathatóság kéz a kézben járhatnak

🔑 A blokklánc-technológia világa egyszerre kínál teljes átláthatóságot és kihívásokat a felhasználói magánélet területén...

MA 07:37

Az MI új korszaka: a ZAYA1-8B, a takarékos áttörés

⚡ Ebből következően érdemes megérteni, hogy a mesterséges intelligencia világában az óriási, egyre nagyobb modellek mellett egyre nagyobb figyelmet kapnak azok a fejlesztések, amelyek a kisebb, hatékonyabb és széles körben elérhető megoldásokra építenek...

MA 07:28

A brazil fa lehet a COVID–19 elleni új csodafegyver

🌱 brazil kutatók egy őshonos fa leveléből származó természetes vegyületeket azonosítottak, amelyek több fronton támadják a COVID–19-et okozó vírust...

MA 07:22

A bíróságon csap össze Taylor Swift és a vegasi showgirl

💪 Taylor Swift újra bíróság előtt találja magát, ezúttal egy Las Vegas-i revütáncosnő miatt, aki azt állítja, hogy az énekesnő ellopta az Egy showgirl vallomásai (Confessions of a Showgirl) márkát...

MA 07:01

Az önvezető teherautó, amely sofőr és fülke nélkül megdöbbentette a fuvarozóipart

Egy kaliforniai start-up, a Humble Robotics mutatta be a Humble Haulert, amely minden eddigi elképzelést felülmúl azzal, hogy teljesen vezetőfülke nélkül képes szállítani árut...

MA 06:57

Az abszurd GameStop–eBay történet: a vezért eBay-ezésért tiltották ki, majd visszaengedték

A GameStop vezérigazgatója, Ryan Cohen egészen szokatlan fordulatokat produkált, amikor eBay-felvásárlási tervei kapcsán bizarr akcióba kezdett: játékosokat célzó relikviákat és sportritkaságokat kezdett el árulni az eBay-en – állítólag azért, hogy finanszírozza magát a felvásárlást...

MA 06:50

A Coinbax 20 ezer dollárt kaszált a Consensus Miami PitchFesten stablecoin-megfelelésért

A Consensus Miami konferencián a Coinbax zsebelte be a 7,2 millió forintos fődíjat, miután bemutatta azt a szoftvert, amely jelentősen egyszerűsítheti a stabilcoin-tranzakciók megfelelőségi ellenőrzését...