2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 12:57

Az első bizonyíték a világon: 950 éves dingósír rituális etetéssel

🐱 950 éve temették el azt a házi dingót, amelyet az ősi Barkindji nép tagjai nemcsak elhantoltak, hanem fél évezreden át is tápláltak – legalábbis így értelmezhető az Ausztráliában, a Darling folyó partján most feltárt lelet...

MA 12:46

A szövetségi kormány rohan a MI után – bírja a tempót?

🚀 Az elmúlt három évben látványosan felgyorsult a mesterséges intelligencia alkalmazása az amerikai államigazgatásban...

MA 12:24

A világ első színes lidarja forradalmasítja az önvezetést és a robotikát

🚗 A jövő önvezető járművei és robotjai olyan érzékszervekhez jutnak, amelyekről eddig csak álmodhattak...

MA 12:02

A Vezúv áldozatánál orvosi készlet került elő Pompejiben

Egy friss vizsgálat során kiderült, hogy Kr. u. 79-ben, a Vezúv kitörése idején Pompejiben elhunyt férfi orvosi felszerelést vitt magával menekülés közben...

MA 11:45

A Spotify visszavonul: a zavaró diszkógömb-ikon hamarosan eltűnik

📷 A Spotify iOS-es változatán a napokban jelent meg a retró, diszkógömbös ikon: a változás a cég 20...

MA 11:34

Az Oura Ring 5 három fejlesztéssel trónfoszthatja a Galaxy Ringet

💍 Bár az Oura Ring 4 nemrég jelent meg, és máris az egyik legjobb fitneszkövetőként tartják számon, még mindig akadnak területek, ahol tovább tudna fejlődni...

MA 11:02

A húrelmélet váratlanul bukkant elő egyszerű fizikai szabályokból

🎯 Ha egy almát addig darabolsz, míg legkisebb összetevőit nem éred el, előbb molekulákat találsz, aztán atomokat, majd kvarkokat és gluonokat...

MA 10:55

Az összekapcsolt ökoszisztémák: így hozhatjuk ki a legtöbbet a technológiából

🔗 Ebből következően fontos megérteni, hogy a vállalatok jövője nem azon fog múlni, ki vezeti be a legújabb, trendinek számító platformot, hanem azon, mennyire jól tudják egymáshoz kapcsolni meglévő technológiáikat és partnereiket...

MA 10:47

A kiadási folyamat vakfoltja: négy MI-támadás 50 nap alatt

💡 Az elmúlt másfél hónapban egymás után négy, ellátási láncot célzó támadás érte az MI-ipar legnagyobb szereplőit, köztük az OpenAI-t, az Anthropicot és a Metát...

MA 10:28

Az okosabb mediterrán diéta 31%-kal csökkenti a cukorbetegség kockázatát

🍊 Ez a jelenség jól illusztrálható azzal, hogy a kutatók egy jelentős spanyol vizsgálatban kimutatták: egy továbbfejlesztett mediterrán diéta – szerény kalóriamegszorítással, rendszeres testmozgással és életmódtámogatással kiegészítve – 31%-kal csökkentheti a 2-es típusú cukorbetegség kialakulásának esélyét...

MA 10:02

A problémás tinik ipara belülről: amikor a segítség árt

Taylor Kiesel három éve nem tudta átaludni az éjszakát. Torkaszakadtából kiáltva riad fel, pánikban – mégsem adja fel: gyerekkora óta gyűjtött hüllőkkel veszi körül magát, mentett állatoknak ad otthont, így próbálja átalakítani dühét és szomorúságát valami értelmessé...

MA 09:55

A Sony kihátrál a PC-ről – talán négy játék bánja

😰 Sony egyre szűkülő világa sok játékosnak okoz csalódást. Régen igazi menedék volt a PlayStation a rajongóknak, ma viszont egyre kevésbé ismerős az egész...

MA 09:37

Az NYT Connections kifacsarja az agyad: tippek és megoldások

🧠 Jellemző példa erre, hogy a Connections szórejtvény napokra próbára teszi a leleményességet – a legújabb, 1073...

MA 09:28

A kullancscsípések megugrottak: sokan a sürgősségin, térképen mutatjuk, hol

Az Amerikai Egyesült Államokban évek óta nem látott magasságba ugrott a kullancscsípések száma, ennek következtében idén szinte minden eddiginél többen jelennek meg a sürgősségi osztályokon...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/19

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     ContactVault Pro (iPhone/iPad)A ContactVault egy olyan korszerű névjegymentő alkalmazás, amely a személyes adatok védelmét helyezi előtérbe...

MA 09:01

A szőlő mindennap: természetes napvédelem a bőrnek belülről

🍇 Jelentős, hogy a szőlőfogyasztás nemcsak egészségünkre van hatással, hanem a bőr védelmét is erősítheti a nap káros sugaraival szemben...

MA 08:46

Az idegen romok felkutatása a Subnautica 2-ben: teendők és veszélyek

Erre utal többek között az, hogy a Subnautica 2-ben az idegen romok felderítése valódi próbatételt jelent...

MA 08:37

A mai Quordle-t így győzöd le pillanatok alatt

Négy különböző magánhangzót tartalmaz a mai Quordle, ráadásul két megoldásban ismétlődnek betűk...

MA 08:28

A Diablo 4-nek is sok a 2 401 kincsgoblin

A Diablo IV: A Gyűlölet Ura (Lord of Hatred) legújabb fejlesztései miatt a legelszántabb kincsvadászok teljesen elvesztették a fejüket...

MA 08:20

Az Axum baktériumkultúra megszerzésének titka a Subnautica 2-ben

🧛 A Subnautica 2 világában az Axum baktériumkultúra az egyik legnehezebben hozzáférhető alapanyag, pedig elengedhetetlen, ha Metal Farmot szeretnél építeni...

MA 07:37

A nagybankok milliárdjai új pályára állítják a Solanát

Az év elején a Solana elképesztő tempóban veszítette el mémcoinos címkéjét, miközben a kriptovilágot hűvösebb hangulat uralta...

MA 07:28

Az ezerszer gyorsabb, mégis hűvös chip – még várnunk kell rá

A Tokiói Egyetem kutatói egy egészen új típusú chipet fejlesztettek, amely az információkat a szokásos elektromos áram helyett az elektronok mágneses tulajdonságait felhasználva kezeli...

MA 07:19

A kontextusarchitektúra leváltja a RAG-ot, ahogy az ügynökalapú MI előretör

Az adatvezérelt vállalati megoldások folyamatosan új kihívásokkal szembesülnek, ahogy az MI-alapú ügynökök egyre fontosabbá válnak...

MA 06:55

Az 1200 éves laoszi óriás halálkorsó csontvázak nemzedékeit őrzi

Észak-Laosz titokzatos Korsók Mezején régészek végre egyértelmű választ adtak egy évtizedes rejtélyre: a gigantikus, 1200 éves kőedények valóban temetkezési célt szolgáltak...

MA 06:46

A halálos Ebola-járványt a WHO nemzetközi egészségügyi vészhelyzetté nyilvánította

Különösen említést érdemel, hogy az Ebola-járvány a Kongói Demokratikus Köztársaságban már több mint 100 halálos áldozatot követelt, miközben a feltételezett esetek száma meghaladja a 390-et...

MA 06:19

A Steam kimondta: a Vampire Survivors műfaja hivatalosan Bullet Heaven

A Steam végre hivatalosan is nevet adott annak a játékműfajnak, amely a Vampire Survivors elsöprő sikerével az utóbbi évek egyik legnépszerűbb PC-irányzata lett...

MA 06:06

Történelmi események a mai napon (Május 19.)

Mai időutazás: VIII. Henrik felesége, Anne Boleyn kivégzése, Atatürk partraszállása Samsunban és a Mars 2 indítása egyszerre rajzolja ki a hatalom, a függetlenség és az űrkorszak ívét...

hétfő 21:12

A Discord nagy dobása a Steam Decken, de jön a korellenőrzés?

🚀 Ez a jelenség jól illusztrálható azzal, hogy a Discord Linuxra kiadott legújabb frissítése radikális változásokat hozott a játékosok számára...

hétfő 20:56

A szülésbe majdnem belehalt – Hayden Panettiere megrázó vallomása

Hayden Panettiere új memoárjában őszintén beszél élete egyik legnehezebb időszakáról, amikor kislánya, Kaya születése életveszélyes szövődményekhez vezetett...