2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

szombat 21:56

A jövő nyakörve: így változtatja meg a kedvencek gondozását

Az új, Ausztriában és Seattle-ben fejlesztett okos nyakörveknek köszönhetően sosem volt ilyen egyszerű odafigyelni kutyánk vagy macskánk egészségére – akkor is, ha nem tudnak szólni, mi bántja őket...

szombat 21:46

A nagy középkategóriás párbaj: iPhone 17e vs OnePlus 15R

Az iPhone 17e igazi közönségkedvenc lett, ami nem is csoda: végre egy olyan középkategóriás Apple-mobil, ami miatt nem érzi magát senki másodosztályúnak...

szombat 21:12

Az egyik legnépszerűbb JavaScript-könyvtár kritikus hibája veszélybe sodorja a szervereket

🚨 A Google Protocol Buffers JavaScript-implementációja, a protobuf.js komoly biztonsági rést tartalmaz, amelyen keresztül támadók távoli kódvégrehajtást érhetnek el...

szombat 21:02

Az új Pixel-varázs árnyoldala: miért csúszik a frissítési ígéret?

💬 Nem hagyható figyelmen kívül, hogy a kezdetekben az egyik legnagyobb érv a Pixel telefonok mellett az volt, hogy a készülékek hosszú távon megkapták a legújabb funkciókat...

szombat 20:56

A mosogatószivacs észrevétlenül milliárdnyi mikroműanyagot enged a vízbe

Ilyen eset például az, amikor egy hétköznapi mosogatás során a varázsszivacsként ismert melaminszivacsokat használod...

szombat 20:47

A teljes Google Photos-élményhez ezek a funkciók kellenek

Egy lényeges szempont, hogy a Google Photos évről évre egyre népszerűbb, köszönhetően a felhasználóbarát kezelésnek és a felhőalapú tárolás kényelmének...

szombat 20:35

Az MI-pánik az egyetemekre tereli a fiatalokat

Erre utal többek között az, hogy az elmúlt időszakban meredeken nőtt a továbbtanulási szándék a fiatal felnőttek körében, még olyan gazdasági környezetben is, ahol folyamatosan bővül a munkaerőpiac...

szombat 20:24

Az Exynos visszatérése: Megérte a Samsungnak az AMD-vel szövetkezni?

⚡ A Samsung évek óta küzdelmes utat járt be az Exynos lapkakészleteinek fejlesztésével...

szombat 20:12

A koffein turbózza a hangyák agyát, átírhatja az irtást

🐛 Felmerül a kérdés, hogy mennyi meglepetést tartogat még a természet, amikor akár a hétköznapi koffein is képes megváltoztatni egy egész hangyakolónia működését...

szombat 19:56

Az első mérések szerint tízezer Nap erejével tombolnak a fekete lyukak sugárnyalábjai

A friss kutatási eredmények alaposan felborították az eddigi elképzeléseket arról, mire képesek a fekete lyukakból kiáradó jetsugarak...

szombat 19:46

A hasnyálmirigyrák új reménye: az elraglusib áttörést hozhat

💫 A hasnyálmirigyrák az egyik legnehezebben kezelhető daganatos betegség, többek között azért, mert a korai stádiumban ritkán ismerik fel...

szombat 19:37

Az El Greco-rejtély: Meglepő válaszokkal állt elő a mesterséges intelligencia

💡 Érdemes megvizsgálni, valóban megoldotta-e az MI El Greco egyik legrejtélyesebb festményének titkát...

szombat 19:24

Az MI végre pénzt hoz? Így kaszál vele a Salesforce

💰 Az elmúlt évben a cégek többsége abban reménykedett, hogy az MI nemcsak hatékonyabbá teszi folyamataikat, de jelentős megtakarítást is hoz...

szombat 19:12

Az ősi körtemplom rejtélye: vízrituálék nyomában Egyiptomban

🛹 Ez a jelenség jól illusztrálható azzal, hogy a régészek egy ritka, tökéletesen kör alakú szentélyre bukkantak, amelyet a helyi istenség tiszteletére emeltek mintegy 2 200 évvel ezelőtt...

szombat 19:01

Az angolszász testvérpár tragédiája: végre fény derült egy 1400 éves titokra

🔍 Egy különleges, kettős angolszász temetkezés feltárása során derült ki, hogy 1400 évvel ezelőtt egy tizenéves lány és hét-nyolc éves öccse együtt talált örök nyugalomra egy közös sírban a délnyugat-angliai Cherington mellett...

szombat 18:57

Az álruhás zsarolóvírusok új fegyvere: a QEMU

🛡 A Payouts King nevű zsarolóvírus egyre kifinomultabb módszerrel támadja a vállalati rendszereket: a támadók a nyílt forráskódú QEMU emulátort használják arra, hogy rejtett virtuális gépeket futtassanak a megfertőzött számítógépeken...

szombat 18:45

Itt a Cloudflare Agent Memory: az MI többé nem felejt

🛠 A korszerű MI-modellek egyik láthatatlan akadálya, hogy véges az a mennyiségű adat, amelyet egyszerre képesek figyelembe venni...

szombat 18:35

Az ember evolúciója gyorsul, közben híznak a jegesmedvék

🐻 Ezen a héten a tudomány olyan megfigyelésekkel jelentkezett, amelyek a legmerészebb elképzeléseinket is felülmúlják...

szombat 18:23

Az óriás drón, amely 120 kilométeren át pilóta nélkül szállított friss teát

Hihetetlen, de igaz, hogy egy kínai fejlesztésű, kéttonnás, pilóta nélküli drón idén tavasszal sikeresen szállított frissen szedett tealeveleket Guizhou hegyvidékén át...

szombat 14:03

Tényleg élt a legendás Artúr király?

🤴 Arthur király történetei mindenki számára ismerősek: a Kerekasztal lovagjai, titokzatos küldetések és lenyűgöző csaták...

szombat 13:47

Az MI-ügynökök forradalmasítják Kína kereskedelmét

Kezdetben a digitális vásárlás személyes választásokra és emberi döntésekre épült. Napjainkban azonban Kína online piacain egyre inkább átadják a feladatokat önállóan működő MI-ügynököknek, amelyek nemcsak ajánlatokat tesznek, hanem teljes tranzakciókat bonyolítanak le a felhasználók helyett – gyakorta úgy, hogy ők maguk már a kijelzőt sem érintik...

szombat 13:35

Mit kapsz 9 millió forint alatt az elektromos autók használtpiacán?

Néhány éve még elképzelhetetlen lett volna, hogy 9 millió forintból (kb...

szombat 13:03

Az MI-tanító botokat mostantól tényleg te irányítod

Tipikus eset, amikor egy fejlesztői platform rosszul dokumentált, elavult információkat tartalmaz, és ezek az adatok rendre bekerülnek a mesterséges intelligenciát betanító rendszerek tudástárába is...

szombat 12:57

Az okos alakzatok végre tökéletesre csiszolhatják a Kindle Scribe-ot

Sokan várták már azt a fejlesztést, amely a Kindle Scribe készüléket a digitális jegyzetelők élvonalába repítheti: mostantól lehetőség van okos alakzatok használatára, amelyek azonnal szép, szabályos formát adnak a vázlatoknak...

szombat 12:46

Az iPhone 17 véget vet a középkategóriás Androidoknak?

📱 A jelenlegi gazdasági helyzetben az emberek egyre inkább az „elég jó” elv mentén döntenek, amikor okostelefont választanak...

szombat 12:34

A dalosmadarak veszedelmes titka: így írják át az agyunkat

Az emberi test folyamatosan megújul: a vörösvértestek négyhavonta, a bőr és a bél nyálkahártyájának sejtjei néhány nap vagy hét alatt teljesen kicserélődnek...

szombat 12:24

A valódi veszély: kilenc perc alatt lenyúlhatják a bitcoinodat?

🔒 A bitcoin védelmi rendszere eddig megoldhatatlannak tűnő matematikai rejtvényeken alapul, de a kvantumszámítógépek megjelenése mindent átírhat...

szombat 11:57

Az ötven felettiek titkos fegyvere lehet a kitörés

💪 Érdemes megérteni, hogy a modern fitneszipar által kínált bonyolult gépek, hosszú futópados edzések vagy trendi kondibérletek nem feltétlenül kínálják a legjobb megoldást annak, aki erős és egészséges szeretne maradni ötvenéves kor felett...

szombat 11:46

A kerékpáros biztonság nagy áttörése: apró, mégis zseniális kütyü

🚲 Például amikor egy komoly bringás baleset után újragondolod, hogyan navigálsz a városban biciklivel, hamar rájössz, hogy a kormányra szerelt okostelefon nem a legbölcsebb választás...