2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 14:23

Az EA új pénzcsapdája: már előrendelhető a Battlefield 6 battle pass

A Battlefield 6 népszerűsége gyorsan felszökött a rajt után, ám a lendület csak rövid ideig tartott...

MA 13:56

Az MI árnyékában: Mit osztanak meg a dolgozók valójában?

A brit cégek kétharmada bevallja, fogalma sincs arról, hogy alkalmazottaik milyen adatokat osztanak meg azokon az MI-platformokon, amelyeket hivatalosan engedélyeztek...

MA 13:45

Az új gyógyszer, ami felére vágja a rossz koleszterint

A magas koleszterinszint hosszú távon komolyan károsítja az artériákat, növeli a szívbetegségek kockázatát, és világszerte rengeteg embert érint...

MA 13:02

Az új Cyber Essentials-szabályok veszélybe sodorhatják a közbeszerzéseket

⚠ Érdemes megvizsgálni, hogy mennyire komoly következmények várhatnak azokra a szervezetekre, amelyek nem tartanak lépést a legújabb kiberbiztonsági előírásokkal...

MA 12:56

A legkisebb idei telihold jön – és vele a kék Hold

Egy lényeges szempont, hogy május első teliholdja, a Virághold pénteken, 13:24-kor válik pontosan teljessé, bár ez Észak-Amerikában nappalra esik...

MA 12:45

Az etikátlan hackerképzés ára: így veszítjük el a jövő védőit

🔒 Néhány éve még elképzelhetetlen lett volna, hogy tinédzserek önéletrajzaival telnek meg a dark web fórumai...

MA 12:34

Az idei május legütősebb kütyüi: megszólalnak, villannak, rabul ejtenek

💡 Okostévétől könyvespolci hangfalig, elképesztő, mennyi mindent lehet mostanában a kezedbe venni – vagy inkább bekapcsolni...

MA 12:22

Az intézmények óvatosak: 28 millió forint felett a Bitcoin, valami furcsa készül

Még mindig kitart a lendület: a Bitcoin 1,2 százalékot ugrott ma reggel, így már 77 000 dollárnál (kb...

MA 11:01

Az elhízás nagy fordulata: kiderültek a zsírszövet titkai

🧀 A zsírsejteket régóta egyszerű tartályoknak tartották, amelyekben a szervezet elraktározza a felesleges energiát...

MA 10:57

A kidobott kannabiszlevelek igazi aranybányát rejtenek

A Stellenboschi Egyetem kutatói eddig ismeretlen, igen ritka vegyületeket fedeztek fel kannabiszlevelekben, ami teljesen új megvilágításba helyezi ezt a sokat vitatott növényt...

MA 10:49

A dél-koreai kriptotőzsde-óriás végre fellélegezhet

😅 Dél-Korea egyik legnagyobb kriptotőzsdéje, a Bithumb fontos jogi sikert ért el, miután egy helyi bíróság feloldotta féléves, részleges felfüggesztését...

MA 10:43

A filléres kvantumtörés: Vége a titkosításnak?

⚠ Lezajlott egy forradalmi változás: a titkosítás feltöréséhez szükséges technológia mára húszszor olcsóbb lett, mint korábban gondoltuk...

MA 10:36

A Birodalom legőrültebb hadvezére végre betör a Total War: Warhammer 3-ba

A Total War legfrissebb bemutatóján a Total War: Warhammer 3 egészen új lendületet kapott, izgalmas újításokat jelentettek be – köztük egy várva várt patchet is, amely hamarosan orvosolja a tétlenkedő MI-t és a települések ostromát ellehetetlenítő hibákat...

MA 10:29

A Tizenkét Apostol felemelkedésének igaz története

🚢 Ausztrália híres Tizenkét Apostolának eredete hosszú ideig rejtély maradt, ám most a Melbourne-i Egyetem kutatói végre pontos magyarázattal álltak elő...

MA 10:21

Az ivóvíz tényleg nem véd meg a vesekőtől?

💧 Megvizsgálták, hogy a rendszeres, bőséges folyadékfogyasztás valóban megelőzi-e a vesekövek kiújulását...

MA 10:15

A stressz és az éjszakai nassolás tönkreteszi az emésztésed

🤢 A modern élet hajszája könnyen tönkreteheti a gyomor egészségét – különösen, ha a stresszes nap után még éjjel is eszünk...

MA 09:43

Az iskolai verekedés késelésig fajult Tacomában

🛡 Négy diák életveszélyes sérülésekkel, egy biztonsági őr és maga a támadó pedig könnyebb sebekkel került kórházba a washingtoni Tacoma Foss High Schooljában csütörtök délután történt késelés után...

MA 09:36

Az új Total War: Warhammer 40 000-ben mindent elpusztíthatsz

A Totális háború: Warhammer 40 000 fejlesztői végre megerősítették, hogy a játékban nemcsak az épületek, hanem számos tereptárgy is rombolhatóvá válik...

MA 09:22

A nagyok szerint a Robinhood csak átmenetileg botlik meg

💰 A népszerű tőzsdei alkalmazás, a Robinhood a közelmúltban hullámvölgybe került, miután a vártnál gyengébb első negyedéves eredményeket közölt – elsősorban a kriptokereskedelem visszaesése miatt...

MA 09:15

Az április legvadabb robotjai: öt meghökkentő kedvenc

A robotok egyre inkább a hétköznapjaink részei, minden elképzelhető és elképzelhetetlen helyen felbukkannak...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/1

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy disztópikus túlélőjáték, amelyet George Orwell 1984 című műve inspirált...

MA 09:08

Az OpenAI goblin-tilalma: amikor az MI már túltolja

A mesterséges intelligencia világában néha egészen szürreális problémák bukkannak fel – pontosan ilyen volt az OpenAI híres „goblin-gate” esete is 2026 tavaszán...

MA 08:57

A fejlesztői MI-asszisztensek gyenge pontjai: mindenki a kulcsokra hajt

🔑 Valódi kódoló MI-k sorozatos hibái borzolják a kedélyeket – az elmúlt kilenc hónapban olyan fejlesztői eszközök, mint a Codex, Claude Code, Copilot vagy a Vertex AI, súlyos sebezhetőségeken keresztül váltak támadások célpontjaivá...

MA 08:43

A brit hálózatokat még mindig az elavult technológia kísérti

Érdemes megérteni, hogy az Egyesült Királyságban ezrek működtetnek olyan informatikai rendszereket, amelyek kritikus sebezhetőségeit már több mint tíz éve feltárták...

MA 08:36

Most kapaszkodj: az ügyvéd, aki a Jeopardy!-t is leuralja

Őrület, de tényleg megtörtént: Derek Kaufman, a TMZ saját ügyvédje, este ott virított a Jeopardy!..

MA 07:57

Az új videojáték-óriás felforgatja a megjelenési naptárakat

A nagysikerű Subnautica folytatása végre hivatalos megjelenési dátumot kapott: 2026. május 14-én érkezik a várva várt Subnautica 2...

MA 07:43

Az Alibaba új MI-ügynöke száműzi a felesleges eszközhasználatot

🤖 A mesterségesintelligencia-ügynökök egyik legnagyobb kihívása, hogy mikor használjanak külső eszközöket, és mikor bízzanak saját tudásukban...

MA 07:22

Az ókori római bilik leleplezik: ősi parazita gyötörte az embereket

Az ókori Római Birodalom határán, a mai Bulgária területén feltárt éjjeliedények falán és alján megtapadt vizelet- és székletmaradványok új részleteket tártak fel a rómaiak egészségi állapotáról: ezekből kerültek elő a világ legrégebbi, emberben talált Cryptosporidium parazitájának nyomai...

MA 07:15

Az X1 Neo robotok átvették a gyártósort: önmagukat építik

🤖 A humanoid háztartási robotok elterjedésére még várni kell, hiszen sem a Tesla Optimus, sem a Figure AI modelljei nem kaphatók, míg az 1X 7,1 millió forintos Neo Home robotja is még csak előrendelhető...