2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

hétfő 21:56

A nagy vita: kell-e megmosni a rizst főzés előtt?

🍚 A rizs több milliárd ember mindennapi tápláléka világszerte, elkészítése kapcsán azonban rengetegen vitáznak: meg kell-e mosni főzés előtt, vagy felesleges időpazarlás?..

hétfő 21:34

Az ADHD felismerése nem erősségünk – az MI-é annál inkább

A figyelemhiányos hiperaktivitás-zavar, vagyis az ADHD hivatalos diagnózisa sokak számára elérhetetlen: az időhiány, a költségek, a kevés elérhető szakorvos és az általános tájékozatlanság mind nehezítik az utat...

hétfő 21:23

A netet elárasztották a botok – mit jelent ez nekünk?

Alig néhány év alatt gyökeresen megváltozott az internet felhasználói összetétele. Már nem emberek, hanem automatizált rendszerek bonyolítják le a webes kérések többségét – derül ki a Cloudflare Radar mérőrendszerének statisztikáiból, amelyek szerint világszerte a forgalom 57,4%-át úgynevezett agentikus, vagyis parancsokra dolgozó MI-botok generálják, míg a valódi emberek csak 42,6%-ot képviselnek...

hétfő 21:12

Az Xbox leépít, a Microsoft szerint kevés pénz jön a játékokból

A Microsoft vezetősége szerint a videójátékos üzletág egyik legnagyobb nehézsége, hogy nem termel elég bevételt...

hétfő 21:01

A kínai hackerek feltörték a REDCap szervereket, orvosi kutatási adatokat loptak

🔒 Jó példa erre, hogy Észak-Amerika egyik orvosi kutatóintézetének gépeit kínai kötődésű hackerek támadták meg, és hónapokon át észrevétlenül lopták az érzékeny adatokat...

hétfő 20:34

Az amerikai szigor miatt turbófokozatba kapcsol az európai technológiai szuverenitás

A világ egyik legnagyobb MI-fejlesztője, az Anthropic váratlanul leállította két fejlett kiberbiztonsági modellje, a Mythos 5 és a Fable 5 elérhetőségét az egész világon, miután amerikai kormányzati előírás erre kötelezte...

hétfő 20:12

Az új támadás egykattintásos adatlopóvá tette a Microsoft 365 Copilotot

Felmerül a kérdés, hogy mennyire bízhatunk meg a legmodernebb vállalati megoldásokban, amikor egy újonnan felfedezett, SearchLeak névre keresztelt sebezhetőség-sorozat lehetővé tette, hogy támadók különleges URL-ek segítségével egyetlen kattintással szerezzenek hozzáférést levelekhez, jelszavakhoz vagy akár SharePoint- és OneDrive-fájlokhoz a Microsoft 365 Copilot Enterprise rendszeren keresztül...

hétfő 20:01

Az Apple nyerő húzása lehet az iOS 27 a régi iPhone-okra

Ilyen eset például, amikor az Apple az új iOS 27-et a 2019-ben bemutatott iPhone 11 sorozattól kezdődően teszi elérhetővé...

hétfő 19:56

Az FBI figyelmeztet: futárok gyűjtik be a kriptós csalások pénzét

💸 Megfigyelhető, hogy a kriptobefektetési csalások új hullámában a bűnözők már futárokat is bevetnek a pénz megszerzésére...

hétfő 19:45

Az afrikai holdkőzet egy ősi, holdfelszínt olvasztó ütközést sejtet

🌚 Egy Észak-Afrikában talált holdi meteorit új megvilágításba helyezi a Hold ősi múltját...

hétfő 19:33

A nagy áttekintés szerint az időseknek alig használ a kalcium és D-vitamin

🙂 Különösen igaz ez akkor, ha az egészségügyi ajánlásokat követjük, hiszen világszerte emberek milliói szednek kalcium- és D-vitamin-készítményeket abban a reményben, hogy ezzel csökkentik a csonttörések és az esések kockázatát...

hétfő 19:22

A NASA óriási óceáni melegfoltot észlelt, jöhet az El Niño

🌊 A NASA műholdjai a Dél-Amerika partjaihoz tartó hatalmas melegvíztömeget figyeltek meg, amely komoly eséllyel az El Niño kialakulását jelzi...

hétfő 19:12

Az AYANEO tenyérnyi Game Boy-mása újra ringbe száll

🎮 A zsebben is elférő AYANEO Pocket Micro az utóbbi évek egyik legjobb kézi konzolja lett, amely tökéletesen hozza a klasszikus Game Boy Advance hangulatot...

hétfő 19:01

Az emberes SpaceX Mars-küldetés? Ne számítsunk rá ebben az évtizedben

🚀 Érdemes megérteni, hogy a SpaceX, amely a múlt pénteken debütált a Nasdaqon, villámgyorsan 19%-ot emelkedett, ezzel átlépve a 2 billió dolláros (kb...

hétfő 18:56

Az Xboxon felbukkant a „Vedd meg most, fizess később”, kiakadtak a rajongók

💸 Érdemes megvizsgálni, hogy a videojátékokhoz és konzolokhoz kapcsolódó vásárlási lehetőségek hogyan változnak a növekvő árak fényében...

hétfő 18:45

Az utazók pórul járhatnak: megugorhatnak a T‑Mobile külföldi percdíjai

Ha külföldre utazol, általában két lehetőséged van: veszel egy helyi SIM-kártyát, vagy a megszokott szolgáltatód roamingját használod...

hétfő 18:35

Az MI-vel ne csak gyorsabbak, hanem jobbak is legyenek a munkatársak

Képzeld el, pályád elején vagy, és a főnököd megbíz egy kellemetlen feladattal: meg kell írnod egy e-mailt egy fontos ügyfélnek, amelyben megmagyarázod a projekt késését...

hétfő 18:24

Az óriásgát Tibetben: Kína a természetet próbálja megszelídíteni

🚦 Magasan, a 4500 méterrel a tengerszint felett fekvő Tibeti-fennsík évszázadok óta Ázsia víztornya...

hétfő 17:45

A válogatós cégek MI-tudást követelnek: bajban az informatikusok

A kaliforniai techszektorban dolgozók tömegei még mindig abban reménykednek, hogy a munkaerőpiac végre talpra áll, de valójában egyre nehezebb új állást találni...

hétfő 17:34

A KFC visszavág: csont nélküli csirke és új italok

Az ikonikus gyorsétteremlánc most új stratégiához nyúl: teljesen átalakítja kínálatát, hangsúlyt helyezve a csont nélküli csirkére, különleges szószokra és izgalmas, élményalapú vendéglátásra...

hétfő 17:23

A Tejútrendszer szívében hatalmas szupernóva lehetséges maradványaira bukkant a NASA

💫 26 ezer fényévnyi távolságból figyelte meg a NASA Chandra Röntgen Obszervatóriuma a Tejútrendszer egyik leglátványosabb jelenségét...

hétfő 17:01

Az egyetemisták tömegesen felejtenek el olvasni?

Egy irodalmat és íráskészséget oktató egyetemi tanár, Tyler Jagt meglepő tapasztalatairól számolt be: egyik diákja sem tudott végigolvasni egy húszoldalas, kötelező tanulmányt, amelyet ő maga még egy évtizede egyetemistaként gond nélkül elolvasott...

hétfő 16:23

Az MI-felügyelőkre vadásznak a cégek: berobban a brit munkaerőpiac

Ami először apróságnak tűnt, mára gyökeresen átalakítja a brit munkaerőpiacot: a mesterséges intelligencia iránti kereslet ugrásszerűen megnőtt az utóbbi évben...

hétfő 16:12

A rekord egynapos esetszámugrás az Ebola-járványban Kongóban, egy hónappal a kitörés után

😷 Kongóban az Ebola-járvány minden eddiginél gyorsabban terjed, miközben az egészségügyi hatóságok igyekeznek lépést tartani az egyre növekvő esetszámmal...

hétfő 16:01

Az Antarktisz alatt több száz rejtett földrengést fedeztek fel – szokatlan helyen

Senki sem várta volna, hogy az Antarktisz rejtett, rendszeres földrengésekkel lepi meg a tudósokat...

hétfő 15:56

A Google lebuktatta a következő Pixel Dropot: képernyőreakciók, fizetős extrák

Tipikus eset, amikor egy vállalat maga szivárogtatja ki a nagy újításai részleteit, így mire a hivatalos bejelentés megtörténik, már mindenki tudja, mire számíthat...

hétfő 15:45

A SpaceX óriási tőzsdei bevezetése mindent a feje tetejére állíthat

Különösen igaz ez akkor, ha a befektetők már hónapok óta várnak valami nagy visszatérésre a tőzsdén...

hétfő 15:34

A Google AI-módja mostantól helyetted tartja számon az információkat

📝 A Google újabb nagy dobással jelentkezik: már valóság az a funkció, amelyben személyes digitális ügynököd veszi le a válladról az állandó keresgélést és a friss információkra való vadászatot...

hétfő 15:23

Az AMD Radeon RX 9070 XT váratlanul tarol a Steam-felmérésben

🔥 Az AMD új Radeon RX 9070 XT videókártyája váratlanul népszerűvé vált a gamerek körében: a legfrissebb Steam hardverfelmérés szerint májusban már 1,33%-os részesedést szerzett a felhasználók között, ezzel az első helyre került az AMD GPU-k között...