2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 18:02

Az új Burger King fejhallgatók már a mosolyodat is lesik

A Burger King most mesterséges intelligenciával működő headseteket tesztel, amelyek nemcsak recepteket tudnak felmondani, hanem a dolgozók udvariasságát is képesek nyomon követni...

MA 17:40

A dinoszauruszok nagy titka: nem hasonlítottak a mai emlősökre

Képzeld el, hogy egy fiatal Brachiosaurus, akkora, mint egy golden retriever, növényeket keresgél testvéreivel, miközben ragadozók elől bujkál...

MA 17:02

A nagy MI-csavar: nem a Z-generáció pörög rá leginkább

Ki gondolta volna, de nem a legfiatalabbak pörgetik legjobban a mesterséges intelligenciát...

MA 17:00

Az Apple végre lép: jön az olcsó MacBook?

Fontos kérdés, hogy idén vajon végre látunk-e valódi újdonságot az Apple-től, vagy marad a visszafogott frissítgetés, amit az utóbbi időben megszokhattunk...

MA 14:02

A Samsung Galaxy S26 világszerte műholdas kapcsolattal debütál

📶 A Samsung Galaxy S26 készülékek hamarosan lehetővé teszik a műholdas kommunikációt, így a felhasználók világszerte hozzáférhetnek ehhez a fejlett funkcióhoz...

MA 13:59

A nagy X-rejtély: miért vonzódtak a neandervölgyiek a modern nőkhöz?

Megvizsgálandó, hogy miért található hihetetlenül kevés neandervölgyi eredetű DNS az emberi X-kromoszómában, míg más génszakaszokon jóval több maradt fenn...

MA 13:40

Az igazság a nyikorgó sportcipőkről: meglepő okok a háttérben

👟 A kosárlabdapályák jellegzetes nyikorgása végre magyarázatot nyert: a hangot nem egyszerűen a gumi és a parketta közti súrlódás okozza, hanem a talp és a padló között kialakuló, szuperszonikus sebességgel mozgó kis súrlódási zónák...

MA 13:21

A kozmikus káosz térképe: ritka égitestek a Tejútrendszer szívében

A Tejútrendszerünk központját sűrű por- és gázfelhők, vadul mozgó csillagok és egy óriási fekete lyuk uralják...

MA 12:01

A Burger Kingben fejhallgatón át nevel az AI-főnök

🍔 Már nemcsak a grillen történik a varázslat: a Burger King bevetette legújabb trükkjét, egy mesterségesintelligencia-alapú chatrobotot, amely beépült a dolgozók fejhallgatóiba...

MA 11:59

Az oltás várandósság alatt drámaian csökkenti a preeklampszia esélyét

Több mint 6500 terhes nő adatait elemezve fény derült arra, hogy a COVID–19 elleni védőoltás a várandósság idején nemcsak a vírus elleni védelmet nyújtja, hanem jelentősen mérsékli a preeklampszia kialakulásának esélyét is...

MA 11:39

Az Apex One kritikus sebeket foltoz – ne maradjon rés a pajzson!

A japán Trend Micro két súlyos sebezhetőséget is javított az Apex One biztonsági rendszerében, amelyek lehetővé tették a hackerek számára, hogy távolról kártékony kódot futtassanak sérülékeny Windows gépeken...

MA 11:21

Az óriási adatszivárgás 25 milliót érint – így védd magad

Egy súlyos kibertámadás során a Conduent üzleti szolgáltató rendszereihez jogosulatlanul hozzáfértek, és akár 25 millió amerikai személyes adata kerülhetett rossz kezekbe – közülük 15 millióan texasiak...

MA 11:03

Az MI-asszisztensek új ura: itt a Perplexity Computer

🤖 A Perplexity bemutatta új fejlesztését, a Computert, amely képes önállóan megszervezni és levezényelni összetett feladatokat, miközben több MI-modelleket használ egyszerre...

MA 10:55

A magányos foton titkos dimenziói: forradalom a kvantumfényben

💡 Fontos kérdés, hogy képesek vagyunk-e a fény elemi részecskéiben, a fotonokban eddig láthatatlan dimenziókat felfedezni és kihasználni...

MA 10:47

Az új fogyókúrás tabletta mindent visz

Az orforglipron, az Eli Lilly új fejlesztésű, szájon át szedhető, GLP-1-receptoron ható készítménye látványos sikereket ért el a legújabb klinikai vizsgálatban...

MA 10:38

Az új Nano Banana 2: a Google nagyot kockáztat

😁 Ez a jelenség jól illusztrálható azzal, hogy a Google lendületét egy évnyi fejlesztés sem tudta megtörni: az MI-modellek sorozatos frissítéseivel sikerült az élmezőnybe ugrania, sőt, több területen még a legnagyobb versenytársakat is maga mögé utasította...

MA 10:29

Az éjszaka, amikor 800 ezer égi titok feltárult

A chilei Cerro Pachón-hegy tetején működő Vera C. Rubin Obszervatórium szenzációs felfedezésekkel indította tudományos küldetését: egyetlen éj leforgása alatt 800 000 égi objektumról adott ki riasztást...

MA 10:19

Az amerikai dolgozók lemaradnak: Kína vezet az MI-képzésben?

🔧 Az amerikai vállalatok versenyt futnak az idővel, hogy alkalmazottaik felkészüljenek az MI-alapú munka világára...

MA 10:02

Az okos pénz 60 ezernél is fél: Bitcoinra védelmet vesznek a nagyok

💸 A jelentős bitcoin ETF-birtokosok és vállalati kincstárak egyre komolyabban védekeznek egy 60...

MA 09:46

A látszólag ártatlan Google API-kulcsok veszélybe sodorják a Gemini MI-adatokat

Éveken át a fejlesztők gondtalanul használták a Google Cloud API-kulcsokat nyilvános weboldalak JavaScript-kódjaiban, például térképekhez, YouTube-beágyazásokhoz vagy Firebase-szolgáltatásokhoz...

MA 09:20

Az MI-vel az AT&T 90%-kal vágja le költségeit

Kevés vállalat kezel akkora adatmennyiséget napi szinten, mint az AT&T, ahol a tokenhasználat eléri a napi 8 milliárdot...

MA 09:12

A Mars óriáspókhálóinak rejtélyes tojásai értetlenül hagyják a tudósokat

A Mars felszínén most új, rejtélyes képződmények kerültek előtérbe. A Curiosity marsjáró friss felvételein óriási, pókhálószerű hálók, úgynevezett boxwork-képződmények láthatók, melyeket apró, tojásra emlékeztető gömbök borítanak...

MA 09:01

Az AI, ami dolgozik helyetted: tényleg tehermentesít a Copilot Tasks?

Végre itt van egy mesterséges intelligencia, ami tényleg dolgozik helyetted, nem pedig csak figyel, vagy pofátlanul megszakít minden húsz másodpercben...

MA 08:55

Az iPhone és az iPad mostantól NATO-titkokat is kezel

🔒 Az Apple bejelentette, hogy az iPhone és az iPad az első és eddig egyetlen fogyasztói eszközök, amelyek megfelelnek a NATO tagállamainak legszigorúbb információbiztonsági követelményeinek...

MA 08:46

Az új családtag, aki néha felborul: beköltözik a Neo robot

🤖 Neo, a 168 cm magas humanoid robot már előrendelhető, és kb...

MA 08:28

Az a pillanat, amikor a Google Fordító végre az idiómákat is érti

Létezik az a helyzet, amikor próbálsz valami menőt vagy vicceset mondani angolul, aztán szembejön veled egy kedves, de értetlen tekintet, mert az a bizonyos „break a leg” vagy az elhíresült „bite the bullet” ott helyben totál félremegy...

MA 08:19

Az új ritmusjáték, amitől újra tombolhat a Guitar Hero-láz

🎸 A volt Guitar Hero-fejlesztők által újjáélesztett RedOctane Games idén egy vadiúj zenei játékkal készül meghódítani a piacot...

MA 08:03

Az Anthropic új blogja: MI nyugdíjba megy, vagy csak marketing?

🧐 Február végén az Anthropic váratlan lépésre szánta el magát: blogot indított régóta szolgáló MI-modelljének, a Claude Opus 3-nak...

MA 07:56

Miközben nyereséges, Jack Dorsey cége 4 ezret rúg ki az MI miatt

📈 A Block, amely alá tartozik a Square fizetési rendszer, a Cash App, a Tidal, valamint egy nyílt forráskódú MI-platform, hirtelen a világgazdasági diskurzus központjába került...