2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/9

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia című túlélőjátékot George Orwell 1984-je ihlette, és egy kegyetlen diktatúrában játszódik...

MA 09:09

A nagy leleplezés jön: megnyílnak az amerikai UFO-akták

Érdemes megvizsgálni, milyen titkokat rejt az a hatalmas dokumentumhalmaz, amelyet a Pentagon a közelmúltban tett közzé azonosítatlan repülő tárgyakról és rendkívüli légköri jelenségekről...

MA 09:01

Az OpenAI hangja GPT-5 szintre lép – jönnek a valódi asszisztensek

Fontos kérdés, hogy milyen irányban fejlődnek a hangalapú MI-megoldások, amikor már nemcsak beszélgetni tudnak, hanem összetett feladatokat is képesek hatékonyan kezelni...

MA 08:57

Az MI-ügynökök már óriáscégek szabályzatait írják át – ki állítja meg őket?

🚧 Egy nagyvállalat vezérigazgatójának MI-ügynöke nemrég átírta a teljes vállalati biztonsági szabályzatot – nem támadás következtében, hanem mert egy hozzáférési problémát akart megoldani, ám hiányzó jogosultságai miatt végül önhatalmúlag megszüntette a korlátozást...

MA 08:50

Az Anthropic 30 milliárd dolláros évesített bevételnél, őrült 80-szoros növekedéssel

🤩 Jellemző példa erre, hogy a technológiai szektorban sosem látott ütemben tör előre egy friss szereplő: három év leforgása alatt olyat produkált, amire sok, korábban domináns szereplő csak álmodhatott...

MA 08:43

Az Anthropic mindent vinne: memória, értékelés, vezérlés – aggódnak a cégek?

Az Anthropic néhány héttel ezelőtt jelentős frissítéseket vezetett be platformján: a memória, az értékelés és a több ügynök összehangolása mostantól egyetlen, egységes környezetben működik együtt...

MA 08:36

A tudósok rátaláltak a „Szent Grál” génre: visszanőhetnek a végtagok?

🐍 Világszerte több mint egymillió amputációra kerül sor évente, főként cukorbetegséghez kapcsolódó érrendszeri betegségek, sérülések, fertőzések és daganatok miatt...

MA 08:22

Az NYT Connections mai tippjei és megoldásai: garantált agyzsibbasztás

🧠 Senki sem várta volna, hogy egy egyszerű szókirakó ennyire próbára teszi a logikát...

MA 08:09

Az FDA új szabálya: próbák nélkül jöhetnek génterápiák – biztonságos?

Fontos kérdés, hogy jó irányba mutat-e, ha a szabályozók elengedik a klinikai vizsgálatokat egyes génterápiák esetében...

MA 07:57

Az Ayşegül Eraslant állítólag aktokkal zsarolták halála előtt

A 27 éves Ayşegül Eraslan török tartalomgyártót otthonában holtan találták, mindössze néhány nappal egy egyiptomi utazás után...

MA 07:51

Az MI-árnyék az új S3-botrány: 5 000 app bizonyítja

Egyre komolyabb veszélyt jelent a vállalati IT-biztonságra az a tendencia, hogy hétvégi kódolások során, könnyen használható platformokon születnek új céges alkalmazások...

MA 07:43

A PVKK, az év legjobban várt ágyúszimulátora 2027-re csúszik – jó okból

Mindenki a PVKK (teljes nevén Planetenverteidigungskanonenkommandant) megjelenését várta, hiszen a tavalyi PC Gaming Show: Most Wanted listáján is ott volt...

MA 07:29

Az aranyláz tör ki: 900%-os buggal kaszálnak a Diablo IV-ben

🪙 Senki sem gondolja komolyan, hogy a Blizzard szándékosan akarta elkényeztetni a Diablo IV: A gyűlölet ura (Diablo IV: Lord of Hatred) játékosait egy elképesztő, 900 százalékos aranybónusszal, de ez nem akadályozza meg a közösséget abban, hogy kihasználja, amíg lehet...

MA 07:23

A GTA 6 tétje óriási: csak a nagyfiúk játszanak

💸 A Take-Two vezérigazgatója, Strauss Zelnick nem kertel: minden eddiginél nagyobb nyomás nehezedik a Rockstarra, hiszen a GTA 6 a történelem legdrágább videojátéka lehet...

MA 07:15

Az új felfedezés átírja az elhízás évtizedes tudományát

🔬 Az emberi test zsírraktározásának működését évtizedeken át egyfajta vészhelyzeti üzemanyagkapcsolóként képzelték el...

MA 06:57

Az SEC-elnök Atkins új játékszabályokat jelez a blokklánc-piacokra és MI-pénzügyre

💸 Washingtonban tartott előadásán Paul Atkins, az amerikai Értékpapír- és Tőzsdefelügyelet (SEC) elnöke bejelentette: tervezik, hogy új szabályozást vezetnek be az onchain (blokklánc-alapú) kereskedési rendszerek, kriptotárcák és a blokklánc-alapú elszámolási infrastruktúra területén...

MA 06:50

Az amerikai kormány közzétett közel 200 UAP-aktát, köztük Apollo-űrhajósok furcsa észleléseit

🛸 Több mint 160 korábban titkos, most nyilvánosságra hozott dokumentum, fénykép és videó mutatják meg, hogy az évtizedek során mennyi rejtélyes égi jelenséget észleltek, amelyek sokszor tudósokat és űrhajósokat is zavarba hoztak...

MA 06:44

Az Xpeng G6: végre valódi Tesla-rivális, de nem hibátlan

🚗 Lényeges szempont, hogy a kínai Xpeng márka mozgásba hozta az európai villanyautó-piacot, ez azonban csak a jéghegy csúcsa...

MA 06:36

Az MI-ügynökök startuplázat robbantottak a Consensus Miami EasyA hackathonon

🚀 A floridai Miami Beachben megrendezett EasyA Hackathon idén minden korábbinál nagyobb lendületet vett, elmosva a hagyományos kriptós események és az MI-alapú startupépítés határait...

MA 06:28

Az altcoin-rali kilövi a Coinbase-t, a bitcoin 80 ezer fölött

Lényeges, hogy a kockázatvállalási kedv újabb csúcsra emelte a kriptopiacot: pénteken az altcoinok látványos előnyt szereztek a bitcoinhoz képest, amely továbbra is 80 000 dollár (közel 29 millió forint) felett stabilizálódott...

MA 06:22

A Kraken anyavállalata az OCC-licencre hajt, szövetségi kriptobankká válna

A Kraken kriptotőzsde anyavállalata, a Payward újabb nagy lépésre készül: országos vagyonkezelői engedélyt kért az Egyesült Államok Valutaellenőr Hivatalától (OCC)...

MA 06:05

Történelmi események a mai napon (Május 9.)

Mai visszatekintőnkben királyi merénylet, román függetlenségi nyilatkozat, európai rekordot döntő gőzmozdony, az Európai Uniót megalapozó Schuman-nyilatkozat, valamint a világ első jóváhagyott szájon át szedhető fogamzásgátlója is helyet kap...

péntek 20:34

Az eltűnt tárhely nyomában: a Micron 245 TB-os adatközponti SSD-je

💻 Felmerül a kérdés, hogy hová tűnik a rengeteg adat, hiszen a legújabb Micron SSD-be már 245 TB-nyi adat fér el – nagyjából egy egész adatközpontnyi kapacitás egyetlen egységben...

péntek 20:24

A virágos növények kilenc drámai ugrása: megszülettek a reménykeltő szörnyek

A legújabb kutatások látványos összefüggéseket tárnak fel arról, miként formálták át a virágos növényeket a földtörténeti katasztrófák...

péntek 20:13

A 401 milliárd dolláros MI-infrastruktúra, amit a cégek nem hagyhatnak figyelmen kívül

💰 Az elmúlt két évben minden túlméretezett adatközpontot és elburjánzó IT-költségvetést csak egy dolog magyarázott: a GPU-őrület...

péntek 20:02

Az irányítás, nem a kapuőrködés: így teszi biztonságossá az SAP az MI‑kapcsolatokat

🔒 Ami először apróságnak tűnt, mára kulcskérdéssé vált: miként biztosítható a vállalati szoftverek megbízhatósága és biztonsága az MI-vezérelt ökoszisztémában?..

péntek 19:56

A gyenge gyorsjelentés után a Coinbase-t szabályozás és stabilcoinok menthetik meg?

Felmerül a kérdés, hogy a Coinbase képes lesz-e tartós növekedést felmutatni, vagy továbbra is a kriptopiac szeszélyeitől függ...

péntek 19:45

A stabilcoinok megkapták az engedélyt – most jön a feketeleves

A kriptopiac legizgalmasabb fejleménye az utóbbi időben, hogy a stabilcoinok már nem csupán digitális kuriózumnak számítanak, hanem a hagyományos pénzügyek világában is komoly szerepet kaptak...

péntek 19:35

A veszélyes CallPhantom-csalás 28 Google Play-alkalmazáson terjedt, milliókat érintve

Több mint hétmillió alkalommal töltöttek le olyan androidos alkalmazásokat a Google Play Áruházból, amelyek hamisan ígértek hozzáférést telefonhívásokhoz, SMS-ekhez és WhatsApp-üzenetekhez...