2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 20:02

A Vatikánban mostantól AI fordítja élőben a misét 60 nyelven

⛪ Na, képzeld el, ott ülsz a Szent Péter-bazilika padjában, zsibbasztod a térded, és halvány fogalmad sincs, miről beszél a pap olaszul vagy latinul...

MA 19:56

A legendás Quake 3-at hajtó ördögi matek

🔥 A ’90-es évek végén, amikor a számítógépes hardver még messze nem volt ilyen gyors, a játékfejlesztőknek a lehető leghatékonyabb kódokat kellett írniuk, hogy a legmodernebb grafikát és élményt hozzák ki a gépeikből...

MA 19:39

Az Android szabadságának vége? Így változnak a letöltések

🚧 Az Android mindig is a szabadság szinonimája volt: a felhasználók szabadon telepíthettek alkalmazásokat külső forrásból, függetlenül a Play Áruháztól...

MA 19:19

Az Apple március 4-én tarol: új Mac, iPad, friss iPhone-színek?

New York, London, Sanghaj – az Apple idén végre kimozdul az unalmas Apple Parkból, és új eseményt dob össze március 4-én, magyar idő szerint délután 3 órakor...

MA 19:02

Az égitestek titkos órája: meddig él egy bolygó?

A bolygók születnek, alakulnak, majd elpusztulnak — de hogy mennyi ideig tart mindez, az a csillaguktól és saját belső folyamataiktól is függ...

APP
MA 18:59

APPok, Amik Ingyenesek MA, 2/16

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Tunepal (iPhone/iPad)Az alkalmazás a Sunday Times toplistáin is szerepelt: 2012-ben bekerült minden idők 500 legjobb appja közé, 2010-ben pedig az iPhone húsz legfontosabb kulturális alkalmazása között említették...

MA 18:56

Az agyi gyulladás lehet a kényszeresség rejtett mozgatórugója

Évtizedeken át a kényszeres viselkedést egyszerűen rossz beidegződésnek gondolták, mintha az agy csak rutinból ismételné ugyanazokat a cselekvéseket...

MA 18:48

Az új Samsung mobil végre leskelődésgátló kijelzőt kap

A Samsung most tényleg bedobott egy új, vad funkciót az S26-tal: bemutatkozott a privát kijelzőmód (privacy display)...

MA 18:37

Az erős pszichedelikum új reményt hozhat a depresszió kezelésében

Egyetlen adag dimetiltriptamin (DMT), amelyet sámánisztikus szertartásokban is használnak, jelentős és tartós javulást hozhat a súlyos depresszióval élők számára, ha pszichoterápiával együtt adják be...

MA 18:19

Az univerzum óriási, forgó kolosszusa váratlanul sokkolta a kutatókat

Lyla Jung, az Oxfordi Egyetem csillagásza egy különös, eddig ismeretlen szerkezetre figyelt fel monitorján: 400 millió fényévnyire a Földtől sikerült azonosítani egy óriási kozmikus fonalat, egy több száz galaxisból álló, forgó láncolatot...

MA 17:55

A gyorsan merülő iPhone-ok megmentője jöhet: érkezik az iOS 27

⚡ Sokan bosszankodnak az iOS 26 miatt, mert az iPhone akkumulátora alig bírja a napot...

MA 17:37

Az amerikai kormány pánikszerűen befoltozza a súlyos biztonsági rést

Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) ultimátumot adott a szövetségi hivataloknak: mindössze három napjuk van befoltozni a BeyondTrust-rendszereket érintő súlyos sérülékenységet, amelyet a támadók már aktívan kihasználnak...

MA 17:19

Az Ether túléli a 200 milliárdos eladási vihart

💰 A kriptopiacok továbbra is nyomás alatt vannak, miközben a hétvégi hatalmas eladási hullám után az ether árfolyama visszakapaszkodik a 735 ezer forintos (2000 dolláros) szint felé...

MA 17:01

Tényleg ellopta a mesterséges intelligencia egy rádiós hangját?

📢 A népszerű amerikai rádiós, David Greene szerint a Google NotebookLM nevű MI-eszköze engedély nélkül másolta le a hangját...

MA 16:55

Az OpenAI keményen fellépett az OpenClaw megalkotója ellen

Az OpenAI legújabb húzása, hogy leszerződtette Peter Steinbergert, az OpenClaw nevű MI-ügynök megalkotóját, akitől azt várják, hogy elindítsa a személyes MI-ügynökök új generációját...

MA 16:20

Az első indiai MI-óriás tőzsdei rajtja csúfosan besült

India első MI-cége, amely tőzsdére lépett, nem igazán hozta lázba a befektetőket: a Fractal Analytics részvényei gyengén nyitottak, majd még tovább estek, miközben a szoftverrészvények eladási hulláma miatti bizonytalanság uralkodott a piacon...

MA 16:01

A ByteDance ellen per MI-videók miatt: Disneyt, Cruise-t és Pittet is érinti

A ByteDance alig egy hete dobta piacra új MI-alapú videókészítőjét, a Seedance 2...

MA 15:37

Az ősi varázsló, akitől egy birodalom rettegett

Két évezreddel ezelőtt a Tumaco-Tolita nép kerámiamesterei elképesztő élethűséggel formálták meg közösségük idős vezetőit...

MA 15:19

Az MI felkavarja Hollywoodot: a stúdiók visszatámadnak

A TikTok tulajdonosa, a ByteDance komoly viharba keveredett Hollywoodban a Seedance 2...

MA 14:55

Az év első komoly Chrome-hibája: újabb vészfrissítés érkezett

A Google sürgősségi frissítést adott ki, hogy orvosolja az év első komoly Chrome zéró-napos sebezhetőségét, amit már aktívan kihasználnak a támadók...

MA 14:37

Az új lakáshitel-korszak küszöbén: merre tartanak a kamatok 2026-ban?

🏡 Az elmúlt években a gazdasági előrejelzések gyakran mellétrafáltak, hiszen a COVID–19 alatti lezárások, majd a példátlan pénzügyi ösztönzők alapjaiban borították fel a piacot, amire egy villámgyors kamatemelési hullám is ráerősített...

MA 14:19

A Netflix elkaszálta a Terminátor: Zerót az első évad után

😎 A Netflix újabb sci-fi animét vett le a műsorról: a Terminátor: Zero (Terminator Zero) mindössze egy évadot élt meg...

MA 13:55

Az Android Auto ikonok megújulnak: közeleg az Android 16-hatás?

🚗 A Google egyre közelebb hozza az Android Autót a telefonos élményhez: hamarosan új ikonokat vezethet be, amelyek az Android 16 stílusához igazodnak...

MA 13:37

Az edzés a legerősebb fegyver a depresszió és a szorongás ellen

💪 Egy lényeges szempont, hogy a rendszeres mozgás valóságos csodaszer lehet a depresszió és a szorongás kezelésében...

MA 13:20

Az MI-vagyon, amely átírhatja a jövőt

Stephen Schwarzman, a világ egyik legismertebb magántőke-befektetője, most új célt tűzött ki maga elé: egy, több mint 17 000 milliárd forintnyi vagyont kezelő jótékonysági alap létrehozását, amely a mesterséges intelligencia (MI) és az oktatás fejlesztésére összpontosít...

MA 12:55

A ClickFix új támadása: kártevő érkezik a DNS-en át

A hackerek egyre kreatívabb módszereket vetnek be: a legújabb ClickFix-támadás például a DNS-lekérdezéseket használja ki, hogy kártékony PowerShell-szkripteket juttasson el a gyanútlan áldozatok gépére...

MA 12:38

A legsikeresebb techvezérek három közös titka

👑 A Szilícium-völgyben sosem csökken a tempó: hetente jönnek az új MI-eszközök és fejlesztések, a dolgozók pedig lépést próbálnak tartani, nehogy lemaradjanak...

MA 12:19

Az űrutazás átformálja az agyadat

🚀 Az űrutazás nemcsak a testre, hanem az agyra is hatással van...

MA 12:02

Az aranyárat érő Pikachu-kártya: Logan Paul csúcsot döntött

Logan Paul egyedi Pikachu Illustrator Pokémon-kártyája minden idők legdrágább Pokémon-kártyájaként kelt el: 6,1 milliárd forintot (16,49 millió dollárt) fizettek érte egy online aukción...