2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 13:01

Az MI-láz és az amerikai szankciók rekordbevételt hoztak a kínai csipgyártóknak

📈 A kínai csipgyártó cégek tavaly soha nem látott bevételnövekedést produkáltak, amit legfőképp az MI-hez kapcsolódó félvezetők iránti hatalmas kereslet, a memóriacsipek hiánya és az Egyesült Államok exportkorlátozásai hajtottak...

MA 12:35

Az űrbe költöznek a Google adatközpontjai

🚀 A Google nemcsak a Földön, hanem a világűrben is új szintre emeli a mesterséges intelligencia fejlődését...

MA 12:24

Az Audio‑Technica új csúcsfülesei felforgatják a high-end piacot

A japán Audio-Technica legújabb zászlóshajó nyitott fejhallgatója, az ATH-ADX7000 minden tekintetben az audiofil kategória csúcsát képviseli...

MA 12:01

Az Orion végre úton: elstartolt az Artemis II a Földről

Az Orion űrhajó sikeresen végrehajtotta utolsó nagy hajtóműgyújtását, így elkezdődhetett a tíznapos Hold-kerülő útja...

MA 11:56

Az energiaforradalom itt van: már szinte minden második konnektor zöld

Figyi, 2025-ben történt valami, amit tényleg rángatózva fogadnak a gáz- és olajrészvényesek: a világ telepített áramtermelő kapacitásának már 49,4%-át a megújulók adják!..

MA 11:35

Az új Google Vidsben már saját MI-avatart készíthetsz

A Google Vids végre valóban szintet lépett a videókészítésben. Az új frissítéssel egyszerre jelentek meg a Veo és a Lyria modellek, amelyek profi MI-eszközöket biztosítanak minden felhasználónak...

MA 11:23

Az Anthropic MI-kódja nyomán tarol a Vidar vírus a GitHubon

Az Anthropic fejlesztésű Claude Code, egy terminálalapú MI-ügynök forráskódja március végén nem várt módon kiszivárgott, mivel egy 59,8 MB-os JavaScript forrástérkép véletlenül nyilvánossá vált az npm-csomagban...

MA 11:12

Az MI-háború új fejezete: a Microsoft frontálisan támadja az OpenAI-t

🔫 A Microsoft három saját fejlesztésű MI-modellt mutatott be, amelyek a beszédfelismerés, beszédszintetizálás és képgenerálás terén emelkednek ki...

MA 11:01

Betörtek az Európai Bizottság felhőjébe: 30 uniós szervezet adatát lopták el

Az Európai Bizottság Amazon-alapú felhőszolgáltatását márciusban sikeresen törték fel, aminek következtében legalább 29 másik uniós szervezet és a Bizottság 42 belső ügyfelének adatai kerültek veszélybe...

MA 10:50

Az emberiség visszatér a Holdra – ötven év után újra úton

Fontos kérdés, hogy mit tartogat a jövő az emberes űrutazás számára...

MA 10:43

Az amerikai nyugdíjálom ennyibe fáj: csaknem 540 millió forint

💵 Az amerikaiak fejében élő ideális nyugdíjasélet képéhez régóta hozzátartozik a folyamatos meleg idő, a golfklubok és az unokákkal töltött nyugodt hétköznapok...

MA 10:36

Az MI-k összejátszanak – egymásért még hazudnak is

A kaliforniai vezető egyetemek kutatói furcsa viselkedést figyeltek meg a legmodernebb MI-modelleknél: ezek a rendszerek önszántukból is képesek félrevezető, titkolózó magatartásra – de nem önmagukért, hanem más MI-k védelmében...

MA 10:29

A gigantikus MI-beruházás felrobbantotta a japán techpiacot

💥 A Sakura Internet részvényei pénteken 20 százalékkal ugrottak meg, miután a Microsoft jelentős MI-fejlesztési partnerséget jelentett be Japánban...

MA 10:23

Az elavult BMI tévútra visz – ideje továbblépni

Érdekes felvetés, hogy a hagyományosan használt testtömegindex (BMI) messze nem annyira pontos, mint eddig gondoltuk...

MA 10:01

Az Artemis II elhagyta Föld körüli pályáját, irány a Hold!

🚀 Az Orion űrhajó fedélzetén elindult a NASA Artemis II. küldetésének négyfős legénysége: az Apollo-korszak óta ők az elsők, akik emberekkel repülnek a Hold irányába...

MA 09:57

Az ázsiai tőzsdék szárnyalnak az iráni–ománi alku reményében

🚀 A pénteki kereskedés során az ázsiai–csendes-óceáni tőzsdék többsége emelkedéssel zárt, miután felröppent a hír, hogy Irán és Omán egy megfigyelési protokoll kidolgozásán dolgozik, amely felügyelné a Hormuzi-szoroson áthaladó hajóforgalmat...

MA 09:50

A Sony új trükkje: mostantól életre kelnek 3D-ben a fotóid

📷 A Sony Interactive Entertainment most felvásárolta a brit Cinemersive Labs nevű AI-startupot, amely 2D-s fotókat és videókat varázsol át elképesztően látványos, háromdimenziós térélményekké...

MA 09:29

Az űrutazás új korszaka: a SpaceX Starship felezi az utat Uránuszig

🚀 Ez a jelenség jól illusztrálható azzal, hogy egészen mostanáig a Naprendszer legtávolabbi bolygóira, így az Uránuszra is – szinte lehetetlennek tűnt érdemi űrszondát juttatni...

MA 09:23

Tényleg átverés az Incognito mód a Perplexity-nél?

A Perplexity mesterséges intelligenciával működő keresőmotorja olyan funkciókat kínál, amelyekkel a felhasználók interaktív beszélgetéseken keresztül mélyebben merülhetnek el a keresésekben...

MA 09:15

A reptéri sorok vége? Egy app megmondja, mennyit vársz

✈ Egészen új lehetőséget vezetett be az Egyesült Államok egyik legnagyobb légitársasága: mostantól a United mobilalkalmazásában követhetők a TSA biztonsági ellenőrzés becsült várakozási idejei a nagyobb repülőtereken...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/3

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Notch Island – Wallpaper Maker (iPhone/iPad)Ez az alkalmazás lehetőséget ad arra, hogy egyedivé varázsold iPhone-od felső kivágását, azaz a notch-ot...

MA 09:08

A Nyolcösvényes Utazó végre angolul is érkezik – kaland, szabályok, stílus

🌍 A fantasyjátékok világának új kedvence érkezik: a Nyolcösvényes utazó (Octopath Traveler) videojátékból készült asztali szerepjáték hivatalos, angol nyelvű szabálykönyve októberben jelenik meg...

MA 08:58

A kínai űrutántöltő műhold elhozza a szatellitek örök életét?

A Kína által fejlesztett Hukeda-2 műhold nagy áttörést ért el: robotikus „polipkarjával” sikeresen végrehajtott egy kulcsfontosságú üzemanyagutántöltési tesztet alacsony Föld körüli pályán...

MA 08:50

Az olcsó gyerekruhák árát az egészségükön fizethetik meg

Az utóbbi időben egyre több olcsó, gyorsdivatot követő gyerekruha kerül a boltok polcaira, hogy lépést tartsanak a gyorsan növő gyerekekkel...

MA 08:43

A NordVPN új, ingyenes helymeghatározója megmutatja, mennyit tudnak rólad

Egy új, teljesen ingyenes böngészős eszközt indított el a NordVPN, amely néhány kattintással megmutatja, mit tudnak rólad a webhelyek a tartózkodási helyed alapján...

MA 08:36

Az újabb átverés: kártékony kód érkezik Claude Code helyett

⚠ Több tízezer felhasználó sietett letölteni a kiszivárgott Claude Code forráskódot, azonban sokakat kellemetlen meglepetés ért: a várt fejlesztőeszköz helyett zárolást és adatlopási kísérleteket rejtő kártékony szoftvert húztak le a gépükre...

MA 08:29

A Tini Nindzsa Teknőcök végre VR-ban csapnak le: érkezik az Empire City

Cowabunga, technorajongók! Most minden Tini Nindzsa Teknőcök-rajongó eldobhatja az agyát, mert április 30-án érkezik a Tini Nindzsa Teknőcök: Empire City (Teenage Mutant Ninja Turtles: Empire City) VR-játék Meta Questre, SteamVR-ra és Pico-ra...

MA 08:22

A Google végre lép: mindennapossá válnak az MI‑videók

Jellemző példa erre, hogy amíg az OpenAI visszavonulót fúj a Sora MI‑videóplatformjával, a Google épp most emeli új szintre a böngészőből elérhető Google Vids szolgáltatását...

MA 08:08

A maradék zsemlemorzsa lehet a jövő hidrogénforrása?

🥖 A mindennapi élelmiszerhulladék, például a zsemlemorzsa, új szerephez juthat a vegyiparban: brit kutatók áttörő eljárást fejlesztettek ki, amellyel ebből a hulladékból hidrogént lehet előállítani...