2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 07:34

A mesterséges intelligencia közösségi hálója kiteregette a felhasználói adatokat

A Moltbook nevű közösségi oldal azzal büszkélkedik, hogy MI-ügynököknek kínál közösségi teret – azonban most kiderült, hogy több ezer emberi felhasználó adatait tette nyilvánossá egy hiányos biztonsági védelem miatt...

MA 07:25

Az újabb Windows-frissítési baki még több gépet dönt romba

Januári Windows-frissítés után egyre több felhasználó szembesül azzal a bosszantó hibával, hogy számítógépe nem képes leállni vagy hibernálni, hanem újraindul...

MA 07:17

Jön az iPhone Fold brutál akkuval és új gombokkal

Az Apple első hajlítható iPhone-járól újabb részletek szivárogtak ki: a készülék a valaha volt legnagyobb, 5500 mAh-s akkumulátort kaphatja meg...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 2/3

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

MA 07:09

Az Apple nagy dobása: érkezik a kagylóhéj‑iPhone?

Úgy tűnik, hamarosan véget ér a klasszikus, lapos okostelefonok időszaka. Egyre erősebbek a pletykák arról, hogy az Apple 2026 végén dobhatja piacra első összecsukható telefonját, ráadásul dolgozik egy kagylóhéj-formájú, vagyis flip kivitelű modellen is...

MA 07:01

Az új GlassWorm-támadás már a Maceket is fenyegeti

Egy veszélyes, GlassWorm nevű kártevő új módszert talált arra, hogy macOS-rendszereken fejlesztők jelszavait, kriptotárca-adatait és bizalmas információit lopja el...

MA 06:57

Az új Starlink Wi‑Fi a felhők fölé emeli az otthoni netet

Elképesztő, hogy ma már nemcsak a földön, de a magasban is élvezhetjük a stabil, gyors internetet: a Starlink műholdas Wi-Fi már a United Airlines járatain is úgy működik, mintha csak otthon lennél...

MA 06:49

Az OpenClaw támad: jelszólopó kártevők célozzák az MI-asszisztenst

🔪 Több mint 230 rosszindulatú kiegészítő jelent meg kevesebb mint egy hét alatt az OpenClaw (korábbi nevén Moltbot és ClawdBot) személyes MI asszisztens hivatalos regisztrációs oldalán és a GitHubon...

MA 06:41

Vége a rejtett autókilincsek korszakának Kínában

🚗 Kína betiltotta a rejtett ajtókilincseket az elektromos autókon, és ezzel elsőként lépett fel a látványos, de ellentmondásos Tesla-dizájn ellen...

MA 06:34

Az óceán mélyén új világ tárul fel: ismeretlen fajok százai

🐚 Ahogy a kritikus fémek iránti igény világszerte emelkedik, egyre több ország vizsgálja a tengerfenék kitermelésének lehetőségét...

MA 06:25

Az MI fűti az árakat: közeleg a memóriaválság

A memóriapiacon rég nem látott válság van kibontakozóban: 2026 első negyedévében minden eddiginél gyorsabban nőnek a DRAM és a NAND flash memóriák árai...

MA 06:19

A Canon 15×50 IS: lenyűgöző nagyítás, árnyoldalakkal

🔎 Felmerül a kérdés, hogy létezik-e olyan speciális távcső, amely egyszerre szolgálja ki a hobbifotósokat, a madármegfigyelőket és a csillagászat szerelmeseit is...

MA 06:06

Történelmi események a mai napon (Február 3.)

Időutazás a történelemben: mai naphoz kötődő fordulópontok, hősies vállalkozások és tragédiák rajzolják ki a múlt nagy ívét...

MA 06:02

A népszerű Notepad++ frissítéseit kínai hekkerek megmérgezték

💉 Az elmúlt évben kínai, államilag támogatott hackerek hónapokon át észrevétlenül módosították a Notepad++ ingyenes szövegszerkesztő frissítési mechanizmusát...

hétfő 20:58

A DocuSign óva int: ne bízd az MI-re a szerződéseket

Hihetetlen, de igaz, hogy a digitális szerződéskötés sokkal több, mint néhány kattintás egy weboldalon...

hétfő 20:37

A mesterséges intelligencia már kiszúrja a gyomokat, a gazdák ujjonganak

🌾 A gazdák életét egy új MI-modell könnyíti meg Seattle-ben, ahol a Carbon Robotics nevű cég olyan robotokat gyárt, amelyek lézerekkel irtják a gyomnövényeket...

hétfő 20:20

Az állami hekkerek feltörték a Notepad++-t

A Notepad++ fejlesztői bejelentették, hogy a népszerű szövegszerkesztőt célzott kibertámadás érte, amelynek hátterében valószínűsíthetően egy államilag támogatott szereplő áll...

hétfő 20:01

A csodahozamot ígérő átverések világszerte terjednek

A hamis, szuperhozamot ígérő befektetési programok (HYIP) terjedése újabb csúcsra ért: ezek a csalások irreális hozamokat, például 40%-os nyereséget 72 óra alatt ígérnek, miközben semmilyen valódi megtérülést nem biztosítanak...

hétfő 19:57

A kezdő futó felszerelése: mi kell, és mi pénzkidobás?

Felmerül a kérdés, hogy mire van szükség, ha most kezdesz el futni...

hétfő 19:38

Az első MI-közösségi oldal, ahol robotok robotoknak posztolnak

🤖 Fontos kérdés, hogy mi történik, ha a közösségi oldalakon nem emberek, hanem MI-k kommunikálnak egymással...

hétfő 19:22

Az örökké változó Univerzum: üveglemezek és óriástávcsövek nyomában

Az éjszakai égbolt egy évszázadnyi története rejtőzik poros üveglemezeken és a legmodernebb csillagászati szuperszámítógépek adatfolyamában...

hétfő 19:01

A Starbucks robotokra bízná a nagy megújulást

A Starbucks hatalmas összegeket fektet MI-alapú automatizálásba: robotokat tesztelnek, amelyek átveszik az autós kiszolgálásnál a rendeléseket, virtuális asszisztensekkel segítik a baristák munkáját a receptek és a beosztások terén, valamint digitális rendszerekkel mérik a készleteket...

hétfő 18:55

Az új fehérje áttörést hozhat a depresszió és bélpanaszok kezelésében

💡 A krónikus stressz kikezdi a bél védőrétegét, fokozva az áteresztőképességet, amit a köznyelv csak „lyukas bél” szindrómaként emleget...

hétfő 18:37

Az óceán rejtőzködő zsenije, akit a saját esze veszélyeztet

Érdemes megvizsgálni, hogy egy látszólag sikeres evolúciós stratégia hogyan lehet végzetes gyengeség forrása a Föld egyik legelterjedtebb élőlénye számára...

hétfő 18:21

Az MI-uralta munkahelyek 2026-os rejtett buktatói

Érdemes megvizsgálni, hogy az MI-vel kapcsolatos várakozások és a valóság között milyen szakadék tátong napjainkban...

hétfő 18:01

Az MI a bűnbak, vagy máshol van a gond?

🤔 Az elmúlt évben több mint 50 ezer elbocsátást indokoltak hivatalosan mesterséges intelligenciával...

hétfő 17:37

Az iPhone-ra megérkezik a Vivo és az Oppo teleobjektív-kiegészítője

A PGYTech különleges kamerás szettel teszi profibbá az iPhone 16 Pro és Pro Max, illetve az iPhone 17 Pro és Pro Max készülékeket...

hétfő 17:19

A TikTok leáll, Amerika forrong – itt az új vihar

Amerikában napokra teljesen leállt a TikTok, miután a téli viharok miatt megsérült az Oracle egyik legfontosabb, általa üzemeltetett adatközpontja...

hétfő 17:02

Az indiai kormány gigantikus adókedvezménnyel vadássza a felhőóriásokat

💸 India újabb lépést tett, hogy a világ technológiai központjává váljon, és 20 évig tartó adómentességet kínál azoknak a külföldi cégeknek, amelyek Indiából kiszolgálva nyújtanak felhőalapú adatokat a világ bármely más országába...