2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

hétfő 20:56

A Microsoft új MI-chipje háromszor veri a Google processzorát

A Microsoft legújabb fejlesztésű, Maia 200 nevű MI-chipje valóságos áttörést jelent a piacon, ugyanis háromszor nagyobb teljesítményt kínál, mint a Google TPU-ja vagy az Amazon Trainium processzora...

hétfő 20:38

A nagy olajkalauz a forrólevegős sütőhöz: mit használj, mit kerülj?

Az air fryer forradalmasította az otthoni sütést: gyors, hatékony, és minimális zsiradékot igényel...

hétfő 20:19

Az új Microsoft-chip turbót ad a mesterséges intelligenciának

A Microsoft bemutatta legújabb chipjét, a Maia 200-at, amelyet kifejezetten az MI-alkalmazások futtatására terveztek...

hétfő 20:03

Az új Resident Evil a túlélőhorror és akció csúcsmixe?

👾 A Resident Evil Requiem új szintre emeli a széria jellegzetes kettősségét: a borzongató túlélőhorrort és a pörgős akciót két főhős szemszögéből élhetjük át...

hétfő 19:56

Az igazság: így ölöd meg a telefonod akkumulátorát

Mindenki szeretné, ha a telefonja bírja a strapát akár egy hosszú napon át is, ezért sokan töltőn hagyják éjjel-nappal, hogy mindig száz százalékon legyen...

hétfő 19:37

Jön a nagy dobás: az új Starship márciusra kész

🚀 Az új, jelentősen továbbfejlesztett Starship rakéta első tesztjei március közepén várhatók, jelentette be Elon Musk a közösségi oldalán...

hétfő 19:20

Az emberiség újra a Holdra tör, előkerült a legősibb barlangrajz

🚀 Ami kezdetben ártalmatlannak tűnt, mára az űrkutatás, a betegségek gyógyítása és az emberi kultúra eredetének megértése terén is ugrásszerű áttöréseket hozott...

hétfő 19:00

A világ nincs felkészülve az egyre gyilkosabb hőhullámokra

Mintegy 3,8 milliárd ember életét változtathatja meg a növekvő extrém hőség, és bár a trópusi országok szenvedik el leginkább a következményeket, a mérsékelt égövi régiók is komoly alkalmazkodásra kényszerülnek...

hétfő 18:57

Az utolsó részecske után: meghalt a részecskefizika, vagy csak nehezebb lett?

Érdemes megvizsgálni, milyen állapotban van a részecskefizika több mint egy évtizeddel azután, hogy 2012 nyarán megtalálták a Higgs-bozont a Nagy Hadronütköztetőben (LHC)...

hétfő 18:38

A Microsoft új chipje felforgatja az MI-piacot

A Microsoft bemutatta új, második generációs mesterségesintelligencia-chipjét, a Maia 200-at, amely 30%-kal nagyobb teljesítményt ígér az azonos árkategóriájú riválisoknál...

hétfő 18:19

Az új AirTag messzebbre hallatszik, hangosabb és okosabb, mint valaha

Az Apple meglepetésfrissítéssel rukkolt elő: a népszerű AirTag mostantól nagyobb hatótávval és erősebb hangszóróval érkezik, vadonatúj külső nélkül, de jelentős technikai előrelépésekkel...

hétfő 17:57

A nappalidból igazi mozi: ezektől tényleg prémium lesz

🎥 Érdekes felvetés, hogy a tökéletesen összeállított otthoni mozi nemcsak egy nagy tévéről szól...

hétfő 17:38

Tényleg eltűnnek az adataid? Amit a törlőszolgáltatásokról tudnod kell

Személyes adataink számos adatkereskedőnél és embereket kereső oldalakon megtalálhatók – nemcsak a legismertebbeknél, hanem több ezer más helyen is...

hétfő 17:19

Az ingyenes MI is aranybánya lehet a Google-nek

A legtöbb MI-felhasználó továbbra is az ingyenes eszközöket választja, vagyis hatalmas bevételi lehetőségek maradnak kiaknázatlanul...

hétfő 17:02

A friss VMware-sebezhetőséget már gőzerővel támadják

⚠️ Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) sürgős figyelmeztetést adott ki egy kritikus súlyosságú VMware vCenter Server sebezhetőségről, amelyet támadók már aktívan kihasználnak...

hétfő 16:55

A 2026-os Windows 11 első frissítése totális káoszt okozott

💥 Az év első Windows 11-frissítése igazi katasztrófát okozott a Microsoftnál. Először leállásokat jelentettek egyes gépeken a januári javítás telepítése után, ezért a Microsoft gyors sürgősségi javítást adott ki...

hétfő 16:38

Az Nvidia letaszítja az Apple-t a félvezetők trónjáról

Az idei évben teljesen új fejezet nyílik a globális félvezetőiparban: az Nvidia várhatóan felülmúlja az Apple-t, és a világ legnagyobb szerződéses chipgyártójának, a tajvani TSMC-nek a legnagyobb ügyfelévé válik...

hétfő 16:19

A történelmi nukleáris béke pillanata elérkezett

Több mint nyolc éve nem robbantottak fel atomfegyvert a világon – ez új rekord az atombomba korának kezdete óta...

hétfő 16:01

Az MI-forradalom átírja, mit jelent ma a karriersiker

Az idei davosi Világgazdasági Fórumon Jensen Huang, az Nvidia vezetője meghökkentő gondolatot fogalmazott meg: az MI várhatóan a fizikai munkát igénylő pozíciók számát növeli...

hétfő 15:57

A nano-hidroxiapatit letaszítja a fluoridot a trónról?

Érdekes felvetés, hogy a fluorid körüli vita egyre hevesebb, miközben egyre többen keresnek alternatívát a hagyományos fogkrémek helyett...

hétfő 15:38

A sós tavaszi óceán megduplázza az El Niño szélsőségeit

🌊 A nyugati Csendes-óceán tavaszi felszíni vizeinek szokatlanul magas sótartalma drámai módon növeli az El Niño rendkívül erős, időjárást felforgató eseményeinek esélyét...

hétfő 15:19

Az FBI simán megszerezheti a BitLocker-kulcsaidat

A Microsoft megerősítette, hogy hivatalos jogi megkeresés esetén kiadja a felhasználók BitLocker-titkosítási kulcsait az FBI-nak...

hétfő 15:02

Az új Proton VPN: Linuxon végre igazi élmény mindenkinek

A svájci Proton VPN nagy bejelentéssel rázta fel a Linux világát: óriási megújuláson megy át mind a grafikus felületű (GUI), mind a parancssoros (CLI) alkalmazása...

hétfő 14:56

A dollár szabadesésben, aranyláz söpör végig a piacon

💲 Érdemes látni, hogy az amerikai dollár hirtelen zuhanása pénteken vette kezdetét, miután kiderült: a New York-i Fed valóságos ritkaságnak számító „rate check”-et (árfolyam-ellenőrzést) végzett a dollár/jen árfolyamon...

hétfő 14:37

Az újabb bitcoin-zuhanás: jön a negyedik vesztes hónap?

A bitcoin árfolyama már negyedik egymást követő hónapban lehet veszteséges, amire utoljára 2018-ban volt példa...

hétfő 14:19

Az otthon sem mindig biztonságos: így védd magad egyedül

A hosszabb időt egyedül otthon töltők számára sok fejfájást okozhat a biztonság kérdése...

hétfő 14:02

A Brax Open Slate: tablet, amely fittyet hány a Big Technek

A Brax Technologies újabb merész lépést tesz a független okoseszközök piacán: bemutatta Open Slate nevű 2 az 1-ben táblagépét, amely egyszerre szolgál fogyasztói táblagépként és teljes értékű, ARM-alapú Linux munkaállomásként...

hétfő 13:55

A sci-fi világában tényleg nincs helye az MI-nek?

🤖 Az utóbbi hónapokban egyre több népszerű sci-fi szerző és kulturális rendezvény áll ki az MI-vel generált alkotások ellen...

hétfő 13:37

A rekord bitcoinnyereség szárnyakat ad a Metaplanetnek

A Metaplanet jelentős változásokon ment keresztül 2025 végén, amikor több mint 100 milliárd jen összegű számviteli veszteséget volt kénytelen elszámolni a bitcoin árfolyamának ingadozása miatt...