A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 07:57

A mesterséges intelligencia már önállóan böngészik a Brave-ben

A Brave böngésző új, MI-alapú böngészési funkcióval kísérletezik, amely lehetővé teszi, hogy az adatvédelembarát Leo asszisztens automatikusan végezzen el különböző feladatokat...

MA 07:50

A Google új funkciójával a szelfidben próbálhatod fel a ruhákat

👗 Mostantól elég egy szelfi ahhoz, hogy az MI-vel működő Google-ruhapróbálót használd, nem kell felállni, és egész alakos képet készíteni...

MA 07:44

A brit adatvédelmi hatóság lecsap: bírság a LastPassnak adatlopásért

A brit adatvédelmi hatóság, az ICO, 1,2 millió font (kb. 545 millió forint) pénzbírságot szabott ki a LastPass jelszókezelő szolgáltatóra, miután 2022-ben mintegy 1,6 millió brit felhasználó adatait lopták el egy sorozatos biztonsági incidens során...

MA 07:36

Az MI úttörői az év emberei lettek

🤖 Az MI-építészeit választotta az év emberének a Time magazin, elismerve azt a fordulópontot, amikor 2025-ben már megállíthatatlanul berobbant a mesterséges intelligencia korszaka...

MA 07:29

Az Apple bukása nyithatja meg a Fortnite új korszakát

🎮 Az Epic Games nagyot nyert az Apple elleni hosszan tartó perben, és a döntés új lehetőségeket nyit meg minden fejlesztő előtt...

MA 07:22

Az EU nagyot változtat a génszerkesztett élelmiszerek szabályain

Az Európai Tanács és az Európai Parlament megállapodott az új géntechnológiai eljárások (NGT-k) átfogó szabályozásáról, ez pedig mérföldkőnek számít az uniós agrárium modernizálásában...

MA 07:16

Az OpenAI berobbant: megérkezett a GPT-5.2

🚀 Jellemző példa erre, hogy az OpenAI legfrissebb MI-modellje, a GPT-5.2 csütörtökön három változatban – Instant, Thinking és Pro – debütált a ChatGPT platformján...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/12

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Mindkeeper : The Lurking Fear (iPhone/iPad)A Mindkeeper: The Lurking Fear egy hangulatos, rejtélyekkel teli videojáték, amelyben H...

MA 07:09

Az új Notepad++-verzió véget vet a kártékony frissítéseknek

🔒 Külön említést érdemel, hogy a Notepad++ fejlesztői kiadták a 8.8.9-es verziót, amely lezár egy súlyos biztonsági rést...

MA 07:02

Az orosz hackerek öngólja: lebuktatja őket a saját zsarolóvírusuk

Felmerül a kérdés, hogy mit hoz a legújabb orosz hekkercsoport, a CyberVolk visszatérése a digitális alvilágba, és mekkora veszélyt jelenthetnek valójában az új zsarolóvírus-szolgáltatásukkal...

MA 06:59

Az év gigaüzlete: tényleg felvásárolja a Netflix a Warner Bros.-t?

Ahogy 2025-ben a médiabirodalmak háborúja egyre forróbb, rekordméretű felvásárlási ajánlatok repkednek Hollywood egén...

MA 06:52

Altman vagy Musk: Kié a holnap mesterséges intelligenciája?

🤖 2015 decemberében Sam Altman és Elon Musk közösen elindították az OpenAI nevű nonprofit kutatólabort...

MA 06:44

Az iskolások fele véletlenül félrevezető holokauszt‑tartalmakba botlik online

📜 Szinte minden második brit diák találkozott már igazolatlan vagy félrevezető holokauszt-tartalommal a közösségi médiában, anélkül, hogy azt szándékosan kereste volna...

MA 06:37

Az alváshiány és a szorongás padlóra küldi az immunrendszert

😷 Stressz, szorongás és kialvatlanság nemcsak a lelki nyugalmat rombolja, hanem a szervezet védekezőképességét is gyengíti...

MA 06:29

Az óceán mélye lehet a Föld titkos szén-dioxid-szivacsa

Az óceánfenék alatt 60 millió éve keletkezett kőzetminták segítettek a kutatóknak megérteni, hogyan lehet a szén-dioxid hatalmas mennyiségét akár évmilliókig a föld alatt tartani...

MA 06:23

A tengerszint emelkedése elnyelheti a massachusettsi félszigetet

🌊 A festői Apple Street, amely a Massachusetts-i Cape Ann félszigeten fut, első pillantásra képeslapra illő új-angliai hangulatot áraszt...

MA 06:15

Az amerikai naptejek végre utolérhetik Európát

🌞 Az Egyesült Államokban hamarosan korszerűbb, hatékonyabb naptejek jelenhetnek meg a boltokban, köszönhetően a Food and Drug Administration (FDA) friss javaslatának...

MA 06:09

Az Oracle adatközponti költségrobbanása letaglózza a tőzsdét

💸 Az Oracle részvényei 11 százalékot estek csütörtökön, miután a társaság a vártnál gyengébb negyedéves bevételről számolt be, miközben évi adatközpont-beruházási tervét 5500 milliárd forintra (kb...