A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 14:33

Az aktív hőmetafelületek kilencszeresére erősítik a hőjelet

🔥 A fény világában már ismert a szuperszórás nevű jelenség: ilyenkor egy parányi tárgy a méreténél jóval több fényt szór szét...

MA 14:18

Az internet kevésbé toxikus, mint a hírneve

😃 Az amerikaiak többsége úgy érzi, az online tér sokkal ellenségesebb, mint amilyen valójában...

MA 14:02

A „fitt” férfi majdnem belehalt: sztrókot okozott az energiaital

Noha az energiaitalokat sokan ártalmatlannak tartják, egy nottinghami férfi esete rávilágít arra, mennyire veszélyes lehet túlzásba esni velük...

MA 13:49

Az MI alatt roskadozik az európai internet?

Az MI elképesztő terhelést jelent a kontinens digitális hálózatainak – a Nokia szerint pedig az európai internet egyszerűen túl kicsi lett ahhoz, hogy megbirkózzon a növekvő adatforgalommal...

MA 13:33

Az új influenzavariáns tarol, megtelnek a kórházak

Egy újfajta influenzaváltozat, az úgynevezett K-alfaj, komoly megbetegedési hullámot indított el világszerte, beleértve az Egyesült Államokat, az Egyesült Királyságot, Kanadát és Japánt...

MA 13:17

A RedotPay lett a stabilcoin-piac új királya

💵 A RedotPay, a stabilcoin-alapú fizetési fintech 194 millió dollárra (több mint 70 milliárd forint) növelte tőkéjét, miután 2025 novemberében sikeresen lezárt egy 107 millió dolláros (közel 39 milliárd forintos) Series B befektetési kört...

MA 13:02

A színes szúnyogok forradalma: így állítjuk meg a betegségeket

A jeruzsálemi Héber Egyetem kutatói egy új, színkódolt genetikai módszert fejlesztettek ki, amellyel egyszerűen megkülönböztethetők a hím és nőstény szúnyogok...

MA 12:49

Az ország adatai veszélyben: brutális adatlopás rázza meg Dél-Koreát

Dél-Korea vezető online kereskedelmi vállalatát, a Coupangot soha nem látott mértékű kibertámadás érte, amelynek során csaknem minden munkaképes korú felnőtt személyes adatai kikerültek...

MA 12:17

Megmentheti az új vezérigazgató a bajban lévő Kraft Heinzet?

🤔 A Kraft Heinz bejelentette, hogy Steve Cahillane, a Kellanova korábbi vezérigazgatója veszi át a cég vezetését, és segít a vállalat kettéválasztásában...

MA 12:03

Az Avatar kezdőcsomag: kihagyhatatlan ajándék az újonc Magic-játékosnak

🎁 A Magic: The Gathering világában az új rajongók bevonzása folyamatos kihívás, főleg, ha valaki egyedi tematikával ismerkedne meg...

MA 11:50

Az IMAP űrszonda már a Naprendszer peremét térképezi

🛰 A NASA Interstellar Mapping and Acceleration Probe (IMAP) űrszonda fedélzetén működő, a Southwest Research Institute által fejlesztett Compact Dual Ion Composition Experiment, vagyis a CoDICE nevű műszer már megkezdte első megfigyeléseit...

MA 11:33

A Meta árnyékában tomboló gigászi kínai hirdetési csalás

A Meta – annak ellenére, hogy Kínában tiltott a közösségimédia-platformjainak használata – évi több mint 6 400 milliárd forint (18 milliárd USD) bevételt termel Kínából származó reklámokból...

MA 11:18

Az Amazon visszaverte az orosz GRU hekkereinek támadását

🔒 Az Amazon Threat Intelligence csapata sikeresen megzavarta annak az orosz katonai hírszerzéshez, a GRU-hoz köthető hekkercsoportnak a tevékenységét, amely rendszeresen támadta a felhőalapú infrastruktúrákat...

MA 11:02

Az MI-chatbotok forradalma: fiatalok vezetik a katasztrófaelhárítást

💥 Az elmúlt évtizedben az Egyesült Államokat egyre súlyosabb időjárási események sújtják, amelyek több mint 2,7 billió forintnyi gazdasági veszteséget és 6403 halálesetet okoztak...

MA 10:51

Az agy belső GPS-e vezet, hogy ne tévedjünk el

Képzeld el, ahogy hazafelé sétálsz, aztán véletlenül rossz irányt veszel – az agyad szinte azonnal figyelmeztet, hogy eltévedtél...

MA 10:45

A klímabiztos menedék mítosza: van-e hov á futni?

🌀 Különösen igaz ez, amikor az éghajlatváltozás okozta válság új kihívások elé állítja a városokat...

MA 10:36

A sivatagból előkerült egyiptomi naptemplom döbbenetes titkai

Közel 4 500 éves völgyi templom került elő Egyiptomban, amely nemcsak egyedülálló vallási kalendáriumot, hanem valószínűleg csillagászati megfigyelésekre szolgáló tetőt is rejt...

MA 10:29

A Zesty új appja: étteremkeresés MI-vel, profik módjára

A DoorDash most elindította legújabb MI-alapú alkalmazását, a Zesty-t, amely kifejezetten arra készült, hogy gyorsan és egyszerűen találj új helyi éttermeket...

MA 10:22

Az év legnagyobb tech-áttörései, amelyek átírják a jövőt

A számítástechnika világában az idő és a memória egyaránt kulcsfontosságú erőforrás...