A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 11:02

Az új kínai robot annyira élethű, hogy fel kellett vágniuk

🤖 A kínai Xpeng autógyártó bemutatta legújabb humanoid robotját, az IRON-t, amely olyan természetes mozdulatokra képes, hogy a vállalat képviselői élőben, a színpadon felvágták, hogy bizonyítsák: nincs benne elrejtőzött ember...

szombat 12:19

Az otthoni robot, amely majdnem annyiba kerül, mint egy autó

Ez a robot 168 cm magas, tömege pedig nagyjából egy golden retrieveréhez hasonlítható, ára pedig majdnem egy új, olcsó autóéval vetekszik...

hétfő 14:02

A legfárasztóbb római istenségek: abszurd védelmezők panteonja

Nem szeretnénk kitérni a szerelem, a villámlás, vagy a háború isteneire, ilyene bárkiknek lehet, nézzünk valami eredetibbet...

MA 17:02

Az agy immunsejtjei segíthetnek megállítani az Alzheimer-kórt

A mikroglia, vagyis az agy immunsejtjei kettős szerepet töltenek be Alzheimer-kórban: egyszerre képesek megóvni az agyat a káros hatásoktól, ugyanakkor bizonyos körülmények között fokozhatják a gyulladást és a károsodást...

MA 16:52

Az eddigi legnagyobb rádiókép a Tejútról: 40 000 óra alatt készült el

Egy most elkészült, lenyűgöző rádiótérkép új megvilágításba helyezi a Tejútrendszer déli féltekéről látható galaktikus síkját, bepillantást engedve a csillagok születésébe és halálába...

MA 16:13

Húsz éve figyeljük a Techmeme oldalát csendben

Kerek évfordulóját ünnepli a Techmeme, amely már két évtizede nap mint nap meghatározza, mit olvas és miről beszél a tech világ...

MA 15:50

Az UPS és a FedEx földre parancsolták az MD-11 gépeiket egy tragédia után

Az amerikai UPS logisztikai óriás minden MD-11-es repülőgépét földre parancsolta, napokkal azután, hogy egy ilyen típusú teherszállító repülőgép balesetében legalább 13 ember vesztette életét Kentuckyban...

MA 15:22

Az ultracsendes NASA szuperszonikus repülő új korszakot nyit

A NASA és a Lockheed Martin közös fejlesztése, az X-59 nevű kísérleti szuperszonikus repülőgép először emelkedett a levegőbe, és történelmet írhat azzal, hogy a hangsebesség átlépésekor a morajlás helyett csupán egy halk „dörrenés” hallatszik...

MA 15:13

Az Apple új üveghatású dizájnja tényleg jobb, vagy csak átlátszóbb?

Két hónapja jelent meg az iOS 26, amelyben az Apple gyökeresen átalakította az iPhone felületét...

MA 15:01

Az amerikaiak rálelnek a világ rejtett kincseire – 2026 legtrendibb úti céljai

🌎 Az utazás világa 2026-ban izgalmas változások előtt áll: az amerikaiak egyre inkább felfedezik saját hazájuk kevésbé ismert szegleteit is, miközben külföldre is szívesen kirándulnak új, turisták által alig érintett helyekre...

MA 14:51

Idén Black Friday alkalmával is vásárolj biztonságosan, használd ezt a privát VPN-t

Pár nap, és elstartol a Black Friday, a vásárlási láz már most érezhető...

MA 14:41

Az MI már veszélyesebb, mint a kollégád – így védd a céged!

⚠ A vállalatok egyre gyorsabban vetik be a generatív MI-t és az intelligens MI-ügynököket, ezzel azonban komoly biztonsági kockázatoknak teszik ki magukat...

MA 14:32

Az MI-lázban is szárnyalnak a Wall Street kedvenc techrészvényei

📈 Az MI-alapú részvényeknél tapasztalható magas értékelések uralják a piacokat, sok befektető tart egy újabb MI-lufi kialakulásától...

MA 14:22

Egy olcsó MacBook újra divatba hozhatja a netbookokat

💻 A netbookok árnyékában: az Apple olcsó gépet tervez Az Apple egy új, kifejezetten kedvező árú MacBookon dolgozik, amelyet egy, mobiltelefonokban is használt lapka hajtana...

MA 14:13

Öt képernyő nélküli fitnesztracker zavartalan edzésekhez

A mai okosórák minden értesítéssel és villogó képernyővel tűnnek ki, sokan azonban inkább visszavágynak a letisztultabb, figyelemelvonástól mentes fitneszkarperecekhez...

MA 14:01

Az elveszett pörölycápák titkait tárja fel a tengervíz DNS-e

🐟 A Florida International University tudósa forradalmi módszert alkotott a pörölycápák felkutatására – anélkül, hogy egyet is meg kellene figyelni az óceánban...

MA 13:51

Érkezik Attenborough új sorozata, a Birodalom az év természetfilmje

Sir David Attenborough vadonatúj sorozata, a Birodalom (Kingdom) öt éven át kísér négy állatcsaládot Zambia vadregényes Dél-Luangwa Nemzeti Parkjában...

MA 13:41

Az emberi kéz még számít: Pluribus keményen beszólt az MI-nek

Vince Gilligan, a Totál szívás (Breaking Bad) alkotója új sorozatával, a Pluribus-szal (Pluribus) egyértelműen üzent a világnak: kiírták a stáblistára, hogy ezt a sorozatot még emberek készítették...

MA 13:32

Az eső igazi forrása az erdő, nélkülük jöhet az aszály

A klasszikus elképzeléssel szemben nemcsak az számít, mennyi eső esik, hanem az is, honnan származik a csapadék...