2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 12:02

A jövő erdei veszélyben: gyors növekedés, ingatag alapok

🌲 A világ erdői gyors ütemben változnak, ám a fejlődés csalóka: az erdők uniformizálódnak, elveszítik sokszínűségüket és egyre sérülékenyebbé válnak...

MA 11:55

Az olcsó Wegovy-utánzat visszavonása után szárnyal a Novo Nordisk

📈 A Novo Nordisk részvényei hétfő reggel közel 8%-kal emelkedtek, miután a Hims & Hers nevű telemedicina-szolgáltató visszavonta a Wegovy nevű fogyókúrás tabletta másolatának forgalmazását...

MA 11:37

Az iPhone 17 felforgat mindent: új chip és MagSafe érkezik

Az Apple hamarosan bemutathatja az új iPhone 17e-t, amely az iPhone 17 szériából ismert A19 chipet kap, és támogatja a MagSafe vezeték nélküli töltést is...

MA 11:19

A hatalmas Bithumb-botrány után bekeményít Korea

Dél-Korea pénzügyi felügyelete szigorú lépéseket készít elő, miután a Bithumb nevű kriptotőzsde súlyos hibát vétett: egyes felhasználókat véletlenül fejenként 2 000 bitcoinnal jutalmazott, ami akkoriban mintegy 44 milliárd dollárnak, vagyis csaknem 16 000 milliárd forintnak felelt meg...

MA 11:01

Az iPhone 17 lepipálja a Pixel 10a-t?

A Google február 18-án mutatja be a Pixel 10a-t, ám az Apple sem tétlenkedik: kiszivárgott, hogy hamarosan érkezik egy jóval olcsóbb iPhone, a 17e is, amely komoly riválisa lehet a Pixelnek...

MA 10:57

Az AT&T olcsó gyerekmobilja, amit teljesen te irányítasz

Az okostelefon ma már a legtöbb gyerek életének része, de sok szülő szeretné korlátozni a használatát...

MA 10:49

Az elveszett aranyszövet – visszatér a tengerek legendája

Egy ritka, luxusnak számító aranyszövetet, amelyet kétezer évig csak császárok és pápák viselhettek, sikerült újraalkotni dél-koreai tudósoknak...

MA 10:41

Az új NotebookLM-funkció turbófokozatba kapcsolja a jegyzetelést

A Google legújabb fejlesztése, a Personal Intelligence, hamarosan a NotebookLM-ben is megjelenhet...

MA 10:33

Az AirFish, a tenger felett repülő hajó forradalma

Szingapúrban hamarosan teljesen új élmény vár a nyaralókra: a tenger felett, nem pedig a vízben száguldhatnak céljuk felé...

MA 10:26

Az amerikai makroadatok padlóra küldhetik a Bitcoint

Többek között négy jelentős amerikai gazdasági esemény mozgathatja meg e héten a Bitcoin árfolyamát...

MA 10:04

Az első brit klímamenekültek: végre maguk mögött hagyják otthonaikat és traumáikat

Negyven környékbeli lakó évekig rettegtek a walesi Clydach Terrace utcájában az áradásoktól és a természeti csapásoktól, míg végül a helyi önkormányzat úgy döntött, 2,6 millió fontért (~1,14 milliárd forintért) felvásárolja az ingatlanokat...

MA 09:49

Az aloe vera rejtett hatóanyaga áttörést hozhat az Alzheimer-kór ellen

🌿 Fontos kérdés, hogy lehet-e természetes anyagokkal felvenni a harcot az Alzheimer-kór ellen...

MA 09:41

Az anyag különleges fázisai: szuperfolyadékból szuperszilárd – és vissza

A kutatók először figyelték meg, hogy egy szuperfolyadék visszafordítható módon alakul át szuperszilárddá – ezzel új lehetőségeket nyitva az extrém anyagállapotok vizsgálatában...

MA 09:34

A kamu OpenAI-reklám a Super Bowlon mindenkit megvezetett

Nem, Alexander Skarsgård nem bohóckodott Jony Ive-val és az OpenAI első ChatGPT-kütyüjével – az egész egy jól eltervezett átverés volt...

MA 09:18

A kínai hekkerek tombolnak, az amerikai távközlési óriások némák

🚨 Az elmúlt hónapokban drámai események rázták meg az amerikai távközlési szektort: kínai hekkerek, akiket Salt Typhoon néven azonosítottak, mélyen behatoltak a legnagyobb szolgáltatók – köztük az AT&T és a Verizon – rendszereibe...

MA 09:09

Az új LineageOS szinte Pixel-szintre emeli bármelyik telefont

📱 A LineageOS 23.2 frissítése elhozta a Pixel telefonok két legjobb fejlesztését a testreszabható Android ROM-ok világába...

MA 09:02

Az izlandi mikrobák kisiklatják a nitrogénkört: éheznek a növények

🌋 Izlandon forró vizek, földrengések és gejzírek között kiderült: a talajban élő mikrobák elkezdtek nitrogént felhalmozni maguknak, miközben egyre kevesebbet juttatnak vissza a növényeknek...

MA 08:57

Az auróra hullámainak titkai: így működik az égi fényshow

🌌 Az aurórák, vagyis a sarki fények, elképesztő fénysávokként ragyognak fel az éjszakai égbolton, főként a Föld sarkvidékei körül...

MA 08:49

Az MI áttörést hozhat a lítiumion-akkuk fejlesztésében

⚡ A lítium-ion akkumulátorok fejlesztése évekbe telik, rengeteg pénzbe kerül, és hatalmas mennyiségű áramot igényel, mert az új terveket eddig csak hosszú fizikai teszteléssel lehetett kipróbálni...

MA 08:43

Az agyhálózat, amely átírhatja a Parkinson-kutatás szabályait

A Parkinson-kór világszerte több mint 10 millió embert érint, Magyarországon is komoly kihívást jelent...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 2/9

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

MA 06:05

Történelmi események a mai napon (Február 9.)

Rázós nap ez a történelemben: Massachusettset lázadásban nyilvánítják, Jefferson Davist ideiglenes elnökké választják a Konföderáció élére, a Beatles berobban az amerikai tévébe, és a Halley-üstökös utoljára feltűnik a belső Naprendszerben...

vasárnap 09:42

Miért eszik meg a gyerekek a saját taknyukat?

🤢 A gyerekek, felnőttek és más főemlősök, például a csimpánzok is ismertek arról, hogy piszkálják az orrukat és megeszik a taknyukat...

vasárnap 09:33

A Hims & Hers lebukott: hamis fogyókúrás tablettákat árult

💊 A Hims & Hers szombaton bejelentette, hogy leállítja a Wegovy másolatának értékesítését, miután a Novo Nordisk és az amerikai Élelmiszer- és Gyógyszerügyi Hatóság (FDA) jogi lépésekkel fenyegette meg a távegészségügyi szolgáltatót...

vasárnap 09:25

Az Anthropic örökre lemondott a reklámokról – de vajon tartható ez az ígéret?

🤔 Az Anthropic csatlakozott azon márkák hosszú listájához, amelyek megfogadták, hogy reklámmentes maradnak...

vasárnap 09:08

A Waymo Fülöp-szigeteki dolgozói csendben irányítják az önvezető autókat

A Waymo szerdán meglepte az amerikai törvényhozókat egy autonóm járművekkel foglalkozó meghallgatáson...

vasárnap 08:56

Az olvasás halála: tévhit vagy valóság?

Valóban szétrombolták a digitális technológiák a figyelmünket, és kiszorították a könyveket a kultúránkból?..

vasárnap 08:50

Az emberiség közös ősére deríthet fényt egy 773 000 éves marokkói lelet

🦴 Egy marokkói barlangból előkerült fosszíliák kivételes pontossággal, körülbelül 773 000 évvel ezelőttre datálhatók, köszönhetően a környező üledékekben rögzült mágneses lenyomatnak...

vasárnap 08:41

A Bitcoin 50%-os zuhanása nem válság, hanem természetes volatilitás

Gary Bode fedezeti alap veterán szerint a Bitcoin közel 50%-os esése a közelmúltbeli csúcsokról nem rendszerszintű válságot jelez, hanem összhangban van a kriptovaluta történelmével, amely során hasonló mértékű, de történelmileg mindig átmeneti zuhanások voltak jellemzőek...