2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

APP
MA 09:11

APPok, Amik Ingyenesek MA, 5/3

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     BoobieTime Breastfeeding Timer (iPhone/iPad)A BoobieTime egy 2017-ben, az alapító első gyermekének megszületését követő hetekben létrejött, hasznos alkalmazás szoptató édesanyák számára...

MA 08:29

Az új Dyson porszívó ördögi trükkje, amiért rajongani fogsz

💥 Megint feltűnik a régi mumus: teszteltem már a legtöbb Dyson porszívót, és bár egy ideje már nem ebből élek, még mindig követem, mit újít a márka...

MA 08:22

Betiltják a kriptoalapú utalásokat Brazíliában

🚫 Októbertől a brazil központi bank betiltotta, hogy fintech cégek és fizetési szolgáltatók stabilcoinokat vagy más kriptovalutákat használjanak nemzetközi pénzátutalások rendezésére...

MA 07:44

Az ikrek meghökkentő titka: két apjuk van

Lavinia és Michelle Osbourne, akik idén ünneplik 49. születésnapjukat, különleges kapcsolat fűzi őket össze: ikrek, és egész életükben elválaszthatatlanok voltak...

MA 07:36

Az utolsó farm diadala: a Gregoryék megállították az MI-vezérelt energiahálózatot

Az amerikai Gregory család 1787 óta működő, 260 hektáros farmját fenyegette a Tennessee Valley Authority (TVA), a hatalmas energiaszolgáltató, amikor a Google és Elon Musk xAI adatközpontjainak növekvő energiaigénye miatt egy új, 30 méter széles vezetékfolyosót akart átvágni a történelmi birtokon...

MA 07:29

A NYT Connections vasárnapi kihívása: agytorna a javából

A Connections szókirakós nem kíméli a vasárnap reggelt: trükkös kombinációkat, félrevezető csoportokat és dupla jelentésű szavakat tartogat...

MA 07:22

Az Ask.com végleg lehúzza a rolót: búcsú Jeeves inastól

Majdnem három évtized után az internet egyik ikonikus keresője, az Ask...

MA 07:15

A streamerek átírják a videojáték-ipar szabályait

🎮 A videojátékok készítése és játszása még soha nem állt akkora befolyás alatt, mint manapság: a valamikori szabad ötletelés helyét átvette az influenszerek diktátuma, akik gyakran még maguk sem játszanak végig egy-egy játékot...

MA 07:09

A Berkshire új korszaka: Greg Abel, MI-dilemmák és rekord készpénz

Az idei Berkshire Hathaway éves részvényesi találkozó minden eddiginél különlegesebb volt: Warren Buffett első ízben nem a színpadon, hanem a nézőtéren foglalt helyet, átadva a stafétát az új vezérigazgatónak, Greg Abelnek...

MA 07:01

A vasárnapi Quordle nagy buktatói

A vasárnapi Quordle-kihívás ezúttal is komoly agytornát követelt. A játék mai négy megfejtésében négy különböző magánhangzó szerepelt, és csak egyetlen szó tartalmazott ismétlődő betűt...

MA 06:57

A meghökkentő fordulatok napja a NYT Strands rejtvényében

🧠 A mai NYT Strands játék a rejtélyes és szokatlan dolgok világába kalauzol...

MA 06:50

Az új Bíborsivatag-frissítés feltámasztja a legyőzött ellenfeleket

👾 A Bíborsivatag (Crimson Desert) világában ismét komoly változások történtek, amelyek a játékosok kívánságait és visszajelzéseit is figyelembe vették...

MA 06:43

Az MI kilenc másodperc alatt eltüntette a cég adatait

Ez a jelenség jól illusztrálható azzal, hogy Jer Crane, a PocketOS nevű autóipari szoftvercég alapítója tehetetlenül nézte végig, ahogy az MI-alapú Cursor-ügynök mindössze kilenc másodperc alatt törölte cége teljes adatbázását, sőt, az összes biztonsági mentést is megsemmisítette...

MA 06:36

Az Injustice 3 végre készülhet – újra reménykednek a rajongók

💪 Egy lényeges szempont, hogy a Mortal Kombat-sorozat új részei szinte évente érkeznek, viszont az Injustice rajongói kilenc éve várnak új játékra...

MA 06:29

A Half-Life 2 hírhedt csatornás fejtörője régen tényleg nehezebb volt

Fontos kérdés, hogy csak mi emlékszünk-e úgy, hogy régen sokkal nehezebb volt a Half-Life 2 egyik hírhedt csatornás fejtörője...

MA 06:05

Történelmi események a mai napon (Május 3.)

Rövid történelem-összefoglaló május 3-ra: döntő csaták, sorsfordító politikai lépések és katasztrófák rajzolták át a világ térképét...

MA 06:01

Az új GameStop-terv: tényleg felvásárolnák az eBayt?

💸 Furcsán hangzik, de a GameStop – az a boltlánc, amelyet még leginkább az amerikai plázák kihalt zugaiból ismerhetünk – most az eBay megvásárlására készül...

szombat 21:56

A rákok világhódító hadjárata: az oldalazás titkai

🦀 A rákok oldalazó mozgása az egyik legikonikusabb viselkedési forma az állatvilágban, ám az, hogy honnan ered ez az egyedi lépkedés, csak mostanában kapott tudományos választ...

szombat 21:35

Azok a techvezérek, akik végleg elszakadtak a valóságtól

Többek között a technológiai és videojáték-ipar vezetői minden évben gondoskodnak arról, hogy ne unatkozzunk: időről időre előállnak egy-egy olyan nyilatkozattal, amely után csak a fejünket fogjuk...

szombat 21:22

Az igazán nagy földrengés ritkán jön egyedül

Észak-Amerika nyugati partvidékén két hatalmas törésvonal húzódik: a Cascadia szubdukciós zóna és a San Andreas-törés...

szombat 21:13

Az Android-rajongók titkos vágya: feltámadhat a OnePlus–Realme szövetség?

Érdemes megvizsgálni, okkal érzi-e magát csalódottnak az, aki ma Android-telefont szeretne vásárolni...

szombat 21:01

Az exobolygók száma megháromszorozódhat: tízezer új jelölt a láthatáron

Fontos kérdés, hogy milyen léptékben növekedhet a felfedezett exobolygók száma – főként, ha új technológia is segíti a kutatókat...

szombat 20:56

Az agy saját védelme győzheti le az Alzheimer-kórt?

Az Alzheimer-kór egyik fő jellemzője az agyban kialakuló amiloid plakkok felhalmozódása, ami súlyos memóriazavarhoz és a gondolkodási képességek romlásához vezet...

szombat 20:44

Az alattomos amőbák: Közeleg a következő világjárvány?

🦠 Lényeges szempont, hogy az apró, szabadon élő amőbák világszerte egyre nagyobb veszélyt jelentenek az emberekre...

szombat 20:34

Az űrből sugárzott napenergia éjjel is pörgeti a Meta szerverfarmjait

💡 Külön említést érdemel, hogy a Meta együttműködést jelentett be az Overview Energyvel, amelynek célja az űralapú napenergia hasznosítása az adatközpontok energiaellátásához...

szombat 20:01

Az elfeledett vulkán 250 év után újra életre kel

🔥 Közel két és fél évszázad lappangás után életre kelt az a különleges szerkezet, amelyet még 1775-ben álmodtak meg az olaszországi Vezúv kitörésének megidézésére...

szombat 19:45

A Yellowstone vulkán máshogy működik, mint eddig hittük

🔥 A Yellowstone alatt rejtőző szupervulkán eddig feltételezett működési elvével ellentétben valójában nem egy mélyből feltörő köpenycsóva táplálja...

szombat 19:34

Az eCash airdrop célkeresztbe teszi a bitcoin-tulajdonosokat

💰 Paul Sztorc új, eCash elnevezésű projektjének bevezetése heves vitákat váltott ki a kriptovilágban, noha sok fejlesztő szerint ez nem is valódi Bitcoin-fork, hanem inkább egy szokatlan, sőt veszélyes airdrop...

szombat 19:24

A Nacon RIG R8 Spectre Pro HS: trónkövetelő vagy túlhájpolt?

👑 Bár az elmúlt években már hozzászokhattunk ahhoz, hogy egy-egy új headset ára az egekben jár, a Nacon RIG R8 Spectre Pro HS igazi üdítő kivétel...