2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 20:23

Az ötmillió elveszett bitcoin zárolása megrázhatja a piacot

💸 A kriptopiac egyik legforróbb dilemmája azzal a javaslattal váltott ki vitát, hogy több mint ötmillió, évek óta mozdulatlan bitcoin sorsát átírják: egyesek szerint csak így védhetők meg a jövőbeli kvantumszámítógépes támadásokkal szemben, mások viszont áthághatatlan elvi tilalomnak tartják minden ilyen beavatkozást...

MA 20:12

A predikciós piacok valódi ereje: nem a tömeg számít

📊 Egészen máshogy működnek a predikciós piacok, mint azt a legtöbben gondolnák...

MA 20:01

Az őrült középkor: scriptorium, ahol a majomfarokból művészet lesz

Érdemes megvizsgálni, milyen őrült világot kínál a Scriptorium: itt mindenből bármi lehet, és a középkori illusztrációk határát csak a képzelet szabja...

MA 19:56

A kriptomilliárdos álom Európában: keményen figyelmeztet a Bybit-vezér

💸 Érdemes megvizsgálni, hogy az európai kriptovaluta-piac szabályozása mennyire elégséges a nyereségességhez...

MA 19:45

Az Imagine Dragons énekesének lövöldéje hétvégenként ingyenes

A Last Flag című új, többjátékos lövöldözős játék, amelyet az Imagine Dragons énekese, Dan Reynolds stúdiója, a Night Street fejlesztett, júniusban debütált a Steamen...

MA 19:34

A mezcalos üveg alján lapuló „féreg” valódi titka

🧙 Évtizedek óta uralkodik a rejtély az alkoholos italok egyik kultikus különlegessége körül: a mezcalüvegek alján heverő, halvány és összegömbölyödött „féreg” mára szinte összenőtt a mexikói ital misztikumával...

MA 19:23

Az igazi fenevad visszatér: Riddick visszavág

Érdemes megvizsgálni, hogy egy játék, amely a 2000-es évek közepén alaposan átírta a konzolos FPS-ek szabálykönyvét, több mint egy évtizeddel később is képes-e ugyanazt a sötét, vad mámort előidézni...

MA 19:12

Az újabb DeFi-botrány után vége a decentralizált pénzforradalomnak?

Minden korábbinál nagyobb támadás érte a decentralizált pénzügyi rendszereket, amikor a KelpDAO-t hatalmas, 105 milliárd forintos (292 millió dolláros) kihasználás rázta meg, és emiatt a befektetők hirtelen 4600 milliárd forintot (13 milliárd dollárt) vontak ki a teljes ágazatból...

MA 19:02

A palackpostára rábukkanni: van rá esélyed?

🚤 Egy ausztrál tengerparton nemrég előkerült egy százéves palack, benne egy első világháborús katona üzenetével, aki saját állítása szerint boldogabb volt, mint valaha...

MA 18:56

A néma MI-hibák: minden zöld, mégis minden rossz

A vállalati MI-rendszerek legdrágább hibái gyakran nem járnak látványos leállásokkal. Nincs pirosba forduló műszerfal, sem riasztás: a rendszer látszólag hibátlanul működik, de következetesen és magabiztosan rossz eredményeket ad...

MA 18:45

A bitcoinbálnák bevásárolnak, a shortosok pedig megfizetik az árát

Február óta egyre több, több mint 3,5 milliárd forintos pozíciókkal rendelkező nagy szereplő nyit agresszívan vételi (long) pozíciókat a Hyperliquid tőzsdén, ahogy a bitcoin árfolyama 21–22 millió forintról közel 28 millió forintra ugrott...

MA 18:34

Az automatizálás Mekkája: végre elkészült a Shapez 2

Fontos kérdés, hogy hogyan lehet egy gyárépítős játékot mindig izgalmassá és frissé tenni...

MA 18:22

A panamai óceáni mentőöv eltűnt – negyven év óta először

A Panamai-öbölben évtizedeken át minden száraz évszakban (december és április között) erős északi passzátszelek indították be a feláramlást, amely hideg, tápanyagokban gazdag vizet hozott fel a mélyből...

MA 16:56

A saját Wikipédiád: építsd meg MediaWikivel már ma

A tudás megosztása sosem volt ilyen egyszerű: a wiki-rendszerek segítenek szervezeteknek, közösségeknek és egyéni kutatóknak létrehozni könnyen, közösen szerkeszthető tudástárakat...

MA 16:45

A nagy DJI drónpárbaj: melyik most a legjobb vétel?

A DJI friss, 249 gramm alatti újdonsággal rukkolt elő a Lito 1 személyében, amely nagyobb szenzort, hosszabb repülési időt és fejlettebb akadályérzékelést kínál...

MA 16:34

A világegyetem egyik legnagyobb rejtett óriása leleplezve

Szinte teljesen láthatatlan volt a Földről eddig az a gigantikus galaxishalmaz, amelyet végre részletesen sikerült feltérképezniük a csillagászoknak...

MA 16:23

Az emberiség afrikai eredete: több ős, nem egyetlen

🚩 Érdekes felvetés, hogy az emberi faj eredetére vonatkozó, eddig széles körben elfogadott elképzelések valószínűleg túl egyszerűek voltak...

MA 16:12

Az első Bloodlines 2 DLC végre helyreteszi a harcrendszert

🔴 A várva várt Vampire: The Masquerade – Bloodlines 2 tavalyi megjelenése után sokan érezhették úgy, hogy valami hiányzik a játékból...

MA 16:01

Az Oppo Find X9 Ultra tarol: 2000 fotón át bizonyított

Az okostelefonos fotózás új szintre lépett az Oppo Find X9 Ultrával...

MA 15:56

Az MI forradalmasítja az állami megfigyelést – riadót fújnak a képviselők

A technológia fejlődése alapjaiban változtatja meg, hogyan figyeli meg az állam polgárait...

MA 15:34

A Hubble 30 év után újra célba veszi a Trifid-ködöt

🛰 Ötvenezer fényévnyi távolságból ismét elképesztő fotót készített a Hubble űrtávcső a Trifid-ködről, amely a Nyilas csillagképben található, és a csillagkeletkezés egyik ikonikus helyszíne az univerzumban...

MA 15:23

A mindent tudó kriptobróker: a Coinbase újraosztja a lapokat

A Coinbase egy olyan mérföldkőhöz érkezett, amelyet a Wall Street is azonnal felismer: mostantól teljes körű prime brókerként működik a kriptopiacon...

MA 15:12

Az LG C6 OLED: Lélegzetelállító fényerő, de akadnak árnyoldalak

Az LG C-sorozatos OLED tévéi évről évre a kategória legnépszerűbbjei közé tartoznak...

MA 15:01

A nagy rejtély: miért rázza a fejét a macska és a kutya?

A macskáknál gyakran előfordul, hogy evés, ivás vagy alapos simogatás után villámgyorsan megrázzák a fejüket...

MA 14:57

A gigászi adatközpont rekordszintű áraméhséggel fenyeget Utahban

Különleges beruházás készül Box Elder megyében, ahol Kevin O’Leary, a híres „Mr...

MA 14:45

Az Enter the Gungeon tízéves: Tényleg véget ér a roguelike aranykora?

Tíz év telt el azóta, hogy megjelent az Enter the Gungeon, amely több mint 14 millió példányban kelt el, és jelentős hatást gyakorolt a modern akció-roguelike műfajra...

MA 14:34

Az FA-kupa elődöntő: megingott a Chelsea, éhes a Leeds

⚽ Nem a bajnoki tabella alapján ítélhető meg, melyik csapat az esélyesebb a Chelsea–Leeds FA-kupa-elődöntőben...

MA 14:23

A T. rex megőrződött vérerei átírják a dinoszaurusz-kutatást

A tudósok hosszú évtizedeken át próbáltak dinoszaurusz-DNS-t találni, eredménytelenül. Ma már a paleontológia főleg a fosszíliákban maradt eredeti szerves anyagok nyomait kutatja, de a több mint 66 millió év során a DNS teljesen elpusztult...

MA 13:56

Tűz az amerikai bombázók brit bázisán – csak egy üres épület égett

Hajnalban hatalmas tűz ütött ki a Gloucestershire melletti RAF Fairford katonai repülőtéren, ahol jelenleg is amerikai egységek állomásoznak...