2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 20:34

A Fallout legendás atyja belevág az utolsó játékába

🎮 Tim Cain, a Fallout egyik megálmodója közel harminc év után ismét felbukkanna a játékfejlesztés színpadán, még egyszer, utoljára, mielőtt végleg visszavonulna...

MA 20:23

Az Aave nagy mentőakciója a kriptokáoszban

🛡 Fontos kérdés, hogyan lehet helyreállítani a decentralizált pénzügyi (DeFi) rendszerekbe vetett bizalmat, amikor egyetlen támadás több százmillió dolláros rést üt a rendszerbe...

MA 20:01

A Curiosity rejtélyes marsi molekulái az élet nyomaira utalnak

🔬 A NASA Curiosity marsjárója lenyűgöző változatosságú szerves molekulákra bukkant a Marson, köztük olyan vegyületekre is, amelyek a földi élet kémiai alapjaival rokoníthatók...

MA 19:46

Az első tollas dinoszaurusz átírja a madarak eredetét

A múlt század végéig a világ csupán néhány kövületből próbálta megfejteni, miként váltak a madarak különálló lényekké...

MA 19:34

Az új Steam Controller jön először – a RAM-hiány az oka

🕹 A Valve új hardverei közül elsőként a Steam Controller debütál 2026...

MA 19:22

Az MI-adatközpontok forradalma: szárnyal a Galaxy Digital, mérsékli veszteségét

A Galaxy Digital az első negyedéves veszteségét sikeresen csökkentette, és most új, izgalmas területen terjeszkedik: Texasban és a mesterségesintelligencia-adatközpontok irányába...

MA 19:01

A nagy Bitcoin-háború: Satoshié a kincs, vagy a befektetőké?

💸 A kriptovilág új frontot nyit: a közelgő eCash hard fork, amelyet 2024 augusztusára jelentettek be, alaposan felkorbácsolta a kedélyeket...

MA 18:57

Az első adatközpont, ahol emberi agysejtek is számolnak

A világ egyik legizgalmasabb technológiai újdonsága készül Melbourne-ben: egy ausztrál startup laborban növesztett emberi idegsejtekkel működő adatközpontot fejleszt, amely a hagyományos szilíciumchipek mellé biológiai processzort is beilleszt...

MA 18:45

Az új Robinhood-hack: hamis riasztások árasztják el a felhasználókat

⚠ Mind több felhasználó kapott riasztó e-mailt a Robinhood nevében, amelyben szokatlan bejelentkezési tevékenységről tájékoztatták őket...

MA 18:34

Az MIT kutatói lézerekkel új korszakot nyitnak az agyképalkotásban

💡 Az MIT kutatói meglepő optikai jelenségre bukkantak, amely új távlatokat nyithat az élő szövetek gyorsabb és részletesebb leképezésében...

MA 18:23

Az álmok titkos élete: tudatosabbak, mint gondolnád

💤 Az álmok nemcsak spontán jelennek meg éjszaka, hanem valójában agyunk kreatív remixei: személyiségünk és élményeink összefonódásából egészen új, néha szürreális történeteket alkotnak...

MA 17:34

A telihold szürreális műalkotássá festette az indonéz folyót

🌕 Az Indonéziában, Szumátra szigetén kígyózó Rokan-folyó torkolatában egészen különleges látvány tárult a Landsat 8 műhold elé: a vízben lebegő üledék látványos, ecsetvonásszerű rajzolatokat festett a felszínre...

MA 17:12

Az ördög Pradát visel 2: Végre itt, mindenki erről beszél

🔥 Jellemző példa erre, hogy a 2006-os kultikus vígjáték folytatására hihetetlenül sokat kellett várni: a divat világát kifigurázó Az ördög Pradát visel (The Devil Wears Prada) második része május 1-jén debütál a mozikban világszerte...

MA 17:02

Az iráni hekkerek lecsaptak: veszélyben az amerikai tengerészgyalogosok adatai

🔫 Többek között közel 2400, a Perzsa-öböl térségében szolgáló amerikai tengerészgyalogos személyes adatait hozta nyilvánosságra egy iráni kiberbanda, amely már hónapok óta szervezi támadásait...

MA 16:56

A PlayStation-tábor forrong a 30 napos ellenőrzés miatt

🔥 Több PlayStation-felhasználó igazi rémálomként élte meg, hogy a Sony digitális boltjából vásárolt játékoknál feltűnt egy új, 30 napos licencellenőrzési kötelezettség...

MA 16:46

Az MI végre munkába áll: a Mistral Workflows betör a vállalatokhoz

💼 A francia székhelyű Mistral AI, amelynek értékét 11,7 milliárd euróra (kb...

MA 16:34

Az amerikai infláció, háborús pánik és gyenge jen ledöntötte a bitcoint

Az év eleji menetelés után a bitcoin ára a héten 28 millió forint (76 500 dollár) környékére húzódott vissza, messze az áhított 29,5 milliós (80 000 dollár) árfolyamtól...

MA 16:22

Az izraeli digitális sékel megérkezett: stabilcoin a blokkláncon

Izrael első hivatalosan szabályozott stabilcoinja elindult: a Bits of Gold nevű tel-avivi kriptotőzsde két évnyi tesztidőszak után megkapta az engedélyt, így már stabilcoint bocsáthat ki a helyi pénznemhez, a sékelhez kötve...

MA 16:12

Az első 6K-s gamer monitor: forradalom vagy parasztvakítás?

A Samsung bemutatta az Odyssey G8-at (G80HS), amely a világ első 6K-s, 32 hüvelykes gamer monitora, és 1 499 eurós (kb...

MA 16:01

Az MI elveszi a fiatalok munkáját? Egy vezető kiutat mutat

💡 Az utóbbi években rengeteg fiatal, főként a Z generáció tagjai, épp arra ébrednek rá, mennyire semmivé vált az a tudás, amivel az iskolapadból kikerültek...

MA 15:57

Az apró távcső, amelytől ámulnak az égbolt rajongói

👀 A DwarfLab Dwarf Mini igazi újdonságnak számít azoknak, akik egyszerűen, gyorsan és minimális vesződéssel szeretnének égi fotókat készíteni...

MA 15:45

Az OpenAI új mobilja trónfosztja az iPhone-t?

📱 Az OpenAI újabb meglepetéssel készül a techvilágnak: a korábbi pletykákkal ellentétben nemcsak digitális hangrögzítőn, viselhető kiegészítőn vagy okoshangszórón dolgozik, hanem egy saját fejlesztésű mobilchipen is, ami egy teljes OpenAI-mobiltelefon eljövetelét vetítheti előre...

MA 15:34

Az áramhálózatot már robotok irányítják: startol Kína nagy dobása

⚡ A kínai hatóságok idén 8 500 vadonatúj robotot vetnek be az ország energiaellátásának megújítására...

MA 15:24

Az új DJI Mic Mini 2: kis méret, nagy tudás, baráti ár

🔊 A DJI Mic Mini 2 a vezeték nélküli mikrofonok világában friss színt hoz — szó szerint is, hiszen a transmitterein lecserélhető, színes előlapok is elérhetők...

MA 14:45

Az Arc Raidersben gyorsabban törnek a fegyverek, felfordul a PvP

⚡ A legfrissebb Arc Raiders-frissítés alaposan felforgatja a fegyverek kezelését: mostantól fegyvereink sokkal gyorsabban mennek tönkre, ráadásul az értékesebb zsákmányra vadászó játékosokat is a pálya közepére terelik...

MA 14:23

Itt az óvatosság ideje: megtört a bitcoin lendülete, zuhan a piac

A bitcoin megint elakadt a 80 000 dollár (kb. 29,5 millió forint) feletti kitörésnél, és ezzel együtt közel 0,75 százalékos esést szenvedett el, miközben az ether és a piac többi része is hasonló mozgást mutat...

MA 13:35

A nagyvállalatok új aduja: az MI-szuverenitás

🤖 A mesterséges intelligencia fejlődése villámgyors, és a korábbi kísérleti időszakot követően a világ legnagyobb vállalatai stratégiai újratervezésbe kezdtek...

MA 13:23

A világegyetem vége közelebb van, mint hinnéd

Az univerzum sorsa új fordulatot vett: friss kutatások szerint nem trillió éveink vannak hátra, hanem „csak” éppen 33 milliárd évünk van hátra, míg minden önmagába omlik...

MA 13:13

Az új Steam Deck 2 még nem hozza az áttörést

A Valve már több mint négy éve dolgozik a Steam Deck következő generációján, viszont a várva várt új gép bemutatása még mindig nem látható a láthatáron...