A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 15:17

Az új React2Shell-hullámhoz sorra csatlakoznak a kínai hackercsoportok

A közelmúltban a Google fenyegetéselemző csapata további öt kínai hackercsoportot azonosított, amelyek a „React2Shell” nevű, rendkívül súlyos távoli kódfuttatási sebezhetőséget kihasználó támadásokhoz kapcsolódnak...

MA 15:04

Az új Leica M EV1: a távmérő bűvölete helyett kíméletlen praktikum

Erre utal többek között az, hogy a Leica legújabb M sorozatú fényképezőgépe, az M EV1, jelentős változtatást hoz a legendás rendszerbe: a jól ismert optikai távmérőt modern elektronikus kereső (EVF) váltja...

MA 14:50

Az XRP ETF-ek dacolnak a kriptópánikkal

Az utóbbi időszakban, amikor a Bitcoin- és Ethereum-ETF-ekből jelentős összegeket vontak ki, az XRP ETF-ek minden napra újabb pénzbeáramlást könyvelhettek el...

MA 14:35

A Kindle új trükkje: a könyv, ami visszabeszél

Az Amazon bemutatta a Kindle alkalmazás új MI-alapú funkcióját, amelynek segítségével olvasás közben bármilyen kérdésre választ kaphatsz a könyv tartalmával kapcsolatban – anélkül, hogy spoilerekkel elrontaná az olvasás élményét...

MA 14:18

Az Apple ajándékkártyája pokollá tette a digitális életünket

Hihetetlen, de mégis igaz, hogy egy közel harmincéves Apple-rajongó mindenét elvesztette egyetlen ajándékkártya miatt...

MA 14:02

Az amerikai bankok ajtót nyitnak a kriptocégeknek

🔑 Az Egyesült Államokban új korszak kezdődik a kriptovaluták és a hagyományos pénzintézetek együttműködésében...

MA 13:49

A hajszálon múlt a Starlink és egy kínai műhold ütközése

Az elmúlt héten mindössze néhány száz méteren múlt, hogy nem ütközött össze egy frissen pályára állított kínai műhold és a mintegy 9000 alacsony Föld körüli pályán keringő Starlink-műhold egyikével...

MA 13:33

Az MI-óriás bajban: milliárdos bírság fenyegeti a Microsoftot

A Microsoft ismét bíróság elé került az Egyesült Királyságban, miután több tízezer szervezetet érhetett jelentős anyagi kár a felhőalapú szoftverlicencelés miatt...

MA 13:17

Az iRobot bukása: a Roomba végül csak egy porszívó lett

🧺 Kevés amerikai techsztori volt olyan látványos, mint az iRoboté. Az MIT legendás robotikusa, Rodney Brooks, valamint Colin Angle és Helen Greiner 1990-ben alapították a céget Massachusettsben azzal a céllal, hogy a mesterségesintelligencia-kutatások eredményeit a háztartásokba vigyék...

MA 13:02

Az ENSZ és a NASA árgus szemmel lesi az új csillagközi üstököst

👀 A 3I/ATLAS üstökös egyre komolyabb figyelmet kap a nemzetközi tudományos közösségtől, ahogy december 19-én eléri földközeli pontját...

MA 12:49

Az iRobot az összeomlás küszöbén: kínaié lehet a Roomba

Az iRobot, amely egykor forradalmasította az otthoni takarítást a Roomba robotporszívóival, csődvédelmet kért...

MA 12:34

Az új MI már sejtszinten látja előre a fejlődést

Ilyen eset például, amikor a gyümölcslégy embriójában a sejtek szédületes tempóban válnak szét, rendeződnek át és növekednek, hogy kialakuljanak a majdani szervek és szövetek...

MA 12:01

Az Absynth visszatért: még merészebb, sosem hallott hangok

Tizenhat év után újra életre kelt a legendás Absynth szintetizátor. A Native Instruments most a hatodik verzióval lepte meg a zenészeket, ráadásul az eredeti fejlesztő, Brian Clevinger közreműködésével és olyan elismert alkotók presetjeivel, mint Brian Eno és Kaitlyn Aurelia Smith...

MA 11:34

Az Angeline Era új fejezetet nyit a PS1-nosztalgiában

A 90-es évek végének videojátékai sokak számára varázslatos, felfedezésekben gazdag korszakot jelentenek...

MA 11:18

Az oxigénatomok rejtett tánca a vízben — lézerrel leleplezve

Az oxigén legrejtélyesebb formája, az atomos oxigén eddig láthatatlan maradt a vízben—most azonban egy fejlett lézeres technikával sikerült először képalkotó eljárással közvetlenül megörökíteni ezeket az atomokat...

MA 11:02

A rosszul konfigurált honeypotok veszélyesebbek, mint gondolnád

⚠ Jellemző példa erre, hogy a brit Nemzeti Kiberbiztonsági Központ (NCSC) szerint a csapdákként működő honeypotok és álfiókok valóban hasznosak lehetnek a védekezők számára, de csak akkor, ha körültekintően telepítik őket...

MA 10:56

Az MI-re ömlik a tőke, még ha nem is éri meg

A világ legnagyobb cégeinek vezetői egyre többet fognak költeni mesterséges intelligenciára 2026-ban, annak ellenére, hogy a beruházások eredményei eddig igencsak vegyesek voltak...

MA 10:49

Az EU is betiltaná a közösségi médiát a tiniknek

Dánia komoly lépésre készül: az ausztrál mintát követve szigorúan korlátozná a közösségi média használatát a fiatalok körében...

MA 10:43

Az új Pebble-gyűrűvel többé egyetlen ötlet sem vész el

Kevesebb mint egy évvel a közönségkedvenc Pebble okosóra búcsúja után az alkotója új termékkel állt elő: ezúttal egy okosgyűrűvel jelentkezik, amely gyökeresen más célt szolgál, mint társai...