A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 15:17

A Google új MI-alkalmazása már vásárlásra is csábít

🛒 A Google MI-alapú próbafülke-alkalmazása, a Doppl új felfedező hírfolyammal bővült, ahol bárki azonnal be is szerezheti a kiválasztott ruhákat...

MA 15:02

A mesterséges intelligencia már átírja a nyelvünket?

Egyre több moderátor és kutató aggódik amiatt, hogy az emberek beszéde feltűnően hasonlít az MI által generált nyelvezethez...

MA 14:50

Az ausztrál lucernát tizedelő levéltetvek rejtett genetikai titkai

🐛 A levéltetvek régóta keserítik meg a kiskerttulajdonosok és a gazdálkodók életét...

MA 14:35

Az MI miatt elszáll a RAM ára – te is megérzed

💸 Első pillantásra úgy tűnt, hogy a memóriapiac áremelkedése csupán a PC-játékosokat érinti, ám ez a hullám hamarosan végigsöpör a teljes technológiai iparon...

MA 14:18

A legújabb bútorok tényleg tisztábbak: fele annyi mérgező vegyszer

🛌 Ha a kanapéd vagy a foteled 1970 és 2014 között készült, jó eséllyel tele van olyan lánggátló vegyszerekkel, amelyek egyszerűen kiszabadulnak a porba, majd a belélegzett levegővel a szervezetbe jutnak...

MA 14:01

Az ukrán hekkerekre vadászik a lengyel rendőrség

A lengyel rendőrség három ukrán férfit tartóztatott le, akik fejlett hekkelési eszközökkel próbálhattak beavatkozni a helyi informatikai rendszerekbe...

MA 13:49

A döbbenetes ok, miért alig élnek óriásállatok a Földön

🤔 Bár az ember számára a só mindennapi fűszer, a vadon élő növényevők számára valódi luxuscikk...

MA 13:33

Az Ancestry lakatot tesz DNS-adatbázisára a nyomozók előtt

Több millió ember küldte már el a nyálmintáját online családfakutató oldalakra, hogy többet tudjon meg felmenőiről vagy hogy elveszett rokonokat találjon...

MA 13:17

Az új Letterboxd Videotéka megnyílt: itt az első kínálat

Hamarosan elindul a Letterboxd saját digitális videotékája, amelyben négy különleges film nyitja a digitális kölcsönzést...

MA 13:02

Az új MI a Chrome-ban: veszélyes játék, csak MI óvhat meg

Hihetetlen, de mégis igaz, hogy a Google szerint csak az MI képes kezelni a Chrome böngészőbe épített új MI-funkciók okozta biztonsági kockázatokat...

MA 12:51

A szilárd és a folyadék rejtett határát leplezték le az olvadékfémek

⚡ Apró fémcseppek viselkedése alaposan felkavarta a tudósok elképzeléseit az anyagok halmazállapotáról: bizonyossá vált, hogy a folyadékban sem minden atom van mozgásban, néhány meglepő módon fix helyen marad, függetlenül a hőmérséklettől...

MA 12:35

A Pokémon GO-ba végre jön a távoli csere

Hosszú évek várakozása után végre lehetővé válik a távoli csere a Pokémon GO-ban...

MA 12:17

A betlehemi csillag valójában egy bolygó volt?

⭐ A háromkirályok története mindig is misztikummal övezte a karácsonyt: vajon a Betlehemi csillag tényleg létezett az égen, vagy csupán bibliai szimbólum volt?..

MA 12:01

Jön az újabb hőrekord: 2025 a második legforróbb év?

2025 várhatóan minden idők második vagy harmadik legmelegebb éve lesz, közvetlenül 2023 mögött...

MA 11:50

Az otthoni miniszuperszámítógép: lesz a régi laptopból erőmű?

💻 Régi Framework alaplapokból is lehet újat alkotni: a FrameCluster egy Kickstarter-projekt, amelynek célja, hogy a használaton kívüli laptopalaplapokat átlátható, moduláris rack rendszerbe rendezze...

MA 11:33

Az online tartalomkészítők háborút hirdetnek az MI-botok ellen

Az online kiadók egymás után hirdetnek hadat a MI-alapú adatgyűjtő botok ellen, hogy megvédjék tartalmaikat az engedély nélküli felhasználástól – miközben a szervereiket is tehermentesítsék a nem emberi forgalomtól...

MA 11:19

A Fairphone új fejhallgatója zöld, menő és drága – imádnivaló joystickkal

Érdemes megvizsgálni, hogy mennyire sikerült a Fairphone-nak új szintre emelnie ökofejlesztéseit a Fairbuds XL (2025) fejhallgatóval, amely nemcsak környezettudatos anyaghasználatával tűnik ki, hanem egy olyan funkcióval is, amelyet a nagy nevek – mint a Sony vagy a Bose – is átvehetnének...

MA 11:02

A 50 milliós Pokémon-kártya, amiben senki sem hitt

Egy szinte értéktelennek tartott Pokémon-kártya, egy első kiadású Kabuto-kártya most több mint 18 millió forintért (51 100 USD, kb...