A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 11:17

A mesterséges intelligencia sötét oldala a vásárlásban: nő a trükközés

💸 A Google bejelentette új Univerzális Kereskedelmi Protokollját, amely lehetővé teszi, hogy a Gemini és más MI-alapú asszisztensek egyszerűsítsék az online vásárlást...

MA 11:01

A Galaxy S26 végre valódi áttörést hozhat

🚀 Újabb pletyka kering a hamarosan érkező Samsung Galaxy S26-ról, amely szerint végre érdemes lehet készülni a váltásra...

MA 10:57

Az amerikai kibocsátások ismét emelkednek – az MI a fő felelős?

🌎 Az Egyesült Államok üvegházhatású gázkibocsátása két év stabil csökkenés után idén újra növekedésnek indult, és jövőre várhatóan még magasabb lesz...

MA 10:52

A mesterséges intelligencia pontossága ugrásszerűen nő egy egyszerű trükkel

Az MI-modellek világában az utóbbi évek az egyre bonyolultabb kérdésfeltevési módszerek fejlesztésével teltek, hogy minél pontosabb válaszokat kapjunk...

MA 10:43

Az új memóriaválság alapjaiban rázza meg a PC-piacot

💡 Drágulás, szerényebb gépek: hosszú távú krízis a láthatáron Lényeges hangsúlyozni, hogy a memóriahiány, illetve az emiatt folyamatosan dráguló alkatrészek nyomán 2027 végéig tartó áremelkedésekre és visszafogottabb PC-felszereltségre számíthatunk...

MA 10:36

Az új Firefox 147: apró újítások, erősebb védelem

🚀 A Firefox 147-es verziója számos hasznos fejlesztéssel jelent meg. Az egyik legfontosabb újdonság, hogy mostantól támogatja a HTML dialogelemet, így a weboldalakon megjelenő felugró ablakok és párbeszédpanelek natívan jelenhetnek meg a böngészőben...

MA 10:29

Az ukrán hadseregre új, jótékonyságnak álcázott kibercsalás csap le

Október és december között az ukrán védelmi erők tagjait különleges, jótékonyságot színlelő kibertámadás érte, amelynek során a PluggyApe nevű, megtévesztő hátsóajtó-kártevőt próbálták telepíteni...

MA 10:24

Az MI-nek hála az energiaiparban is tarolnak az óriáscégek

A mesterséges intelligencia bevezetése óriási energiakeresletet indított el a tech világában, ezért a Big Tech-cégek most versenyt futnak az energiaszakemberekért...

MA 10:15

A rákbetegek 70 százaléka már öt évnél tovább él Amerikában

Az Egyesült Államokban drámai mértékben nőtt a daganatos betegek túlélési esélye: az American Cancer Society friss jelentése szerint a diagnózis után öt évvel még élők aránya elérte a 70 százalékot...

MA 10:08

Az XRP kilőtt – meddig tart a menetelés?

🚀 Az utóbbi napokban az XRP árfolyama 6%-os emelkedést mutatott, kiemelkedve az egyébként ingadozó kriptopiacon...

MA 10:01

Az új Windows-frissítések végleg lecserélik a lejáró Secure Boot-tanúsítványokat

🔒 A Microsoft automatikusan elkezdte lecserélni a hamarosan lejáró Secure Boot tanúsítványokat a jogosult Windows 11 24H2 és 25H2 rendszereken...

MA 09:58

Az áttörés: perelhetők a szexuális deepfake-ek készítői

👑 Az amerikai Szenátus elfogadta a DEFIANCE törvényjavaslatot, amely új eszközt adhat azok kezébe, akiket akaratuk ellenére kompromittáló, MI által generált képeken ábrázoltak...

MA 09:51

Az Arecibo után: száz gyanús jelet vizsgálnak a földönkívüliek nyomában

🔰 Egy lényeges szempont, hogy a földönkívüli intelligencia keresésének 21 éves, úttörő programja új szakaszba lépett: a tudósok 100 lehetséges idegen rádiójelet tanulmányoznak, amelyek a legendás, időközben összeomlott Arecibo Obszervatórium adataiból származnak...

MA 09:43

A klímakatasztrófa árnyékában: 2025 sem lett rekord meleg

🌡 2025 nem lett a valaha mért legmelegebb év, de ettől még nem lélegezhetünk fel...

MA 09:29

A legjobb ingyenes MI-kurzusok: most te is belevághatsz

📚 Az MI világa viharos tempóban fejlődik, és aki nem akar lemaradni, most elképesztő lehetőség előtt áll...

MA 09:23

A Ring és a mesterséges intelligencia szövetsége: az okosotthonok új korszaka

Nehéz elhinni, de néha egy egész vállalkozás sorsát egy váratlan tragédia vagy technológiai áttörés fordítja meg...

MA 09:09

Az űrben készül a holnap: jönnek a lebegő gyárak

Képzelj el egy automata 3D nyomtatót, amely a világűrben lebegve gyárt fontos alkatrészeket földi vagy űrbéli felhasználásra...

MA 09:03

Az Android 17 végre leszámol a bosszantó újításokkal?

Az Android 17 fejlesztése teljes gőzzel zajlik, és úgy tűnik, két nagy UI-változást is hoz a következő frissítés...

MA 08:58

Az első elektromos BMW M: négy motorral robban a forradalom

Érdemes megvizsgálni, miként emeli új szintre a vezetési élményt a BMW első, teljesen elektromos M-modellje, amelynek érkezése 2027-re várható...