2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 06:37

Az MI falja az energiát, de az ember sem szent

⚡ Többek között az MI környezeti terheléséről is beszélt ezúttal Sam Altman, az OpenAI vezérigazgatója, különös tekintettel a víz- és energiafogyasztásra...

MA 06:20

Az AirTaggel titokban követnek? Így derítheted ki

Egy lényeges szempont, hogy a mindennapi tárgyaink – kulcsok, táskák vagy poggyász – nyomkövetése soha nem volt még ilyen egyszerű, mint az AirTag és a hasonló Bluetooth-követők korszakában...

MA 06:05

Történelmi események a mai napon (Február 22.)

Ma olyan fordulópontok elevenednek meg, mint a Tang-dinasztia visszaállítása, az 1848-as francia forradalom kezdete, valamint a második világháború tragikus hollandiai bombázása...

szombat 18:02

Az áttörő orrspray-vakcina: védelem vírusok, baktériumok és allergének ellen

😷 Egy egészen új típusú vakcinát sikerült kifejleszteni, amely egereknél széles körű védelmet biztosított különféle kórokozókkal és háziporatka-allergénekkel szemben...

szombat 17:57

A legdögösebb űrszelfi: a februári tűzgyűrűs napfogyatkozás az űrből

🛰 Az Antarktisz felett nemrég rendkívüli napfogyatkozás zajlott le, amiről a legtöbben lemaradtak – szerencsére az Európai Űrügynökség PROBA-2 műholdja mindent rögzített...

szombat 17:39

Az Anker Nebula X1 Pro: zsebmozi, ami letaglóz

🎥 Képzeld el, hogy van egy bőrönd, amiben egyszerre lakik egy lézeres, csendes, 3500 ANSI lumenes 4K projektor, egy öt hangszórós Google TV-s egység és két brutál karaoke mikrofon...

szombat 17:20

Az Xboxnál nagy átrendeződés – tényleg nem rúgnak ki senkit?

😉 Tombol egy friss Xbox-huzavona: új vezetők, nagy címek, mindenki találgat, jön-e a következő elbocsátási hullám...

szombat 17:02

A legújabb kütyük kíméletlen próbán: Sony, ASUS és egy minikamera

📱 A legújabb csúcskütyük között a Sony zászlóshajó fülhallgatója, a duálkijelzős ASUS Zenbook Duo és egy elbűvölő apró kamera is a tesztpadra került, sőt, bemutatkozik egy VPN-szolgáltatás is...

szombat 16:58

Az MI vezérelt betöréshullám: öt hét alatt 600 FortiGate tűzfal feltörve

Egy oroszul beszélő hacker öt hét alatt több mint 600 FortiGate tűzfalat tört fel világszerte, miközben egyre kifinomultabb MI-alapú eszközökre támaszkodott...

szombat 16:39

A hackerek új játszótere: most a BeyondTrust került célkeresztbe

🔐 A BeyondTrust Remote Support eszközén olyan sebezhetőséget találtak, amit a hackerek kegyetlenül ki is használnak...

szombat 14:02

Az MI-adatközpontok jövője: megszűnik a GPU-k egyeduralma?

A MI-gyorsítóhardverek ára rohamosan növekszik, az új generációs chipek már komoly áramigényt támasztanak, és hatalmas infrastrukturális beruházásokat követelnek meg...

szombat 13:58

A WhatsApp nagy dobása: végre HD-ben küldhetsz képet, videót

📷 A legtöbben csak most fedezik fel, hogy a WhatsApp már egy ideje lehetőséget kínál a képek és videók HD-minőségben való továbbítására...

szombat 13:40

Az indie szcéna pezseg: Zelda-hangulat, gördeszka-balhék és játékos vizsgák

A független játékfejlesztés sosem áll meg – újabb és újabb izgalmas alkotások bukkannak fel, legyen szó nosztalgikus kalandokról, szürreális ötletekről vagy közös nosztalgiázásról a régi nagy kedvencekkel...

szombat 13:20

Az MI áttörést hoz a koraszülések kutatásában

🧠 Felmerül a kérdés, hogy képes-e a generatív MI valóban megelőzni emberi kutatócsoportokat az orvosi adatelemzésben...

szombat 12:01

A PayPal újabb botránya: fél évig szivárogtak az adatok

💸 Egy szoftverhiba miatt fél éven át kiszivárogtak a PayPal mintegy 100 felhasználójának érzékeny adatai a PayPal Working Capital (PPWC) nevű kisvállalkozói hitelező alkalmazáson keresztül...

szombat 11:58

Az Amazon MI-je saját magát terítette le: 13 órás AWS-kiesés Kínában

Decemberben a kínai felhasználók egy masszív, 13 órás AWS-leállást szenvedtek el, és most kiderült, hogy a főbűnös nem más volt, mint az Amazon saját, menő Kiro MI-eszköze...

szombat 11:39

A Copilot MI kétszer is megszegte az adatszivárgás elleni szabályokat

🚫 Január végétől négy héten át a Microsoft Copilot képes volt olyan bizalmas leveleket elolvasni és összefoglalni, amelyekre minden érzékenységi címke és adatszivárgás-megelőző (DLP) szabály kimondottan tiltást rendelt...

szombat 11:21

Tényleg a mesterséges intelligencia a tömeges elbocsátások bűnbakja?

💼 Az elmúlt évben sorra jelentettek be nagyszabású leépítéseket a világ legnagyobb munkaadói, és előszeretettel hozták fel az automatizálásra való átállást indokként...

szombat 11:01

Az OpenAI saját okoshangszóróval robban be az okoseszközpiacra

🔊 Az OpenAI komoly terveket sző: 2027-ben piacra dobja első, MI-vezérelt okoshangszóróját, amely beépített kamerával is rendelkezik majd...

szombat 10:55

Az indiai MI-be milliárdokat öntenek a techóriások

📈 Érdekes felvetés, hogy India hamarosan a világ egyik technológiai szuperhatalmává válhat, miután világcégek elképesztő összeget ígérnek az indiai MI-fejlesztéseknek...

szombat 10:46

A One UI 8.5 végre megoldja a SIM-kártyás káoszt

Erre utal többek között, hogy hamarosan minden Samsung Galaxy-tulajdonos könnyebben kezelheti több SIM-kártyáját Amerikában is...

szombat 10:37

Az amerikai részecskegyorsítók átírják az atomtemetők jövőjét

Az Egyesült Államokban új technológián dolgoznak, amely alapjaiban változtathatja meg a nukleáris hulladék hasznosítását és kezelését...

szombat 10:28

Az MI új fegyvere leleplezte a DeFi-csalások 92 százalékát

A legújabb kutatás szerint egy speciális, MI-alapú biztonsági ügynök 92 százalékos pontossággal tárja fel a valódi DeFi-okosszerződésekben rejlő sebezhetőségeket...

szombat 10:19

Az újabb banki adatlopás egymilliónál is több franciát érint

Tipikus eset, amikor egy kényes információkat tartalmazó adatbázis kerül veszélybe: a francia bankszámla-regiszter, a FICOBA-rendszer súlyos adatlopás áldozata lett, amely 1,2 millió bankszámlatulajdonos személyes adatait tette ki kockázatnak...

szombat 10:01

A mesterséges intelligencia felfalja a Pinterest-et, lázadnak a művészek

A Pinterest felhasználói egyre nagyobb csalódottsággal néznek szembe a platformon eluralkodó, MI által generált tartalommal és az automatikus moderációval...

szombat 09:55

A nagy áttörés: Élőben látják a kvantumbitek minden rezdülését

A Niels Bohr Intézet kutatói soha nem látott pontossággal tudják érzékelni, milyen gyorsan változnak a kvantumszámítógép kvantumbitjeinek gyengén védett, érzékeny állapotai...

szombat 09:46

A szabad gyógyszerkiadás tétjei: forradalom vagy veszély?

A közeljövőben komoly változás következhet be a gyógyszervásárlásban: felmerült, hogy a jelenleg vényköteles gyógyszerek nagy részét recept nélkül is meg lehessen venni a patikákban...

szombat 09:37

A PayPal újabb bakija: adatszivárgás és jogosulatlan tranzakciók

Mintegy 100 PayPal-felhasználó személyes adatai kerültek nyilvánosságra egy elhibázott kódmódosítás miatt, és néhányuk számláján jogosulatlan tranzakciókat is hajtottak végre...

szombat 09:29

A Samsung Galaxy S26: ez jöhet a februári leleplezésen

📱 A Samsung 2026-os évének legnagyobb dobására mindenki izgatottan vár, hiszen február 25-én, San Franciscóban rendezik az első Galaxy Unpacked eseményt...