A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
Egy új típusú vérvizsgálat forradalmasíthatja az Alzheimer-kór korai felismerését. Egyetlen vérvétel alapján már évekkel az első emlékezetkiesés előtt megjósolható, mikor jelentkeznek a betegség első tünetei...
A lakásbérlők gyakran érzik magukat sebezhetőnek, amikor otthonuk védelméről van szó, hiszen a hagyományos rendszerek bonyolult telepítést és maradandó változtatásokat igényelnek...
Egy egyszerű programozási hiba miatt hónapokon át bárki hozzáférhetett a PayPal Working Capital alkalmazás üzleti felhasználóinak személyes adataihoz...
Az elmúlt hónapokban a vezető technológiai vállalatok soha nem látott mértékben növelték MI-vel kapcsolatos beruházásaikat, ám egyre gyakrabban fordulnak hitelpiacokhoz a finanszírozáshoz, ahelyett, hogy saját készpénzállományukból fedeznék a kiadásokat...
🤖 Az internetes tartalomgyártókra és a mögöttük álló üzleti modellekre sosem nehezedett ekkora nyomás: a YouTube-sztár MrBeast épp perel, és közben a TikTok anyavállalatánál, a ByteDance-nél is forrnak az indulatok az új Seedance 2...
💳 Franciaországban ismeretlen támadó behatolt a francia állami adatbázisba, amely az összes banki számlát tartalmazza, és 1,2 millió bankszámla személyes adatait szerezte meg...
🔍 Az elmúlt évtized ugrásszerű fejlődést hozott az emberi genetika terén, miközben egyre több genetikai technológia lépett ki a laboratóriumokból, és vált elérhetővé a fogyasztók számára is...
2025 júniusában hatalmas visszhangot keltő oknyomozó riport buktatta le az illegális fakitermelést, amely a védett kongói esőerdők fáit csempészte át Burundiba...
A hagyományos autókban elégetett fosszilis üzemanyagok nemcsak szén-dioxiddal, hanem nitrogén-dioxiddal (NO2) is telehintenek mindent, így megugrik az asztmás rohamok, a hörghurut, valamint a szív- és érrendszeri bajok kockázata...
🧠 A gyógyíthatatlannak tűnő sebek kezelése életeket menthet — legalábbis ezt ígéri egy apró, oxigént kibocsátó gél, amely elősegítheti a legmakacsabb, nem gyógyuló sérülések gyógyulását...
A Hubble űrtávcső lenyűgöző, új felvétele eddig sosem látott részletességgel tárja fel a Tojás-köd (Egg Nebula) titkait, amely a Földhöz legközelebbi és legfiatalabb pre-planetáris köd...
Óriási átrendeződés zajlik az MI világában, amely alapjaiban változtatja meg, hogyan dolgozunk, használjuk és értelmezzük az intelligens technológiákat...
🚀 A tudományos világ új fejezethez érkezett: villámgyors kvantumkémiai program jelent meg, amellyel a bonyolult molekulák szimulációjának idejét hetekről percekre lehet rövidíteni...
A Triceratops hatalmas, háromszarvú feje a dinoszauruszok világának egyik legismertebb szimbóluma, de ez a lenyűgöző „páncél” különleges funkciót is betölthetett...