A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
Colorado most aztán belehúzott: az új átlagsebesség-mérő kamerarendszerrel igazi rémálom lett a gyorshajtóknak, akár a Waze-t, akár a Radarbotot nyomkodod...
🤧 A különféle allergiákkal világszerte egyre több ember kénytelen együtt élni. Az Egyesült Államok lakosságának több mint 30%-át érinti valamilyen allergiás tünet, és ez a szám folyamatosan növekszik...
Egy idő után minden eszköz elavul, de most az Apple egy ritka lépésre szánta el magát: olyan iPhone-okra is kiadott frissítést, amelyek már nem támogatják a legújabb, iOS 26-os rendszert...
A HarperCollins menő, többéves együttműködésbe vágott bele a Toonstar nevű, AI-vezérelt animációs stúdióval, hogy saját YouTube-sorozatokat gyártsanak HarperCollins-könyvek alapján...
🤖 A digitális térben már szinte magától értetődő, hogy minden személyes adatunk ismert: az arcfelismerés, az automatizált fizetés, az ajánlások mind gördülékennyé tették az online élményt...
Amikor az ember először kézbe veszi a Sivga Robin SV021 Pro fejhallgatót, rögtön feltűnik a különleges, fából készült dizájn és a kifejezetten kényelmes viselet...
Erre utal többek között az, hogy tudósok először alkottak teljes, nagy felbontású idegtérképet a csiklóról, amely az emberi test egyik legkevésbé kutatott szerve...
A Charles Schwab, amely közel 12 billió dollár (kb. 4 260 000 milliárd forint) ügyfélvagyont kezel, 2026 első felében bevezeti a valós idejű bitcoin- és etherkereskedést...
🎬 Áprilisban ismét frissül az Apple TV és az Apple Arcade kínálata, számos izgalmas új sorozattal és játékkal, amelyek minden korosztály számára tartogatnak meglepetéseket...
💰 Az elmúlt években sorra kerülnek napvilágra azok a hírek, amelyek szerint a hírességek és milliárdosok jelentős veszteségekkel, elsőre hihetetlennek tűnő áron kénytelenek megválni luxusingatlanaiktól...
🚀 Négy űrhajós, Reid Wiseman, Victor Glover, Jeremy Hansen és Christina Koch vágott neki a NASA Artemis II küldetésének, amely új fejezetet nyit az emberes űrutazás történetében...
🤔 A mesterséges általános intelligencia (AGI) kapcsán legtöbben attól tartanak, hogy a robotok minden munkát elvesznek tőlünk, és csak a legkreatívabb, legemberibb munkakörök maradnak meg...
Tízmilliárd dolláros, vagyis mintegy 3700 milliárd forintos gigaberuházást jelentett be a Microsoft Japánban, amellyel jelentősen bővíti a helyi MI-infrastruktúrát és felhőszolgáltatásokat...
Évek óta húzza le a Netflix az olasz nézőket, most viszont nagyot koppant: a római bíróság úgy döntött, hogy a korábbi, jogtalan áremeléseket vissza kell fizetnie az előfizetőknek...
📝 Érdemes megvizsgálni, mit jelent egyre több online egészségügyi vállalat számára az adatbiztonság: már néhány nap is elegendő volt ahhoz, hogy ismeretlen hackerek a Hims & Hers Health ügyfélszolgálati rendszeréből több millió támogatási jegyet ellopjanak...