A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
A hálózati rendszermérnökök számára kevés dolog stresszesebb, mint amikor egy hétvége alatt kell átalakítani egy teljes infrastruktúrát, különösen, ha ez egy 30 ezres cégnél, több mint 1000 elavult alkalmazás új rendszerre való átkapcsolását jelenti...
📷 Egy lényeges újdonság, hogy a Spotify mobilos alkalmazása hamarosan olyan funkcióval bővülhet, amelyre a felhasználók már 15 éve várnak: a lejátszási listák mappáinak kezelése közvetlenül telefonról is elérhető lesz...
Egy átlagos nap szinte minden perce műanyaghoz köt: műanyag palackból isszuk a vizet, műanyag flakonból nyomjuk a tusfürdőt, műszálas ruhát viselünk, műanyag kiegészítőkkel körülvéve indulunk munkába...
A közösségi médiaóriások, köztük a TikTok és a Meta (a Facebook és az Instagram anyavállalata) az utóbbi években a felhasználók figyelméért vívott algoritmikus verseny során kérdéses döntéseket hoztak, amelyek lehetővé tették káros tartalmak nagyobb arányú megjelenését a felhasználói hírfolyamokban...
A Samsung történetének egyik legsikeresebb előrendelési hullámát könyvelheti el a Galaxy S26-sorozattal, de a vállalat mobilüzletága mégis vészhelyzeti üzemmódban működik...
😥 A Samsung Galaxy S26 Ultra legfrissebb bejelentése nagy port kavart a vadonatúj, adatvédelmi célú kijelzőinnovációval, amely a betekintési szögeket szabályozza az extra adatvédelemért...
Egy forradalmian új, „világító” antitest fejlesztésével a kutatók képessé válhatnak arra, hogy a daganatos betegségek kimutatása egyszerűbbé, gyorsabbá és pontosabbá váljon...
💰 Végre történik valami nagyon is húsbavágó Ausztráliában: a szenátusi bizottság rábólintott egy olyan törvényjavaslatra, amely a kriptoplatformokat és letétkezelő cégeket simán beemeli az ország pénzügyi szolgáltatási rendszerébe...
Úgy tűnik, hogy az elmúlt években kialakult MI-őrületben minden nagyvállalat óriási összegeket költött adatközpontokra, egyvalaki azonban a partvonalról figyelte ezt az őrült költekezést: az Apple...
Az Egyesült Királyság közel 1000 milliárd forinttal támogatja a következő öt évben a fúziós energiát, egy merész terv keretében, amelynek célja, hogy az ország globális éllovassá váljon ezen az áttörést ígérő területen...
⚠ A kanadai Tumbler Ridge-i iskolai lövöldözés előtt egy 18 éves diáklány, Jesse Van Rootselaar beszélgetéseket folytatott a ChatGPT-vel magányosságáról és erősödő erőszakfantáziáiról...
Komolyan mondom, néha úgy érzem, imádnak minket egyes cégek, aztán mégis ott motoszkál hátul, hogy jó, jó, persze, csak közben valami apróbetűs rész mindig előugrik...
🌍 Az MI-fejlesztések hatására a nagy technológiai vállalatok drasztikusan növelik szén-dioxid-kvóta-vásárlásaikat, hogy ellensúlyozzák a növekvő energiafogyasztásukból eredő kibocsátásaikat...
🤰 Egy eddig kevéssé ismert bélfehérje, az intelectin-2, kettős védelmi vonalat alakít ki a szervezetben: egyrészt erősíti a bélfalat borító nyákréteget, másrészt csapdába ejti és elpusztítja a kórokozó baktériumokat...
🔈 A Samsung frissített Galaxy Buds 4 Pro fülese minden eddiginél jobban szól: duplán erősített, nagyobb teljesítményű mélynyomók dübörögnek benne, menő, penge formát kapott, még tisztább hívásminőséget és fejlettebb zajszűrést ígér...
Van abban valami szédítő, hogy végre megtalálod a munkát, amit imádsz – például újságíró és író vagy, elmerülsz a sztorikban, és nap mint nap okosnak és hasznosnak érzed magad...
🔮 A világegyetem sötétjében ragyog a híres Macskaszem-köd (Cat’s Eye Nebula, NGC 6543), amely izzó, kék, narancs és vörös gázgyűrűivel, valamint bonyolult alakzatával a csillag halálának káprázatos jelenetét tárja elénk...
📢 Noha sok felhasználó észrevette, hogy a ChatGPT frissített adatvédelmi tájékoztatójában már szó esik a hirdetésekről, egyelőre nem tervezik ezeket a reklámokat bevezetni az Egyesült Államokon kívül...
Az Oracle részvényei szárnyalni kezdtek, miután a vállalat várakozáson felüli harmadik negyedéves eredményeket közölt, és meglepően optimista előrejelzést adott a bevételekre...
🚀 Fontos kérdés, meddig lehet még fokozni a laptopok számítási teljesítményét, különösen, amikor az MI-alkalmazások már szinte mindenhol jelen vannak...
🍾 A filmiparban minden héten felrobban az internet egy-egy új generatív MI-mutatvánnyal, és már az is csoda, ha egy filmes egyáltalán tartani tudja a tempót...