A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
Nem hiszem el, de a benzinárak egyre csak kúsznak felfelé, miközben a világ szó szerint lángokban áll – elég csak az USA, Izrael és Irán közötti háborúra gondolni...
Ha a San Franciscó-i öbölben laksz, készülj a levegőben suhanó csomagokra, mert a Wing elképesztő tempóban terjeszti ki a drónos házhoz szállítást a Szilícium-völgybe...
⚠ Országszerte kilométeres autósorok alakultak ki a benzinkutaknál, miután a Sinopec, Kína legnagyobb olajtársasága arra figyelmeztetett, hogy hamarosan jelentősen nő az üzemanyag ára...
🚀 A Pentagon történelmi léptékű, minden eddiginél gyorsabb beszerzést hajtott végre: 72 óra alatt 3000 Skydio X10D drónt rendelt, összesen 19,6 milliárd forintért (52 millió dollárért)...
🚀 Az elmúlt hetekben kritikus helyzet alakult ki az űrben: az amerikai Swift űrtávcső, a NASA egyik legrégebbi csillagászati műholdja, immár egy hónapja használaton kívül sodródik, miközben tudósok és mérnökök izgatottan várják az első ipari mentőexpedíció érkezését, amely talán megmentheti attól, hogy a Földre zuhanjon...
Az orosz Progressz 94 teherűrhajó jelentős műszaki hibát szenvedett el útban a Nemzetközi Űrállomás (ISS) felé: egy kulcsfontosságú antenna nem nyílt ki rendesen, emiatt a fedélzeti automatikával már nem lehetséges a dokkolás...
💸 A nemesfémek piacán a múlt hét drámai veszteségeket hozott: az arany árfolyama 10% fölött esett, míg az ezüst még nagyobbat, több mint 15%-ot zuhant...
🤖 A tévé aranykorában még mindenki ugyanazokat a híreket nézte, mert alig volt csatorna, a fizikai és pénzügyi korlátok miatt mindent az ABC, az NBC és a CBS uralt...
A kutatók egyedülálló módszerrel sikeresen felgyorsították az elektronok mozgását organikus napelemekben, amelynek során a töltéshordozók másodperc törtrészében, elképesztő sebességgel jutnak el egyik molekulától a másikig...
💻 2024 tavaszán, mindössze két nappal egy bonyolult szívoperáció után, egy hetvenes éveiben járó férfi váratlanul elhunyt egy közép-angliai kórházban...
🙁 A márciusi frissítés után sokan bosszankodhattak, hiszen a Windows 11-ben több népszerű alkalmazás – így a Microsoft Edge, a OneDrive, bizonyos Office appok és a Teams ingyenes változata – váratlanul használhatatlanná vált...
Napok óta akadozik az élet a Microsoft Exchange Online-nál, csütörtök óta ugyanis egyes felhasználók nem férnek hozzá e-mailjeikhez sem Outlook mobilon, sem az új Maces Outlookon...
💉 Végre egy reménykeltő fejlemény a hasnyálmirigyrák korai felismerésére: kutatók olyan vértesztet fejlesztettek ki, amely már a betegség korai szakaszában is képes nagy biztonsággal azonosítani a daganatot...
A Walmart bejelentette, hogy az Egyesült Államok összes üzletében digitális árcímkéket vezet be 2026 végéig, és ezzel teljesen lecserélik a hagyományos papírcímkéket...
Utazás közben gyakran előfordul, hogy több készülékkel kell ugyanarra a mobilinternet-kapcsolatra csatlakozni – például munka közben, de akár Pokémon GO játék közben is jól jön egy mobil router vagy hotspot...
💡 Egy német–kínai kutatócsoport meglepő áttörést ért el: az Alzheimer-kór hátterében eddig rejtett molekuláris folyamatra bukkantak, amely szó szerint elindítja az idegsejtek pusztulását...
Az amerikai Szövetségi Nyomozó Iroda (FBI) figyelmeztetést adott ki, mert iráni hackerek a Telegram alkalmazást használják támadásaik irányítására és célpontjaik elérésére...
⚡ Érdekes felvetés, hogy míg a legtöbb MI-fejlesztő főként előregyártott chipeken és előre beállított modelleken dolgozik, a CERN kutatói teljesen egyedi utat járnak: nanomásodperc-sebességgel működő MI-algoritmusokat „égetnek” közvetlenül a szilíciumlapkákba, ezzel szűrik ki az adatözön felesleges részét...
Az újabb RAM‑válság miatt alaposan átrendeződhet az okostelefonok kínálata. Az elmúlt hónapokban az MI-fejlesztések felvásárolták a piacon elérhető memóriát, ami a fogyasztói elektronika árait jelentősen megemelte, főként a megfizethető és középkategóriás mobilokra mérve csapást...
🔥 Pár napja jelent meg a Crimson Desert, és máris komoly botrány kerekedett belőle: a fejlesztő Pearl Abyss kénytelen volt nyilvánosan bocsánatot kérni, mert a játékosok felháborodtak az AI-generált 2D-s képeken...