A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
🏝 Hawaii őshonos vízimadarainak eltűnéséről évtizedeken át szinte megkérdőjelezhetetlen mítosz tartotta magát: sokáig mindenki azt hitte, hogy az őslakosok vadászata vezetett ezeknek a fajoknak a kihalásához...
A GoPro látványosan új szintre emeli az akciókamerák világát a Mission 1 szériával, amely három különböző modellt kínál: a Mission 1, a Mission 1 Pro és a Mission 1 Pro ILS készülékeket...
A Goldman Sachs újabb lépést tesz a kriptopiac felé: most egy olyan tőzsdén kereskedett alap (ETF) bevezetésére készül, amely bitcoinhoz kötött opciók eladásával igyekszik jövedelmet generálni a befektetőknek...
Az elmúlt években a repülőgépen elérhető Wi‑Fi inkább bosszantó marketingfogás volt, mint használható szolgáltatás: az üzenetküldés nehezen ment, a videostreamelésről nem is beszélve...
Az MI-alapú képgenerálásban hónapok óta a Gemini képgenerátorát használom, mert már első próbálkozásra közelebb jut a kívánt végeredményhez, mint a ChatGPT...
🚀 A laptopokat hűtőventilátorok, speciális hűtőbordák védik a túlmelegedéstől, de ezek a megoldások mit sem érnek extrém forróságban, például a Vénuszon, ahol a hőmérséklet eléri a 400 °C-ot...
Márciusban először fordult elő az Egyesült Államokban, hogy a megújuló energiaforrások – vagyis a nap-, szél-, víz- és bioenergia – több áramot termeltek, mint a földgáz...
🚀 Az Amazon igazán nagy dobásra készül: összeolvad a Globalstarral, vagyis azzal a műholdas szolgáltatóval, amely az iPhone-ok és az Apple Watchok híres SOS-rendszere mögött áll...
⚠ A wolfSSL egy kifejezetten beágyazott rendszerekre, ipari eszközökre, routerekre, IoT- és autóipari rendszerekre, sőt akár katonai berendezésekre fejlesztett, C nyelvű, könnyűsúlyú TLS/SSL-könyvtár...
⚠ Többek között átfogó biztonsági intézkedésekkel reagál az OpenAI egy közelmúltbeli ellátási lánc elleni támadásra, amely során egy rosszindulatú Axios-csomag is lefutott a cég GitHub Actions automatizált folyamataiban...
Egy 63 éves férfi, akit csak „az oslói betegként” emlegetnek, jó eséllyel végleg megszabadult a HIV-től – méghozzá egy szokatlan csontvelő-átültetésnek köszönhetően, amely teljesen átalakította az immunrendszerét...
Erre utal többek között az, hogy végre búcsút inthetsz annak a kínos Gmail-címnek, amelyet még tinédzserként választottál magadnak, és mindeddig kísértett az álláskereséstől kezdve az ügyintézésig...
🕵 Ismét támadás érte a Rockstar Games-t: több mint 78,6 millió belső analitikai rekord szivárgott ki, miután az Anodot nevű adatfelügyeleti cégnél történt biztonsági incidens miatt a ShinyHunters zsarolócsoport megszerezte a hozzáférést...
💰 A bitcoin újra megközelítette a 75 000 dolláros (27,3 millió forintos) szintet, amelyet február eleje óta többszöri próbálkozásra sem sikerült tartósan áttörnie...
A modern okostelefonok egyre fejlettebb biztonsági védelemmel rendelkeznek, mégis éppen ott sérülékenyek, ahol a legkevésbé számítanánk: a modem szoftverében...