A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
⚡ Többek között az MI környezeti terheléséről is beszélt ezúttal Sam Altman, az OpenAI vezérigazgatója, különös tekintettel a víz- és energiafogyasztásra...
Egy lényeges szempont, hogy a mindennapi tárgyaink – kulcsok, táskák vagy poggyász – nyomkövetése soha nem volt még ilyen egyszerű, mint az AirTag és a hasonló Bluetooth-követők korszakában...
Ma olyan fordulópontok elevenednek meg, mint a Tang-dinasztia visszaállítása, az 1848-as francia forradalom kezdete, valamint a második világháború tragikus hollandiai bombázása...
😷 Egy egészen új típusú vakcinát sikerült kifejleszteni, amely egereknél széles körű védelmet biztosított különféle kórokozókkal és háziporatka-allergénekkel szemben...
🛰 Az Antarktisz felett nemrég rendkívüli napfogyatkozás zajlott le, amiről a legtöbben lemaradtak – szerencsére az Európai Űrügynökség PROBA-2 műholdja mindent rögzített...
🎥 Képzeld el, hogy van egy bőrönd, amiben egyszerre lakik egy lézeres, csendes, 3500 ANSI lumenes 4K projektor, egy öt hangszórós Google TV-s egység és két brutál karaoke mikrofon...
📱 A legújabb csúcskütyük között a Sony zászlóshajó fülhallgatója, a duálkijelzős ASUS Zenbook Duo és egy elbűvölő apró kamera is a tesztpadra került, sőt, bemutatkozik egy VPN-szolgáltatás is...
Egy oroszul beszélő hacker öt hét alatt több mint 600 FortiGate tűzfalat tört fel világszerte, miközben egyre kifinomultabb MI-alapú eszközökre támaszkodott...
A MI-gyorsítóhardverek ára rohamosan növekszik, az új generációs chipek már komoly áramigényt támasztanak, és hatalmas infrastrukturális beruházásokat követelnek meg...
A független játékfejlesztés sosem áll meg – újabb és újabb izgalmas alkotások bukkannak fel, legyen szó nosztalgikus kalandokról, szürreális ötletekről vagy közös nosztalgiázásról a régi nagy kedvencekkel...
💸 Egy szoftverhiba miatt fél éven át kiszivárogtak a PayPal mintegy 100 felhasználójának érzékeny adatai a PayPal Working Capital (PPWC) nevű kisvállalkozói hitelező alkalmazáson keresztül...
Decemberben a kínai felhasználók egy masszív, 13 órás AWS-leállást szenvedtek el, és most kiderült, hogy a főbűnös nem más volt, mint az Amazon saját, menő Kiro MI-eszköze...
🚫 Január végétől négy héten át a Microsoft Copilot képes volt olyan bizalmas leveleket elolvasni és összefoglalni, amelyekre minden érzékenységi címke és adatszivárgás-megelőző (DLP) szabály kimondottan tiltást rendelt...
💼 Az elmúlt évben sorra jelentettek be nagyszabású leépítéseket a világ legnagyobb munkaadói, és előszeretettel hozták fel az automatizálásra való átállást indokként...
📈 Érdekes felvetés, hogy India hamarosan a világ egyik technológiai szuperhatalmává válhat, miután világcégek elképesztő összeget ígérnek az indiai MI-fejlesztéseknek...
A legújabb kutatás szerint egy speciális, MI-alapú biztonsági ügynök 92 százalékos pontossággal tárja fel a valódi DeFi-okosszerződésekben rejlő sebezhetőségeket...
Tipikus eset, amikor egy kényes információkat tartalmazó adatbázis kerül veszélybe: a francia bankszámla-regiszter, a FICOBA-rendszer súlyos adatlopás áldozata lett, amely 1,2 millió bankszámlatulajdonos személyes adatait tette ki kockázatnak...
A Pinterest felhasználói egyre nagyobb csalódottsággal néznek szembe a platformon eluralkodó, MI által generált tartalommal és az automatikus moderációval...
A Niels Bohr Intézet kutatói soha nem látott pontossággal tudják érzékelni, milyen gyorsan változnak a kvantumszámítógép kvantumbitjeinek gyengén védett, érzékeny állapotai...
A közeljövőben komoly változás következhet be a gyógyszervásárlásban: felmerült, hogy a jelenleg vényköteles gyógyszerek nagy részét recept nélkül is meg lehessen venni a patikákban...
Mintegy 100 PayPal-felhasználó személyes adatai kerültek nyilvánosságra egy elhibázott kódmódosítás miatt, és néhányuk számláján jogosulatlan tranzakciókat is hajtottak végre...
📱 A Samsung 2026-os évének legnagyobb dobására mindenki izgatottan vár, hiszen február 25-én, San Franciscóban rendezik az első Galaxy Unpacked eseményt...