A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
🌱 Miközben az örök fiatalság titkát egykor a mesés Ifjúság forrásában keresték, a legújabb kutatások szerint a válasz jóval közelebb lehet: a saját bélmikrobáinkban...
⚠️ Nagy vitát kavart az Egyesült Királyság kormányának terve, hogy az MI-cégek – például a Google vagy az OpenAI – szabadon felhasználhassák szerzői joggal védett tartalmakat MI-modellek tanítására...
Erre utal többek között az is, hogy a Samsung Androidos böngészője mostantól nem Internet, hanem egyszerűen csak Browser néven fut a legújabb eszközökön...
Az Anthropic vezérigazgatója, Dario Amodei bíróságon támadja meg a Védelmi Minisztérium döntését, miután hivatalosan is értesítették a céget az ellátásilánc‑kockázati besorolásról...
Háromezer évvel ezelőtt Kína belső területein radikális társadalmi változások és drámai népességcsökkenés következett be, amelyet hosszú ideig talány övezett...
Az okostelefonokkal és mindenféle beépített mikrofonnal telített világban egy őszinte beszélgetés szinte lehetetlenné vált – mindenhol ott leselkednek a folyamatosan figyelő eszközök...
😎 Komolyan mondom, hogy ma már a tini fiúk nem egymásnak súgják, mit írjanak a csajoknak, hanem inkább a ChatGPT-hez rohannak, ha üzenetről vagy az első lépésről van szó...
A nagy MI-pánik újra dübörög, de az igazság az, hogy hiába tanulnak a szoftverek kódolni, mémeket gyártani, csetelni, vagy akár jogi esettanulmányok villámgyors összefoglalására, nem hiszem el, de a laptopos melósok többsége most sem lett munkanélküli...
Az ausztrál koalák példája új reményt ad a veszélyeztetett fajoknak. A tudósok genomikai vizsgálatai szerint még a jelentős genetikai szűkületek sem szükségszerűen okoznak végzetes beltenyésztési depressziót, vagyis egy állatfaj nem feltétlenül hal ki a genetikai változatosság csökkenése miatt...
⚡ Fontos kérdés, hogyan lehetne a napenergiát hatékonyabban átalakítani villamos energiává. Nemrégiben a Cambridge-i Egyetem tudósai olyan elképesztően gyors elektronmozgást figyeltek meg, amely teljesen átírhatja a napenergiával kapcsolatos elgondolásokat: az elektronok mindössze 18 femtoszekundum – vagyis kevesebb mint 20 billiárdod másodperc – alatt száguldottak át a napelemekben használt anyagon, egyetlen molekularezgés alatt...
A SeeStar S50 forradalmasítja az asztrofotózást azzal, hogy kompakt méretével és elérhető árával bárki számára lehetővé teszi az univerzum csodáinak megörökítését...
Vadiúj frissítéssel rukkolt elő az X (a régi Twitter, amely már nem akar ránk hallgatni), és mostantól nemcsak az influenszered bugyijába, hanem a tweetjeibe is pénzt kell dobni, hogy lásd, mi a vége!..
👽 A lassított felvételen két acéllemez ütközését láthatjuk, amelyek közé mikrobákat szorítottak – a pusztító ütközést követően ezeknek a parányi élőlényeknek mégis sikerült túlélniük azt, amit a kísérleti berendezés már nem bírt ki...
⚡ Többek között Bill Gates támogatásával a TerraPower évek óta azon dolgozik, hogy megépítse saját Natrium típusú, nátriummal hűtött nukleáris reaktorát az amerikai Wyoming államban, Kemmerer városában...
📸 A Vivo X300 Ultra hamarosan új korszakot nyithat a mobilfotózásban, ugyanis ebbe a telefonba építik be először a Sony vadonatúj, 200 megapixeles LYTIA 901 szenzorát...
🛰 Érdemes megvizsgálni, miért távolodik a legtöbb közeli galaxis a Tejútrendszertől, amikor annak gravitációjának elvileg magához kellene vonzania őket...
🩺 Az Amazon Web Services bejelentette az Amazon Connect Health nevű új platformot, amely mesterséges intelligenciával segíti az egészségügyi szervezeteket a mindennapi adminisztrációs terhek csökkentésében...
A Wikimédia Alapítvány a napokban egy gyorsan terjedő JavaScript-féreggel nézett szembe, amely felhasználói szkripteket módosított és vandalizmust okozott a Meta-Wiki oldalain...