A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
Az Android eddig is sokkal hatékonyabban kezelte az értesítéseket, mint az iOS, ami nemcsak az alkalmazások újításaiban, hanem a testreszabási lehetőségekben is megmutatkozik...
A globális villamosenergia-rendszer nagy fordulóponthoz érkezett: 2025 végére a megújuló energiaforrások a teljes elektromos kapacitás közel felét adták világszerte, elsősorban a napenergia robbanásszerű növekedésének köszönhetően...
Beszédes asszisztens, gyors rendelés Az új Alexa Plus már képes az Uber Eats és a Grubhub felületein keresztül ételt rendelni, ehhez azonban a megfelelő eszközre lesz szükséged...
A világ egyik legnagyobb orvostechnológiai cége, a Stryker Corporation, három héttel egy jelentős kibertámadás után ismét teljes kapacitással működik...
⚡ Az MI fejlődése elképesztő tempót diktál, de valójában még senki sem tudja pontosan, mikor és hogyan fordítja majd fel a munka világát, a termelékenységet vagy az üzleti versenyt...
Április elseje most tényleg nagy dobás: nemcsak hogy indul a tavasz, meg persze az áprilisi tréfák, de ma este felbukkan a tavasz első, úgynevezett Rózsaszín Holdja (Pink Moon) – mégpedig egészen különleges időpontban...
📺 Végre elköszönhetsz a Samsung-féle okos vargabetűktől! Mostantól a Samsung tévéd önállóan képes együttműködni a Google Casttal, így nem kell többé kerülgetned a Smart View trükközéseit...
🔒 A kriptopénzek világában a legtöbben már hallottak rémtörténeteket elvesztett tokenekről, feltört számlákról vagy egyenesen teljes tőzsdék összeomlásáról...
🤔 Többek között az utóbbi évek mesterséges intelligencia (MI) hullámai mögött álló nagy nyelvi modellek (LLM-ek) néhány ponton messze elmaradnak az emberi logikai gondolkodás szintjétől...
Jellemző példa erre, hogy a Cisco több súlyos és kritikus hibát javított, köztük egy Integrated Management Controller (IMC) hitelesítés-megkerülési hibát, amellyel támadók adminisztrátori jogokat szerezhetnek...
Különösen igaz ez akkor, ha a vállalatok elhanyagolják a rendszeres frissítéseket: jelenleg több mint 14 000 F5 BIG-IP Access Policy Manager példány van közvetlenül kitéve kritikus távoli kódfuttatási (RCE) sebezhetőségnek az interneten...