A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.
Felszínes megoldások, mélyreható problémák
Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.
Gyorsaság nem minden
Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.
Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.
📢 A TikTok váratlanul peren kívüli egyezséget kötött egy, a fiatalok közösségi média okozta függőségéről szóló pert megelőzően, amelyben a vállalatot a Meta Instagramja és a Google YouTube-ja mellett perelték be...
A kriptopiac történelmi válaszúthoz érkezett. A Bitwise befektetési cég szerint a Clarity Act nevű törvényjavaslat sorsa mindent eldönthet: ha elfogadják, a blokklánc-alapú pénzügy aranykora jöhet, de ha elbukik, a lassú, bizonyítási szakasz következik...
🐛 A Mustang Panda nevű kínai kémkedéssel foglalkozó hackercsoport frissítette a CoolClient nevű trójai programját, amely mostantól képes böngészőkből jelszavakat lopni, és a vágólap tartalmát is figyelni...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Roterra 3 – A Sovereign Twist (iPhone/iPad)A Roterra® egy logikai videojáték, ahol a térbeli gondolkodás és a perspektívaváltás kulcsfontosságú...
A Fortinet legújabb, kritikus sebezhetősége lehetőséget adott támadóknak, hogy az érintett FortiCloud SSO (Single Sign-On) hitelesítési rendszer hibáját kihasználva adminisztrátori jogokat szerezzenek más ügyfelek eszközei felett – még akkor is, ha azok a korábbi hibákra készült javításokat már telepítették...
Az Android készülékeken tárolt személyes, gyakran bizalmas adatok – bankszámlaadatok, fotók, jelszavak – miatt egy lopott telefon komoly problémát okozhat...
Felmerül a kérdés, hogy miként változott meg az Egyesült Államok űrstratégiája azóta, hogy az Apollo–13 1970-ben körberepülte a Holdat, és több mint százmillióan követték valós időben az eseményeket...
📹 Egyre több jel árulkodik arról, hogy a Spotify végre javítani akar a zenei videók élményén, mégpedig oly módon, ahogyan a YouTube már évekkel ezelőtt megtette...
A nemrég nyilvánosságra hozott bírósági dokumentumok felfedték, hogy az Anthropic cég egy „Panama Projekt” nevű művelet keretében több százezer, akár millió könyvet vásárolt fel, hogy azok gerincét levágva, a lapokat beszkennelve tanítsák be MI-chatbotjukat, a Claude-ot...
A tengeri halászat fenntarthatósága világszerte kiemelt jelentőségű, hiszen ez a szektor alapvető élelmiszerforrást, munkahelyeket és megélhetést nyújt emberek millióinak, miközben kulcsszerepet játszik a tengeri ökoszisztémák megőrzésében is...
🤔 Az asztma kialakulásának okait évtizedeken át a leukotriének nevű molekulák számlájára írták, melyeket az immunrendszer fehérvérsejtjei szabadítanak fel, ha a légutak irritációnak vagy allergéneknek vannak kitéve...
🛠 Az Európai Bizottság lépéseket tett, hogy a Google betartsa a Digitális piacokról szóló törvényt (Digital Markets Act, DMA), és ne részesítse előnyben a saját szolgáltatásait...
🔒 A Nike nagyszabású adatlopási botrányba keveredett, miután a World Leaks nevű zsarolóvírus-csoport 1,4 TB-nyi adatot szivárogtatott ki: állításuk szerint a sportóriástól lopták el mintegy 190 000 fájlt...
A várva várt Samsung Galaxy Z TriFold végre megjelenik az Egyesült Államokban, méghozzá a pletykált februári bemutató előtt: január 30-tól már meg is vásárolható lesz...