2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 08:01

Az új Micron-gyár hiába épül, a memóriaárak nem esnek gyorsan

💰 A Micron újabb hatalmas beruházást jelentett be: ezúttal Szingapúrban kezdi építeni 24 milliárd dollárból (kb...

MA 07:57

Az új TikTok-botrány: peren kívüli egyezség a függő fiatalok miatt

📢 A TikTok váratlanul peren kívüli egyezséget kötött egy, a fiatalok közösségi média okozta függőségéről szóló pert megelőzően, amelyben a vállalatot a Meta Instagramja és a Google YouTube-ja mellett perelték be...

MA 07:50

A Moonshot Kimi K2.5 forradalmasítja az MI-ügynökrajokat

Megemlíthető, hogy a kínai Moonshot AI cég új szintre emelte Kimi nevű MI-modelljét...

MA 07:41

Az amerikai kriptovilág jövője forog kockán – jön a nagy törés?

A kriptopiac történelmi válaszúthoz érkezett. A Bitwise befektetési cég szerint a Clarity Act nevű törvényjavaslat sorsa mindent eldönthet: ha elfogadják, a blokklánc-alapú pénzügy aranykora jöhet, de ha elbukik, a lassú, bizonyítási szakasz következik...

MA 07:33

Az Amazon véletlenül elszólta magát a közelgő leépítésekről

Az Amazon egy belső e-mailben véletlenül tudatta felhőrészlegének dolgozóival, hogy szervezeti átalakítások várhatók...

MA 07:26

Az ősi kínai kőeszközök új fejezetet nyitnak az emberi evolúcióban

160 ezer éves, rendkívül fejlett kőeszközöket tártak fel Közép-Kínában, amelyek nem feltétlenül köthetők a Homo sapienshez...

MA 07:17

Az új Mustang Panda-támadás: a CoolClient hátsóajtója veszélyeztet

🐛 A Mustang Panda nevű kínai kémkedéssel foglalkozó hackercsoport frissítette a CoolClient nevű trójai programját, amely mostantól képes böngészőkből jelszavakat lopni, és a vágólap tartalmát is figyelni...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/28

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Roterra 3 – A Sovereign Twist (iPhone/iPad)A Roterra® egy logikai videojáték, ahol a térbeli gondolkodás és a perspektívaváltás kulcsfontosságú...

MA 07:09

Az univerzum titkai: miért lett félsiker a gigászi űrfelmérés?

💫 Hat éven át tartó, 669 millió galaxis vizsgálatából született új eredmények alapjaiban rengetik meg a kozmológia alaptételeit...

MA 07:01

Az újabb Fortinet nulladik napi sebezhetőség: veszélyben az SSO

A Fortinet legújabb, kritikus sebezhetősége lehetőséget adott támadóknak, hogy az érintett FortiCloud SSO (Single Sign-On) hitelesítési rendszer hibáját kihasználva adminisztrátori jogokat szerezzenek más ügyfelek eszközei felett – még akkor is, ha azok a korábbi hibákra készült javításokat már telepítették...

MA 06:57

Az új Microsoft-trükk: a saját címedről érkezik a csaló levél

Furcsa csalási hullám indult, amelyben valódi Microsoft e-mail-címről érkeznek az átverések...

MA 06:49

Az Android új trükkjei, amitől a tolvajok is pánikolnak

Az Android készülékeken tárolt személyes, gyakran bizalmas adatok – bankszámlaadatok, fotók, jelszavak – miatt egy lopott telefon komoly problémát okozhat...

MA 06:42

Az új Holdverseny: az Artemis II és az űrstratégiai fordulat

Felmerül a kérdés, hogy miként változott meg az Egyesült Államok űrstratégiája azóta, hogy az Apollo–13 1970-ben körberepülte a Holdat, és több mint százmillióan követték valós időben az eseményeket...

MA 06:33

Az arany és a bitcoin szárnyal, zuhan a dollár

Donald Trump elnök nyilatkozata után a dollár négy éve nem látott mélypontra süllyedt...

MA 06:25

A Samsung új kijelzője örökre száműzi a leskelődőket

🔒 A Samsung hamarosan bemutatja legújabb fejlesztését, amely teljesen új szintre emeli a kijelzővédelmet...

MA 06:17

A Razer villámgyors új billentyűzetbeállítója minden böngészőben működik

A Razer bemutatta a Synapse Web-et, amely telepítés nélkül, böngészőből segít a billentyűzet testreszabásában...

MA 06:05

Történelmi események a mai napon (Január 28.)

Rövid visszatekintés a napra: hatalomváltások, forradalmi pillanatok és kulturális mérföldkövek formálták a történelmet...

MA 06:01

Az új Spotify-funkció: tényleg nézhetünk videókat?

📹 Egyre több jel árulkodik arról, hogy a Spotify végre javítani akar a zenei videók élményén, mégpedig oly módon, ahogyan a YouTube már évekkel ezelőtt megtette...

kedd 20:55

Az Anthropic könyvdarálója: így készült a Claude mesterséges intelligencia

A nemrég nyilvánosságra hozott bírósági dokumentumok felfedték, hogy az Anthropic cég egy „Panama Projekt” nevű művelet keretében több százezer, akár millió könyvet vásárolt fel, hogy azok gerincét levágva, a lapokat beszkennelve tanítsák be MI-chatbotjukat, a Claude-ot...

kedd 20:39

A fenntartható halászat kulcsa: nem mindegy, kié a döntés

A tengeri halászat fenntarthatósága világszerte kiemelt jelentőségű, hiszen ez a szektor alapvető élelmiszerforrást, munkahelyeket és megélhetést nyújt emberek millióinak, miközben kulcsszerepet játszik a tengeri ökoszisztémák megőrzésében is...

kedd 20:19

A tudósok megtalálták az agysejtek rejtett túlélő kapcsolóját

💡 Tipikus, hogy az idegsejtek károsodás után nem képesek megújulni, és ez hozzájárul számos idegrendszeri betegség súlyosbodásához...

kedd 20:01

A nagy fordulat: tévedtek az asztma okáról a tudósok?

🤔 Az asztma kialakulásának okait évtizedeken át a leukotriének nevű molekulák számlájára írták, melyeket az immunrendszer fehérvérsejtjei szabadítanak fel, ha a légutak irritációnak vagy allergéneknek vannak kitéve...

kedd 19:55

A finn klíma megmentői lehetnek az elhanyagolt tőzeglápok

A tőzeglápok helyreállítása akár néhány évtizeden belül is jelentős klímavédelmi eredményeket hozhat...

kedd 19:38

Az októberi cápainvázió: miért szaporodnak a támadások Hawaiinál?

🦈 Hawaii vizeit minden év októberében egy különös jelenség uralja: a cápatámadások száma ilyenkor ugrásszerűen megnő...

kedd 19:19

Az EU bekeményít: kitör az MI‑asszisztensek androidos háborúja

🛠 Az Európai Bizottság lépéseket tett, hogy a Google betartsa a Digitális piacokról szóló törvényt (Digital Markets Act, DMA), és ne részesítse előnyben a saját szolgáltatásait...

kedd 19:01

A Nike-t zsaroló hackerek 1,4 TB adatot szivárogtattak ki

🔒 A Nike nagyszabású adatlopási botrányba keveredett, miután a World Leaks nevű zsarolóvírus-csoport 1,4 TB-nyi adatot szivárogtatott ki: állításuk szerint a sportóriástól lopták el mintegy 190 000 fájlt...

kedd 18:56

Az MI-mágia sötét oldala: 6000 SmarterMail-szerver veszélyben

Több mint 6000 SmarterMail-szervert tettek ki automatizált támadásoknak világszerte, mivel kritikus hitelesítési hibát találtak a rendszerben...

kedd 18:37

A Samsung TriFold ennyiért akár aranyból is lehetne

A várva várt Samsung Galaxy Z TriFold végre megjelenik az Egyesült Államokban, méghozzá a pletykált februári bemutató előtt: január 30-tól már meg is vásárolható lesz...

kedd 18:19

Az Apple nem engedi meghalni a régi iPhone-jaidat

Az Apple váratlan szoftverfrissítést adott ki olyan régi iPhone-okra, mint az iPhone 5s, 6 és 6 Plus, amelyek évek óta nem kaptak frissítést...