2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 13:01

Az iRhythm közölte: hackerek ellopták a betegek adatait

🔒 A digitális egészségügyi szolgáltató iRhythm Holdings súlyos adatlopást jelentett be, miután hackerek érzékeny személyes és egészségügyi adatokat tulajdonítottak el a cég által használt külső üzleti alkalmazásokból...

MA 12:46

Az Atacama közepe a hittnél 20 millió évvel korábban száradt ki

🌍 Chile északi részén, a Föld egyik legszárazabb területén húzódik az Atacama-sivatag, amely évente átlagosan kevesebb mint 5 milliméter csapadékot kap...

MA 12:34

Az Xbox Game Studios vezetője és stábfőnöke távozik – jön a reset?

Lényeges szempont, hogy a vezetői szintű távozások megrázhatják az egész játékipart, különösen akkor, ha azokat komoly változások előzik meg...

MA 12:24

Az amerikaiak miért utálják egyre jobban az MI-adatközpontokat?

Az idei év elején egy hatalmas, hat darab, egyenként 21 méter magas épületből álló adatközpont terveit ejtették Észak-Karolinában, miután a fejlesztőt szigorodó szabályok és a helyi lakosság tiltakozása miatt visszalépésre kényszerítették...

MA 11:56

A Philips Hue új Play lámpákkal, gyertyaizzókkal és kapcsolókkal támad

Az okos izzók és fényszalagok (Lightstrip) mellett mostantól a hagyományos csillárok és retró lámpák is integrálhatók a Philips Hue rendszerébe...

MA 11:34

A Starlink mellett veszélyesen darabokra hullott egy kínai rakéta

Egy kínai magánvállalat által fejlesztett Zhuque-2E rakéta felső fokozata a fellövés után néhány órával széthullott, mindössze néhány száz kilométerre a Föld felszínétől, ahol a Nemzetközi Űrállomás, valamint számos Starlink-műhold kering...

MA 11:01

Az EU megnyitná az Android MI-jét, a Google szerint indokolatlan

Az Európai Unió legújabb döntése szerint a Google-nek jóval szélesebbre kell tárnia az Androidon működő MI-szolgáltatások kapuját...

MA 10:47

Az MI-adatközpontokért dúl a harc: két texasi kisváros játszmája

🛠 Felmerül a kérdés, hogy egy texasi porfészekből hogyan válik országos viták színterévé, amikor a mesterségesintelligencia-infrastruktúra-építési láz eléri a vidéki közösségeket...

MA 10:37

A népszerű agyserkentő, amely a férfiak életét rövidítheti

🧠 A fehérjében gazdag ételekben széles körben előforduló aminosav, a tirozin a legújabb kutatások szerint váratlan kapcsolatban állhat azzal, hogy mennyi ideig élünk...

MA 10:27

A britek bekeményítenek: jön az országos közösségimédia-tilalom a 16 alattiaknak

🚫 Az Egyesült Királyság komoly lépéseket tesz a fiatalok online védelméért: hamarosan törvény tiltja, hogy 16 éven aluliak közösségi oldalakat használjanak...

MA 10:19

Az FCC leleplezi a Samsung Galaxy Z Fold 8 fontos részleteit

A Samsung hamarosan bemutatandó hajlítható telefonja, a Galaxy Z Fold 8 ismét reflektorfénybe került egy amerikai forgalmazási engedélynek köszönhetően...

MA 10:01

Az MI-ügynökök hamarosan leváltják az appokat

Lényeges, hogy a digitális világ radikális átalakulás előtt áll: hiába uralják ma mindennapjainkat az alkalmazások és az okostelefonok, hamarosan új típusú eszközök és digitális segítők jelenthetik a jövőt...

MA 09:45

Az FBI vészjelzése: támadás alatt a Teams, Outlook és OneDrive

A Microsoft 365 felhasználói új fenyegetéssel szembesülnek, amely főként a Teams, az Outlook és a OneDrive szolgáltatásait érinti...

MA 09:28

A gleccserek titokban hemzsegnek az élettől

A hatalmas és lenyűgöző gleccserek nemcsak fagyott víztömegek: rejtett, eleven élőhelyek is...

MA 09:19

A rejtélyes koboldcápa végre élve került lencsevégre

Felmerül a kérdés, hogy miféle rejtett csodákat őriznek még a Föld mély óceánjai, hiszen most először sikerült élő koboldcápát lencsevégre kapni a természetes élőhelyén...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 6/16

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Lively Letters – Phonics (iPhone/iPad)Ez az alkalmazás gyorsan elérte az első helyet a fizetős oktatási alkalmazások között az App Store-ban...

MA 09:02

A brit kormány betiltaná a közösségi médiát 16 év alattiaknak, éjszakai korlátozásokkal

Jó példa erre, hogy a brit kormány bejelentette: 2027 tavaszától minden 16 év alatti számára betiltják a közösségi média használatát...

MA 08:55

Az európai kereskedelmi űripar kulcsküldetését megint lefújták

Egy újabb sikertelen indítási kísérlettel folytatódott az európai űripar legújabb reménysége, az Isar Aerospace Spectrum rakétájának története...

MA 08:47

A Tensordyne Napier bejelentve: forradalmi, logaritmikus MI-számítás

⚡ A Tensordyne bemutatta vadonatúj, Napier nevű MI-gyorsítóját, amely 3 nm-es technológián alapul, és különlegessége, hogy a szokásos szorzási műveleteket logaritmikus matematikával helyettesíti...

MA 08:36

A Google Earth repülőszimulátora végre a böngésződben

A Google Earth mostantól nemcsak a Föld felfedezését teszi lehetővé, hanem egy szórakoztató repülőszimulátor módot is kínál, amelyet már közvetlenül a böngészőből elérhetsz...

MA 08:28

Véget ér az olajháború? Újra megnyílik a Hormuzi-szoros

Egy friss megállapodás értelmében péntektől teljesen megnyílik a Hormuzi-szoros, amely az elmúlt hónapokban a világtörténelem egyik legjelentősebb olajválságának középpontjában állt...

MA 08:19

Az űrháború küszöbén: a DARPA cserélhető műholdakat fejleszt

Az amerikai védelmi kutatások új fázisba lépnek, ahogy egyre nagyobb hangsúlyt kap a világűr stratégiai jelentősége...

MA 08:01

A bíró kiszórta az MI-vel érvelő két ügyvédet

Tipikus eset, amikor a technológia túl gyorsan lép be a hagyományos szakmákba...

MA 07:54

Az új GLP-1 diabétesztabletta látványos fogyást és vércukorszabályozást hoz

Egy forradalmian új, még fejlesztés alatt álló gyógyszer jelentheti a jövőt a 2-es típusú cukorbetegség kezelésében...

MA 07:46

A kínai gazdaság tovább gyengül: három év után esik májusban a kiskereskedelem

📈 Májusban a kínai gazdaság újabb gyengülést mutatott, amikor a kiskereskedelmi eladások több mint három év után először csökkentek...

MA 07:37

A Xiaomi hozta el a Tesla 2014-es ígéretét: könnyebb töltés

⚡ A vezetékes villanyautó-töltés talán legkellemetlenebb része a nehéz, koszos kábelek pakolgatása, de ez hamarosan a múlté lehet egy vadonatúj kínai fejlesztésnek köszönhetően...

MA 07:19

A Galaxy Book 6 Edge Snapdragon X2 Elite-tel: brutális erő, borsos ár

🚀 A Samsung ismét bővíti népszerű laptopcsaládját, méghozzá a Galaxy Book 6 Edge modellel...

MA 07:10

A japán jegybank 1%-ra emelt: 1995 óta nem volt ilyen

💸 A japán jegybank több mint harminc év óta először emelte 1%-ra az alapkamatot, elérve a legmagasabb szintet 1995 óta...

MA 07:01

Drágul az ingatlanpiac, a 23 milliárdos építő 55 ezer dollárt ad házanként

🏡 Többek között a járvány idején az ingatlanpiac fellendülése soha nem látott nyereséget hozott az Egyesült Államok legnagyobb lakásépítő vállalatainak, amikor az árak az egekbe szöktek, és hatalmas kereslet alakult ki...