2025. 02. 24., 12:16

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

MA 09:30

Az elveszett jégkorszak titkai: óriáslajhár és oroszlánméretű tatu Texas barlangjaiban

🧚 Ilyen esetről van szó, amikor két kutató egy texasi föld alatti patakban úszva véletlenül páratlan jégkorszaki fosszíliákra bukkantak...

MA 09:22

Az emberi színlátás titka: miért fókuszálunk másként a színekre?

👁 A szemünk képes milliónyi színt érzékelni, de egyszerre csupán egyetlen szín hullámhosszára tud élesen fókuszálni...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 4/2

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Dungeon Survival (iPhone/iPad)A játék minden alkalommal új, véletlenszerűen generált barlangszinteket kínál, így mindig más kaland vár...

MA 09:08

Az új Nomad Tracking Card Air: okos nyomkövetés a pénztárcádban

A Nomad bemutatta legújabb Tracking Card Air-jét, amely már támogatja a Google Eszközkeresés (Find My Device) hálózatát is, és egyetlen töltéssel akár hét hónapig működik...

MA 08:50

Az új T‑Mobile 5G mentőinternet: ki jár vele igazán jól?

📶 Tipikus eset, amikor egy szolgáltató módosít a szabályain, és ezzel egyszerre örömet szerez egyeseknek, míg másokat bosszant...

MA 08:44

Az első exkluzív holdkerülő túra: irány a Hold, Artemis II!

Megtörtént, amire minden űrrajongó régóta várt: négy bátor űrhajós elstartolt a floridai Kennedy Űrközpontból, és belekezdtek egy tíznapos, felsőkategóriás körútra a Hold körül...

MA 08:16

A kiszivárgott Claude Code forráskódja leleplezi az Anthropic titkos MI-terveit

Több mint félmillió sornyi forráskód szivárgott ki az Anthropic Claude Code MI-rendszeréből, amely eddig ismeretlen újításokat és rejtett funkciókat leplezett le...

MA 07:57

Az energiaforradalom félbemaradt: még mindig a fosszilisek diktálnak

Különösen igaz ez most, amikor a megújuló energia egyre nagyobb szeletet hasít ki a világ energiaellátásából, miközben a fosszilis energiahordozók továbbra is markánsan jelen vannak...

MA 07:51

Az öngyilkos üstökös: először láttak önmagát pusztító, pörgő égitestet

🚀 Érdemes megvizsgálni, léteznek-e az űr mélyén olyan égi jelenségek, amelyek látszólag áthágják a fizika eddig ismert törvényeit...

MA 07:43

A mesterséges intelligencia másodpercek alatt klónozza a nyílt forráskódot – rémálom vagy zsenialitás?

Két szoftveres kutató most különösen pimasz módon mutatta be, milyen gyorsan képes a modern mesterséges intelligencia egész nyílt forráskódú projekteket újjáalkotni...

MA 07:36

A United alkalmazás már mutatja a reptéri várakozást – ha nem késik

✈ Végre megérkezett az a menüpont, amire mindenki vágyott: a United mostantól mutatja a beszállás előtti biztonsági ellenőrzések várakozási idejét az appban – vagyis, ha épp eszméletlenül hosszú sorok kígyóznak, pontosan tudhatod, mennyit fogsz unatkozni multitasking közben a poggyászoddal...

MA 07:29

A TrueConf hibája miatt ezrével csaptak le videókonferenciákra

📺 A hackerek egy súlyos, eddig ismeretlen biztonsági rést kihasználva támadták meg a TrueConf videókonferencia-szervereket...

MA 07:22

Az Nvidia végre véget vet a shader-fordítási kínoknak – de csak félig

💻 Amikor a PC-d éppen unatkozik, az Nvidia szerint igazán kihasználhatná az időt arra, hogy előre lefordítsa a játékokhoz szükséges shadereket...

MA 07:17

A Claude Code szelleme visszatért: kísért az MI-kód

Egyetlen óvatlan pillanat elég volt, hogy a vállalati biztonsági vezetők rémálma valóra váljon...

MA 07:09

Az ember visszatér a Holdra: elrajtolt az Artemis II küldetés

🚀 A floridai Kennedy Űrközpontból szerdán új korszak indult, amikor három amerikai és egy kanadai űrhajós útnak indult a Hold felé...

MA 07:01

A MOL és a Hitachi építheti Japán első lebegő adatközpontját

Japánban egyre komolyabban veszik a lebegő adatközpontok fejlesztését. A Mitsui OSK Lines (MOL) és a Hitachi most együttműködést kötött, hogy 2027-re egy használt hajóból alakítsanak ki egy úszó szerverfarmot, amely hűtéséhez tengervizet vagy folyóvizet használna...

MA 06:58

Az Apple kíméletlen döntései: miért buknak el egyes újdonságaik?

Tim Cook több mint tízéves vezérigazgatói pályafutása alatt az Apple-t a világ egyik legsikeresebb vállalatává emelte...

MA 06:50

Az új CrystalRAT: adatlopás és káosz egy csomagban

Egyre figyelemreméltóbb fenyegetést jelent a nemrég megjelent CrystalRAT, amelyet már Telegramon és YouTube-on is hirdetnek...

MA 06:44

Az optika kétszáz éves trükkje új korszakot nyit a kvantumtitkosításban

Fontos kérdés, hogy képesek vagyunk-e lépést tartani a digitális világ adatbiztonsági igényeivel...

MA 06:37

Az emberiség visszatér a Holdra fél évszázad után

2026. április 1-jén új korszak kezdődött az űrkutatásban: majdnem 54 év után ismét emberek indultak útnak a Hold felé...

MA 06:29

A NoVoice kártevő tombol, 2,3 millió androidos készüléket fertőzött meg

🚨 Az utóbbi időben több mint 2,3 millió androidos eszközt sikerült megfertőznie egy új, NoVoice névre keresztelt kártevőnek...

MA 06:22

Az újabb Solana-botrány: 70 milliárd forintnyi kriptó nyomtalanul eltűnt a Driftről

💸 A Solana-alapú Drift decentralizált pénzügyi platformon több mint 70 milliárd forint értékű kriptót vontak ki gyanús tranzakciók során...

MA 06:15

Az amerikaiak végre tű nélkül fogyhatnak: megérkezett a GLP–1 tabletta

Új korszak indult szerdán az USA-ban: az FDA rábólintott a Foundayo nevű GLP-1 tablettára, ami mostantól kapható lesz...

MA 06:09

Az MI romba döntheti versenyképességed – védd a kritikus tudást!

Érdekes felvetés, hogy a mesterséges intelligencia bevezetése milyen hatással lehet egy cég versenyképességére...

MA 06:05

Történelmi események a mai napon (Április 2.)

Április 2. tele van fordulópontokkal: Florida első európai észlelése, a Falkland-háború kirobbanása, Haile Selassie trónra lépése és nagy port kavart terrortámadások, illetve merényletek formálták a világot...

MA 06:01

Az MI jön, mennek a radiológusok? A kórházigazgatók készülnek

Mitchell H. Katz, a New York-i egészségügyi óriás, a NYC Health + Hospitals vezérigazgatója szerint, ha mesterséges intelligencia végezné az elsődleges radiológiai értékeléseket, jelentős összegeket lehetne megtakarítani...

szerda 21:56

Az óriásbankok is ringbe szállnak az előrejelzési piacokon?

A pénzügyi világban új verseny bontakozik ki: a hagyományos nagybankok – a JPMorgan és a Goldman Sachs – egyre komolyabban fontolgatják, hogy belépnek az úgynevezett előrejelzési piacok területére...

szerda 21:46

Az új csodapirula, a Foundayo, felforgatja a fogyókúrapiacot

Az amerikai Élelmiszer- és Gyógyszerügyi Hivatal (FDA) engedélyezte az Eli Lilly legújabb, GLP-1 típusú, szájon át szedhető gyógyszerét, a Foundayo-t...

szerda 21:26

Az űrtoalett áttörése: kényelmi forradalom a Hold felé

🚽 2026 áprilisában négy űrhajós indul útnak a Hold felé az Artemis II-misszió keretében, és magukkal visznek egy olyan űrtoalettet, amely a szó szoros értelmében forradalmasítja az űrutazás komfortját...