A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 15:17

Az IKEA trükkös töltői mostantól hangulatfényt is adnak

Az IKEA három vadonatúj vezeték nélküli töltővel bővíti kínálatát, amelyek támogatják a Qi 2...

MA 15:01

A Zootropolis 2 rekordidő alatt átlépte az egymilliárdot

Kevesebb mint három hét alatt a Zootropolis 2 (Zootopia 2) már több mint 1 milliárd dollárt, azaz körülbelül 368 milliárd forintot hozott a Disney-nek, rekordgyorsasággal érve el ezt az összeget egy PG-besorolású filmhez képest...

MA 14:49

Az Amazon törli a hibás MI-generált Fallout-összefoglalókat

Az Amazon Prime Video gyorsan eltávolította a Radioaktív kihullás (Fallout) sorozat első évadához készült, MI által generált összefoglalókat, miután azok súlyos hibákat tartalmaztak...

MA 14:34

Az amerikai gazdagság délibábja: Mit ér a nettó vagyon valójában?

Úgy tűnhet, elképesztően gazdagok az amerikaiak, hiszen a 2024-es UBS-jelentés szerint az átlagos nettó vagyon 620 654 dollár, ami több mint 224 millió forintnak felel meg...

MA 14:18

A pénzügyi csalók milliárdokat húznak ki az idősek zsebéből

💰 A 60 év felettiek körében terjedő pénzügyi csalások egyre súlyosabb gondot jelentenek: 2024-ben csak az Egyesült Államokban akár 31 000 milliárd forint (81,5 milliárd USD) kárt is okozhattak az idősebb korosztálynak...

MA 14:03

Az emberiség jövője: megvannak a Global Space Awards győztesei

Érdemes megvizsgálni, hogy Londonban, a Természettudományi Múzeumban megrendezett első Global Space Awards milyen jelentőséggel bír az űripar szempontjából...

MA 13:50

A techóriások sem engedik: gyerekeiknek nem jár szabad netezés

🔒 A legnagyobb techvezetők közül is egyre többen szabályozzák és korlátozzák saját gyerekeik közösségi médiahasználatát...

MA 13:34

Az MI új korszaka: apró ügynökök, okosabb rendszerek

🤖 Az elmúlt évtizedben minden a minél nagyobb MI-modellekről szólt. A kutatók egyre több paramétert illesztettek a rendszerekbe, és ezzel jelentős sikereket értek el, de mára elértük ennek a módszernek a határait: a méret önmagában már kevés újat hoz...

MA 13:17

Az IKEA fánk alakú töltője letarolja a piacot

Az IKEA ismét bővítette megfizethető elektronikai kínálatát: három új, 15 wattos, a Qi2 szabványt támogató vezeték nélküli töltő érkezett...

MA 13:02

A német felnőttek az adaptív problémamegoldás bajnokai

🏆 A legfrissebb PIAAC-felmérés szerint a németországi felnőttek a nemzetközi átlag felett teljesítenek az összetett, új helyzetekben felmerülő problémák megoldásában...

MA 12:49

Az új React-hibák titkokat buktatnak, és DDoS-támadásokat szabadítanak el

⚠ A React Server Components szolgáltatást használók sorra kapják a rossz híreket...

MA 12:33

Az örökre maradó nyom: amit kevesen tudnak a traumás tetoválásról

A hétköznapi tetoválásokkal ellentétben a traumás tetoválások egészen váratlan módon keletkeznek – nem tintával, hanem balesetek vagy apró sérülések során, például egy ceruzaszúrás után...

MA 12:17

Az óriáskrokodilt egy 40 éve lappangó kór ölte meg

🐢 Cassius, a 18 láb (kb. 5,5 méter) hosszú sósvízi krokodil negyven évet töltött fogságban az ausztráliai Marineland Crocodile Parkban, ám tavaly hirtelen elpusztult, mintegy 120 évesen...

MA 12:01

A Google látványos offenzívája a Sci-Hub ellen

Fontos kérdés, hogy mennyire tudják a keresőszolgáltatók meggátolni a szerzői jogot sértő tartalmak elérését...

MA 11:49

Az újabb Windows-sebezhetőség: a RasMan-hibát bárki kihasználhatja

A Microsoft operációs rendszerének egyik nélkülözhetetlen szolgáltatását, a Windows Távoli hozzáférés-kapcsolatkezelőjét (Remote Access Connection Manager, RasMan) érintő új, nulladik napi sérülékenység került napvilágra, amely lehetővé teszi, hogy egy jogosultság nélküli felhasználó leállítsa a RasMan szolgáltatást...

MA 11:19

A húrelmélet bombája: bizonyítás, amely megrengeti az algebrai geometriát

💣 Többek között egészen szokatlan módszerrel, a húrelmélet világából kölcsönzött ötletekkel oldottak meg egy évtizedek óta megválaszolatlan kérdést matematikusok: sikerült előrelépni a polinomegyenletek bonyolult világában...

MA 11:02

Az ősi tüzek és a delfinek titkos szövetsége

December közepén ismét izgalmas tudományos felfedezéseket ünnepelhetünk, hiszen a kutatók újabb nyomokat találtak arra, hogyan alakultak a neandervölgyiek mindennapjai, és érdekes jelenségeket figyelhetünk meg az állatvilágban is...

MA 10:58

A nagy Dyson-pálcateszt: melyik porszívót érdemes megvenni?

A Dyson pálcás porszívói régóta az otthoni takarítás ikonikus eszközei, de amikor a vásárló négy, látszólag hasonló modell között nézelődik, könnyen elveszhet a sok technikai adat és marketingszöveg útvesztőjében...