A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók

A Mesterséges Intelligencia Még Mindig Bénázik A Kódolásban, Lepnek Meg A Kutatók
Az OpenAI kutatói beismerték, hogy még a legfejlettebb AI modellek sem érnek fel az emberi programozókkalannak ellenére, hogy Sam Altman vezérigazgató ragaszkodik hozzá, hogy év végére le fogják győzni a szoftverfejlesztőket. Egy új tanulmányban a cég kutatói megállapították, hogy még a határokat feszegető, legfejlettebb AI rendszerek is “képtelenek megoldani a feladatok többségét” a programozás terén. A kutatók egy újonnan kifejlesztett teljesítménymérőt használtak, a SWE-Lancer-t, amely több mint 1400 szoftverfejlesztési feladatot tartalmaz az Upwork szabadúszó platformról. Az OpenAI három nagy nyelvi modellt teszteltsaját o1 következtető modelljét és zászlóshajó GPT-4o-ját, valamint az Anthropic Claude 3.5 Sonnet-jét.

Felszínes megoldások, mélyreható problémák

Az új teljesítménymérő két típusú Upwork feladaton értékelte a nyelvi modellek teljesítményét: egyedi feladatokon, amelyek hibák javítását és megoldását jelentették, illetve menedzsment feladatokon, ahol a modelleknek átfogóbb, magasabb szintű döntéseket kellett hozniuk. (A modellek nem férhettek hozzá az internethez, így nem tudtak egyszerűen másolni hasonló, online már közzétett megoldásokat.) A modellek összesen több százezer dollár értékű feladattal foglalkoztak az Upworkon, de csak felszíni szoftverproblémákat tudtak javítani, míg képtelenek voltak nagyobb projektekben hibákat találni vagy azok gyökérokait feltárni. Ezek a félkész, gyenge “megoldások” ismerősek lehetnek mindenkinek, aki dolgozott már AI-jal – amely kiváló magabiztosan hangzó információk közlésében, amelyek alaposabb vizsgálat során összeomlanak.

Gyorsaság nem minden

Bár mindhárom nyelvi modell gyakran “sokkal gyorsabban működött, mint egy ember”, jegyzi meg a tanulmány, mégsem tudták felmérni a hibák kiterjedtségét vagy megérteni azok kontextusát, “ami helytelen vagy nem elég átfogó megoldásokhoz vezetett”. Ahogy a kutatók elmagyarázták, a Claude 3.5 Sonnet jobban teljesített, mint a két OpenAI modell, és több pénzt is keresett, mint az o1 és a GPT-4o. Ennek ellenére válaszainak többsége helytelen volt, és a kutatók szerint bármely modellnek “magasabb megbízhatóságra” lenne szüksége ahhoz, hogy valós programozási feladatokkal meg lehessen bízni.

Az ember még mindig vezet

Egyszerűbben fogalmazva, úgy tűnik, a tanulmány azt mutatja, hogy bár ezek a csúcsmodellek gyorsan dolgoznak és meg tudnak oldani kisebb feladatokat, még közel sem olyan ügyesek ezek kezelésében, mint az emberi mérnökök. Bár ezek a nyelvi modellek az elmúlt években gyorsan fejlődtek és valószínűleg ez folytatódni is fog, még nem elég képzettek a szoftverfejlesztésben ahhoz, hogy helyettesítsék az élő embereket – bár ez nem tartja vissza a vezérigazgatókat attól, hogy az automatizálási megoldások mellett döntsenek.

  • Szerinted milyen hatással lesz ez az AI teljesítményének korlátozottsága a munkaerőpiacra a következő években?
  • Ha te lennél a kutatócsapat tagja, milyen módszereket próbálnál ki az AI képességeinek fejlesztésére?
  • Te hogyan közelítenéd meg azt a kihívást, hogy az AI modellek nem értik a hibák kontextusát a programozási feladatoknál?


Legfrissebb posztok

szombat 20:48

A Firefoxban végre teljesen kikapcsolhatod az MI-t

A Mozilla új vezérigazgatója a héten bejelentette, hogy a Firefox modern MI-böngészővé válik, de a cég most azt is elárulta, hogy hamarosan egy teljes MI-kapcsolót vezetnek be...

szombat 20:34

A nagy csavar: az álmocskagomba nem is gomba

Sűrű, mohával borított erdők mélyén, Tajvan hegyeiben, Japán belsejében és Okinawa szubtrópusi lombjai alatt rejtőzik egy igencsak szokatlan élőlény...

szombat 20:18

Az MI forradalma a streamingben: végre tényleg nézhető lesz?

🎬 Érdemes megvizsgálni, hogy hamarosan teljesen új korszak köszönt be a videóstreaming világában...

szombat 20:02

Az öngyógyító kvantumszámítógép: mekkora az MI szénlábnyoma?

Kutatók áttörést értek el a kvantumszámítógépek fejlesztésében: elkészült az első, önmagát javítani képes rendszer...

szombat 19:18

A zöld miniszigetek felpezsdítik Dunedin belvárosát

Tényleg számítanak a legkisebb zöldterületek is: a Dunedin belvárosában megvalósított zöldítő projekt során utcai virágládákkal tették élőbbé és változatosabbá a környezetet...

szombat 19:01

A valódi ok, amiért hol nő, hol csökken a jövedelmed

📈 Érdemes megvizsgálni, mi mozgatja valójában a jövedelmek változását: hogyan lehet anyagilag előrelépni, és mi okozza a lecsúszást?..

szombat 18:50

Az új felfedezés mindent átírhat Titán rejtélyéről

Az eddigi elképzelések szerint a Szaturnusz legnagyobb holdja, a Titán, hatalmas óceánt rejt vastag, fagyott kérge alatt...

szombat 18:33

A kidobott műanyag a vegyipar új aranya?

📦 Érdekes felvetés, hogy vajon sikerülhet-e a műanyaghulladékot nemcsak lebontani, hanem értékes ipari anyagokká alakítani...

szombat 18:17

Az év leghosszabb éjszakáján érkezik az Ursidák fináléja

🌙 Az év utolsó, egyben legelhanyagoltabb meteorhullása, az Ursidák, most hétvégén éri el csúcspontját – ráadásul épp újholdkor és a téli napforduló idején...

szombat 18:03

A Fomalhaut körüli bolygóháború: óriások csapnak össze

A NASA Hubble-űrteleszkópja újabb bizonyítékot talált arra, hogy a közeli Fomalhaut csillag körül valójában nem egy új bolygó jelent meg, hanem két korai bolygókezdemény ütközése robbantotta fel az anyagfelhőt...

szombat 17:51

A legpontosabb kvantumszámítógép született – jön a szilíciumforradalom?

Ausztrál fizikusok áttörést értek el a kvantumszámítógépek világában: minden eddiginél pontosabb chipet fejlesztettek ki, amely új, szilíciumalapú architektúrára épül...

szombat 17:34

A sivatag titka: a núbiai gyerekek ősi tetoválásai

Több mint ezer éve Núbiában, a mai Szudán területén már egészen fiatal gyerekek arcát is tetoválások díszítették...

szombat 17:17

Az intersztelláris üstökös földközelben: vendég a kozmoszból

Éjszaka különleges esemény zajlott az égen: az intersztelláris eredetű 3I/ATLAS üstökös mintegy 270 millió kilométerre repült el a Föld mellett, ami csillagászati viszonylatban meglepően közelinek számít...

szombat 17:02

Az égi ütközések titkai: káosz a „Szauron szeme” körül

💫 Mindössze 25 fényévre innen, a Szauron szemének becézett Fomalhaut csillagrendszerben rendkívüli események tanúi lehetünk: csillagászok először figyeltek meg közvetlenül két bolygócsíra összeütközését, ráadásul mindössze húsz éven belül kétszer is...

szombat 16:04

Az új Meze 99 Classics második generáció: diófa, döngő basszus, némi fejfájás

🎧 Érdemes megvizsgálni, milyen élményt kínál a Meze Audio legújabb vezetékes fejhallgatója, a jól ismert 99 Classics utódja, amely lenyűgöző külsejével és zenei teljesítményével hódít...

szombat 15:50

Az év legizgalmasabb tudományos áttörései és űrbéli csodái

🚀 December közepén egymást érik a tudományos szenzációk: japán lézerfegyver-próba, rejtélyes üstökös búcsúja, pingvinevő pumák, és az MI megoldhatatlannak tartott matematikai problémákat old meg...

szombat 15:34

A mesterséges intelligencia ront a helyesíráson – veszélyben a gyerekek

Felmerül a kérdés, hogy mennyire támaszkodhatnak a gyerekek a digitális helyesírás-ellenőrző eszközökre az iskolai tanulmányaik során...

szombat 15:17

Az Airbus Európába költözteti kritikus adatait – a felhőbe

🖥 Az Airbus hamarosan pályázatot ír ki, hogy a legfontosabb vállalati alkalmazásait egy európai, digitálisan szuverén felhőbe költöztesse...

szombat 15:01

Az egykori Patagonia-vezér kiszáll a Rivian vezetéséből

🚗 Rose Marcario, a Patagonia korábbi vezérigazgatója január 1-jén lemond igazgatósági tagságáról a Rivian elektromos autógyártó cégnél, hogy más feladataira összpontosítson...