2025. 03. 03., 11:30

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek
Meglepően gyakori panasz azoktól a fejlesztőktől, akik már kipróbálták a nyelvi modelleket (LLM) kódírásra, hogy hallucinációkba ütköztek – általában olyan funkciókat vagy akár teljes szoftverkönyvtárakat talál ki a modell, amelyek nem léteznek – és ez azonnal lerombolta a bizalmukat az LLM-ekben mint kódírási eszközökben. Hogyan használhatná bárki is hatékonyan ezeket az eszközöket, ha olyan funkciókat találnak ki, amelyek nem léteznek? A kódban előforduló hallucinációk valójában a legkevésbé káros hallucinációk, amelyekkel egy modellnél találkozhatsz.

A valódi veszély máshol rejlik

Az LLM-ek kódírásra való használatának igazi kockázata az, hogy olyan hibákat követhetnek el, amelyeket nem azonnal észlel a nyelvi fordító vagy értelmező. És ezek folyamatosan előfordulnak!

Abban a pillanatban, amikor futtatod az LLM által generált kódot, bármilyen hallucinált metódus azonnal nyilvánvalóvá válik: hibaüzenetet kapsz. Ezt magad is kijavíthatod, vagy visszatáplálhatod a hibaüzenetet az LLM-be, és figyelheted, ahogy korrigálja önmagát.

Hasonlítsd ezt össze a hagyományos prózában előforduló hallucinációkkal, ahol kritikus szemre, erős intuícióra és jól fejlett tényellenőrzési készségekre van szükséged, hogy elkerüld a helytelen és a hírnevedre közvetlenül káros információk megosztását.

Ingyenes tényellenőrzés a kódban

A kóddal ingyenesen kapsz egy hatékony tényellenőrzési formát. Csak futtasd a kódot, és nézd meg, működik-e. A hallucinált funkciók olyan apró akadályok, hogy amikor az emberek panaszkodnak rájuk, feltételezhető, minimális időt töltöttek azzal, hogy megtanulják, hogyan használják hatékonyan ezeket a rendszereket – az első akadálynál feladták.

Miért utasítják el egyesek az MI-t ilyen gyorsan?

Kissé Cinikusan azt is mondhatnánk, hogy talán csak egy okot kerestek a technológia elutasítására, és az elsőnél lecsaptak rá.

Esetleg senki sem figyelmeztette őket, hogy sok munkát kell befektetni ahhoz, hogy megtanulják, hogyan érhetnek el jó eredményeket ezekkel a rendszerekkel.


A kézi tesztelés nélkülözhetetlen

Csak mert a kód jónak tűnik és hiba nélkül fut, még nem jelenti azt, hogy valóban a megfelelő dolgot csinálja. Semmilyen alapos kódfelülvizsgálat – vagy akár átfogó automatizált tesztek – sem bizonyítják meggyőzően, hogy a kód valóban a helyes dolgot teszi. Magadnak kell futtatnod! Annak bizonyítása, hogy a kód működik, a te feladatod.

Az LLM-kód általában fantasztikusan néz ki: jó változónevek, meggyőző megjegyzések, világos típusannotációk és logikus struktúra. Ez hamis biztonságérzetbe ringathat, ugyanúgy, ahogy egy nyelvtanilag helyes és magabiztos válasz a ChatGPT-től arra csábíthat, hogy kihagyd a tényellenőrzést vagy a szkeptikus szemlélet alkalmazását.

Hogyan kerüljük el a csapdákat?

A problémák elkerülésének módja ugyanaz, mint ahogy elkerülöd a problémákat más emberek által írt kódban, amelyet felülvizsgálsz, vagy a saját kódodban: aktívan tesztelned kell azt a kódot. Kiváló manuális minőségellenőrzési készségekkel kell rendelkezned.

A programozás általános szabálya, hogy soha ne bízz egyetlen kódrészletben sem, amíg nem láttad saját szemeddel működni – vagy, ami még jobb, nem láttad hibázni, majd kijavítottad.

Tippek a hallucinációk csökkentésére

Ha valóban hallucinált részletek áradatát tapasztalod az LLM-ek által neked készített kódban, számos dolgot tehetsz ellene.

Próbálj ki különböző modelleket. Lehet, hogy egy másik modellnek jobb a tanítási adathalmaza a választott platformodhoz. Jelenlegi a gondolkodás funkcióval ellátott Claude 3.7 Sonnet, az OpenAI o3-mini-high és a GPT-4o Code Interpreter a közönség kedvencek.

Tanuld meg, hogyan használd a kontextust. Ha egy LLM nem ismer egy adott könyvtárat, gyakran orvosolhatod ezt néhány tucat sornyi példakód beillesztésével. Az LLM-ek hihetetlenül jók az utánzásban és a minták gyors felismerésében nagyon korlátozott példák alapján. A modern modellek egyre nagyobb kontextusablakokkal rendelkeznek – a Claude új funkciója, hogy teljes repókat enged betölteni.

 

 

  • Te hogy kezelnéd, ha egy LLM által generált kódban hibát találnál, és mi lenne a következő lépésed?
  • Mit tennél, ha olyan eszközt használnál, ami többször is hallucinált metódusokat generál?


Legfrissebb posztok

MA 11:35

Az extrém aszály térdre kényszeríti Corpus Christit: vihart kérnek

A déli Texasban fekvő Corpus Christit a hosszú évek óta tartó szárazság kritikus helyzetbe sodorta...

MA 11:24

A kínai repterek új réme: kötelező powerbank-ellenőrzés

Kína nemcsak a kulturális különbségekről, hanem a technológiai szabályokról is híres...

MA 11:13

Az MI és a hit találkozása: egy chatbot útkeresése

A technológiai fejlődés eddig soha nem látott dilemmák elé állítja az emberiséget...

MA 10:57

A Surfshark új Dausos protokollja: villámgyors VPN, nagyobb biztonság

A megszokott VPN-élményt most egy újítás emeli magasabb szintre, amely akár 30%-kal gyorsabb sebességet, fejlettebb adatvédelmet és dedikált, privát szerveroldali alagutat kínál minden egyes felhasználónak...

MA 10:50

Az év kriptocsalása: milliárdnyi DOT-zápor, filléres zsákmány

Egy ügyes támadó vasárnap hajmeresztő, de végül szerencsétlen akciót vitt véghez az Ethereum hálózatán, ahol sikerült 1 milliárd Polkadot tokent (nagyjából 440 milliárd forint értékben) kibocsátania a Hyperbridge egyik hibás szerződésében...

MA 10:37

Az MI-háború új frontja: rohamra indulnak a nyílt modellek

🛡 A tavasz megérkezésével a Google, a Microsoft, az Alibaba és az Nvidia újabb hullámban jelentették meg az általuk fejlesztett nyílt súlyú MI-modelleket...

MA 10:29

Az elképesztő LEGO-rablás: csúfosan bedőlt a nagy terv

🧸 Milliós LEGO-lopás, menekülő, játékokkal teli dobozos teherautók, és persze mindenki azt hinné, hogy valami Guy Ritchie-film forog a Mojave-sivatagban...

MA 10:22

Az amerikai kormány le akarja leplezni egy Reddit-felhasználó kilétét

A bevándorlási és vámhatóság (ICE) hónapok óta próbálja felfedni egy Reddit-felhasználó kilétét, akit azzal vádolnak, hogy nyilvánosan bírálta az ügynökséget...

MA 10:15

Megakadt a Bitcoin szárnyalása – újabb akadály jött szembe

A Bitcoin árfolyama napok óta erősödött, ráadásul olyan tényezők is támogatták ezt, mint az ETF-beáramlás, a makrogazdasági hátszél vagy a Coinbase-en tapasztalt prémium...

MA 10:01

Az olcsó QHD-s hordozható monitor, amiért nem kár a pénz?

A hordozható monitorok piacán hatalmas a választék, mégis ritkán találni olyat, ami kompromisszummentes élményt ad alacsony áron...

MA 09:50

A Rómából hazatért fáraó: Luxor új csodája

Lényeges, hogy Luxorban, a Karnak templomkomplexumnál dolgozó régészek egy 2000 éves homokkő sztélét tártak fel, amelyen a római császár, Tiberius fáraóként jelenik meg...

MA 09:23

Az MI végleg beköltözött a fejlesztők gépeire – Mitől lesz vak a cég?

💻 Az elmúlt másfél évben a vállalati MI-biztonság legfontosabb szabálykönyve egyszerű volt: elég volt a böngészőt kontrollálni...

MA 09:15

A csúcskategóriás Androidok idén vörösben hódítanak – az Apple nyomán

Az okostelefon-gyártók évről évre próbálják feldobni csúcskészülékeik megjelenését, és úgy tűnik, idén egy vadonatúj szín hódíthatja meg a piacot...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/13

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     VSep (iPhone/iPad)A VSep egy mesterséges intelligencia alapú alkalmazás, amely képes a zeneszámokból elkülöníteni az éneksávokat...

MA 09:07

Az Escher-féle örök spirál: így készítsd el otthon a Droste-effektust

M. C. Escher képeiben minden benne van, amitől a matematika hirtelen menőnek tűnik: az örökké visszatérő, önmagát ismétlő mintázatok, amelyek egyre kisebb és kisebb méretben folytatódnak a rajzon belül, mintha egy vizuális örökkévalóság lenne...

MA 09:01

Az MI már Lennon nyomába ered – Soderbergh is beszáll

🎵 Egy lényeges szempont, hogy Steven Soderbergh, aki olyan kasszasikereket rendezett, mint a Forgalom (Traffic), a Tripla vagy semmi (Ocean’s Eleven) vagy a Magic Mike (Magic Mike), ezúttal John Lennon utolsó interjújáról készít dokumentumfilmet...

MA 08:57

A neandervölgyiek sötét lakomái: ősi kannibalizmus és kívülállók

🤤 Egy új belga kutatás a Goyet-barlangból származó neandervölgyi maradványok alapján megállapította, hogy körülbelül 41 000–45 000 évvel ezelőtt ezek az ősemberek szelektív kannibalizmust folytattak...

MA 08:52

Az MI-verseny vesztese lehet az igazi nyertes: az Apple titkos aduja

Megvizsgálandó, miként fordult meg az MI-verseny szele az Apple javára, miközben a nagy tech cégek dollármilliárdokat öntöttek szuperszámítógépekbe, tréningadatokba és szoftverfejlesztésbe...

MA 08:42

Az ARM-os Windows felforgatja a PC-piacot – Snapdragon X élményteszt

Minden jel szerint a Snapdragon X processzorok tényleg megérkeztek, és már a Windows 11 is fut az ezekből készült laptopokon...

MA 08:37

Az ősemberek elefántokat daraboltak, hogy nagyobbra nőjön az agyuk

🦖 Képzelj el egy lényt, amely majdnem kétszer akkora, mint a mai afrikai elefánt, tehát akár 5 900 kilogrammot is nyomhatott...

MA 08:29

Az iskola titkos fegyvere: robotmadarak a Grand Teton Nemzeti Parkban

A Grand Teton Nemzeti Parkban most robotmadarakat hívnak segítségül, hogy visszacsalogassák az egyre fogyatkozó zsályafajdakat...

MA 08:22

Az Amazon nyugdíjazza a régi Kindléket – kitört a felháborodás

Nem csoda, hogy rég nem látott felháborodás söpört végig a Kindle-táboron, miután az Amazon bejelentette: hamarosan véget ér a legöregebb e-olvasók támogatása...

MA 08:14

Az AI-fenevad Mythos felforgatja az infosec világát – vagy blöff?

🦁 A héten az Anthropic előállt a Mythos nevű mesterséges intelligenciájával, amely állítólag döbbenetes pontossággal találja meg és használja ki a nulladik napi sérülékenységeket...

MA 08:02

Az aszteroida, amely meteorzáporral üzeni: a Nap porrá égette

💥 A földi éjszakákon ezrek figyelik automata kamerákkal a hullócsillagokat, hogy bárki felfedezhesse a kozmikus látványosságokat...

MA 07:57

Az amerikai hadsereg milliárdokat pumpál a lézerfegyverekbe

Az amerikai védelmi minisztérium jelentősen növelni tervezi a lézerfegyverek és más irányított energiafegyverek fejlesztésére szánt forrásokat a 2027-es pénzügyi évben...

MA 07:43

Az Apple okosszemüvege tényleg divatforradalmat hoz – menő leszel?

👕 Az Apple évek óta mindenki kíváncsiságát csigázza a saját okosszemüvegével, és úgy néz ki, már nem kell sokat várni: akár négy különböző modellből választhatsz majd, ha végre boltokba kerülnek...

MA 07:36

A Marimo új sebezhetősége már a titkaidra vadászik

Egy súlyos sérülékenység jelent meg a Marimo nevű nyílt forráskódú, Python-alapú notebook-platformon, amelyet adatkutatók, fejlesztők és MI-szakemberek használnak világszerte...

MA 07:29

Az OpenAI kontra Musk: indul a nagy jogi balhé

Komolyan mondom, egyre szürreálisabbá válik Elon Musk harca az OpenAI-jal, ahogy közeledik a tárgyalás napja...

MA 07:23

A mesterséges intelligencia és a DNS feltárja az ősi kéziratok titkait

🔎 Ma már a legmodernebb tudományos módszerek segítségével kutatók képesek feltárni, milyen állatok bőréből készült évszázadokkal ezelőtt a kéziratok pergamenje – mindezt úgy, hogy közben a legkisebb kárt sem tesznek a felbecsülhetetlen értékű történelmi dokumentumokban...