2025. 03. 03., 11:30

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek

Kódhallucinációk az MI-ben? Valójában ezek a legkevésbé veszélyesek
Meglepően gyakori panasz azoktól a fejlesztőktől, akik már kipróbálták a nyelvi modelleket (LLM) kódírásra, hogy hallucinációkba ütköztek – általában olyan funkciókat vagy akár teljes szoftverkönyvtárakat talál ki a modell, amelyek nem léteznek – és ez azonnal lerombolta a bizalmukat az LLM-ekben mint kódírási eszközökben. Hogyan használhatná bárki is hatékonyan ezeket az eszközöket, ha olyan funkciókat találnak ki, amelyek nem léteznek? A kódban előforduló hallucinációk valójában a legkevésbé káros hallucinációk, amelyekkel egy modellnél találkozhatsz.

A valódi veszély máshol rejlik

Az LLM-ek kódírásra való használatának igazi kockázata az, hogy olyan hibákat követhetnek el, amelyeket nem azonnal észlel a nyelvi fordító vagy értelmező. És ezek folyamatosan előfordulnak!

Abban a pillanatban, amikor futtatod az LLM által generált kódot, bármilyen hallucinált metódus azonnal nyilvánvalóvá válik: hibaüzenetet kapsz. Ezt magad is kijavíthatod, vagy visszatáplálhatod a hibaüzenetet az LLM-be, és figyelheted, ahogy korrigálja önmagát.

Hasonlítsd ezt össze a hagyományos prózában előforduló hallucinációkkal, ahol kritikus szemre, erős intuícióra és jól fejlett tényellenőrzési készségekre van szükséged, hogy elkerüld a helytelen és a hírnevedre közvetlenül káros információk megosztását.

Ingyenes tényellenőrzés a kódban

A kóddal ingyenesen kapsz egy hatékony tényellenőrzési formát. Csak futtasd a kódot, és nézd meg, működik-e. A hallucinált funkciók olyan apró akadályok, hogy amikor az emberek panaszkodnak rájuk, feltételezhető, minimális időt töltöttek azzal, hogy megtanulják, hogyan használják hatékonyan ezeket a rendszereket – az első akadálynál feladták.

Miért utasítják el egyesek az MI-t ilyen gyorsan?

Kissé Cinikusan azt is mondhatnánk, hogy talán csak egy okot kerestek a technológia elutasítására, és az elsőnél lecsaptak rá.

Esetleg senki sem figyelmeztette őket, hogy sok munkát kell befektetni ahhoz, hogy megtanulják, hogyan érhetnek el jó eredményeket ezekkel a rendszerekkel.


A kézi tesztelés nélkülözhetetlen

Csak mert a kód jónak tűnik és hiba nélkül fut, még nem jelenti azt, hogy valóban a megfelelő dolgot csinálja. Semmilyen alapos kódfelülvizsgálat – vagy akár átfogó automatizált tesztek – sem bizonyítják meggyőzően, hogy a kód valóban a helyes dolgot teszi. Magadnak kell futtatnod! Annak bizonyítása, hogy a kód működik, a te feladatod.

Az LLM-kód általában fantasztikusan néz ki: jó változónevek, meggyőző megjegyzések, világos típusannotációk és logikus struktúra. Ez hamis biztonságérzetbe ringathat, ugyanúgy, ahogy egy nyelvtanilag helyes és magabiztos válasz a ChatGPT-től arra csábíthat, hogy kihagyd a tényellenőrzést vagy a szkeptikus szemlélet alkalmazását.

Hogyan kerüljük el a csapdákat?

A problémák elkerülésének módja ugyanaz, mint ahogy elkerülöd a problémákat más emberek által írt kódban, amelyet felülvizsgálsz, vagy a saját kódodban: aktívan tesztelned kell azt a kódot. Kiváló manuális minőségellenőrzési készségekkel kell rendelkezned.

A programozás általános szabálya, hogy soha ne bízz egyetlen kódrészletben sem, amíg nem láttad saját szemeddel működni – vagy, ami még jobb, nem láttad hibázni, majd kijavítottad.

Tippek a hallucinációk csökkentésére

Ha valóban hallucinált részletek áradatát tapasztalod az LLM-ek által neked készített kódban, számos dolgot tehetsz ellene.

Próbálj ki különböző modelleket. Lehet, hogy egy másik modellnek jobb a tanítási adathalmaza a választott platformodhoz. Jelenlegi a gondolkodás funkcióval ellátott Claude 3.7 Sonnet, az OpenAI o3-mini-high és a GPT-4o Code Interpreter a közönség kedvencek.

Tanuld meg, hogyan használd a kontextust. Ha egy LLM nem ismer egy adott könyvtárat, gyakran orvosolhatod ezt néhány tucat sornyi példakód beillesztésével. Az LLM-ek hihetetlenül jók az utánzásban és a minták gyors felismerésében nagyon korlátozott példák alapján. A modern modellek egyre nagyobb kontextusablakokkal rendelkeznek – a Claude új funkciója, hogy teljes repókat enged betölteni.

 

 

  • Te hogy kezelnéd, ha egy LLM által generált kódban hibát találnál, és mi lenne a következő lépésed?
  • Mit tennél, ha olyan eszközt használnál, ami többször is hallucinált metódusokat generál?


Legfrissebb posztok

MA 13:56

Az új Surface-ek brutálisan drágultak: 300 ezres ugrás, eltűntek az olcsók

💸 Az elmúlt két évben alaposan átalakult a Surface PC-k kínálata, igaz, nem úgy, ahogy azt sokan várták...

MA 13:35

Az űrhajósok ujjonganak: látványos meteorbecsapódások a Holdon

Az Artemis II űrhajósainak jelentős felfedezése örömmel töltötte el a kutatókat: a Hold felszínén villanó meteorbecsapódások nemcsak látványosak, hanem kulcsfontosságú információkat hordoznak a jövő holdbeli missziói számára...

MA 13:13

Itt az olcsóbb, gyorsabb képgenerálás: a Microsoft új MI-modellt dobott piacra

📸 A Microsoft bemutatta legújabb képgeneráló MI-modelljét, amely olcsóbb és gyorsabb, mint elődjei...

MA 12:48

Az ázsiai rizs a szakadék szélén: a klímaváltozás átlépte a túlélési hőhatárt

Az ázsiai rizs, több mint egymilliárd ember alapélelmiszere, évezredek óta meghatározza a régió kultúráját és gazdaságát...

MA 12:35

Az irányított káosz: a robotrajok titkos ütőkártyája

A robotrajok hatékonyabbá válásához néha semmi sem működik jobban, mint egy jó adag véletlenszerűség...

MA 11:45

Az FCC monopóliumhoz juttatta a Netgeart az otthoni routerpiacon

Az Egyesült Államokban bevezetett új routertilalom alól egyedül a Netgear kapott kivételt a Szövetségi Kommunikációs Bizottságtól (FCC)...

MA 11:13

Az egérnyomozó – vérbő, rajzfilmes noir lövölde

Egy sötét estén ülök le a gép elé, amikor a Mouse: P...

MA 11:01

Az Nvidia szerint az MI volt a kvantumszámítógépek hiányzó láncszeme

Többek között logisztikai, pénzügyi modellezési és anyagtudományi problémák megoldását ígérik a kvantumszámítógépek, de megbízhatóság nélkül mindez csak ígéret marad...

MA 10:57

A jogosítványvizsga végre otthonról is letudható?

Felmerül a kérdés, miért kell hónapokat várniuk a leendő sofőröknek, mire sorra kerülnek a KRESZ-vizsgán – ezt a bosszantó helyzetet próbálja orvosolni a brit közlekedési hatóság (DVSA), amely most azon dolgozik, hogy akár otthonról is elvégezhető legyen az elméleti vizsga...

MA 10:51

A kriptobiztonság romjain: hová tűntek a milliók?

💸 Senki sem várta volna, hogy a digitális pénzügyek világában egyetlen, megbízhatónak tekintett alkalmazás is ilyen lavinát indíthat el...

MA 10:43

Az új Google Fotók kivágója: többé semmi sem lóg be a képbe

A Google Photos frissítése mostantól jóval simább képkivágást ad, ami, valljuk be, ráfért már az appra...

MA 10:36

Az oktatás óriását zsarolják: kitört a McGraw-Hill adatbotrány

Nemrég kibertámadás érte a világ egyik vezető oktatási vállalatát, a McGraw-Hillt, amelynek során hackerek hozzáfértek belső adatokhoz egy hibás Salesforce-beállítás miatt...

MA 10:29

Az áttörés: soros eszközök irányítása közvetlenül a Firefoxból

A Firefox hamarosan közvetlenül kezeli a 3D-nyomtatókat és más, soros porton kommunikáló eszközöket...

MA 10:22

A nagy Microsoft-frissítés káoszt hozott: sorra jönnek a hibák

⚠ A legutóbbi Microsoft Patch Tuesday egészen elképesztő mennyiségű hibajavítást hozott: a vállalat összesen 165 új biztonsági rést foltozott be...

MA 10:15

Az Apple nagytakarít: búcsú az iWorktől, a Macen marad a Creator Studio

Már nem találod meg a régi Pages, Keynote vagy Numbers alkalmazásokat a Mac App Store-ban...

MA 10:01

A „vissza” gomb eltérítésének most tényleg vége

🔙 A vissza gomb eltérítése egy alattomos technika, amellyel egyre több weboldal él vissza...

MA 09:51

Az Apple az Amazon műholdjaira vált, búcsút int a Starlinknek

Ebből következően érdemes megérteni, hogy az Apple hosszú mérlegelés után az Amazon műholdas hálózatára, a LEO-ra tette le a voksát, és ezzel végleg elutasította Elon Musk Starlink-ajánlatát...

MA 09:43

A Kraken új botránya: zsarolók belső segítséggel csaptak le

A Kraken kriptovaluta-tőzsdét súlyos támadás érte, amikor egy bűnbanda azzal fenyegetőzött, hogy nyilvánosságra hoz olyan videókat, amelyek világosan bemutatják a cég belső rendszereinek működését, és ügyféladatokat is tartalmaznak...

MA 09:36

Az áprilisi hőhullám már nyarat varázsolt a keleti partra

🌡 Érdemes megvizsgálni, miért tombol extrém meleg április közepén az Egyesült Államok keleti részén...

MA 09:23

A NordVPN behálózza a világot: jelen van mind az 50 államban

A VPN-ek világában ritka, hogy új királyt avatnak, de most épp ez történt...

MA 09:16

A Sony újabb vágása: kulcsfunkciók tűnnek el a Bravia tévékről

🔧 Érdekes felvetés, hogy mennyire használjuk még a klasszikus antennás vagy set-top boxos tévézést a streaming világában...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/15

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Dragon Ruins I (iPhone/iPad)Ez a 3D dungeon crawler letisztult játékmenetével azoknak szól, akik az egyszerűbb kihívásokat kedvelik, bonyolult történetek és nehézkes irányítás nélkül...

MA 09:08

Az ASML váratlan lépése: robban az MI-hajtotta chippiac

💥 Ilyen esetre példa, hogy a félvezetőipar zászlóshajója, az ASML, megelőzte a szakértői várakozásokat, és jelentősen emelte előrejelzéseit is...

MA 09:01

Az amerikaiak végre hozzájuthatnak az új Wi‑Fi routerekhez

📶 A közelmúltban hozott szigorú szabályok miatt minden új, külföldön gyártott Wi-Fi-routert automatikusan kizárták az amerikai piacról, hacsak át nem ment komoly állami ellenőrzéseken...

MA 08:57

A Ticketmaster már az MI-chatbotban is árul koncertjegyeket

🎤 Jellemző példa erre, hogy a Ticketmaster a napokban bejelentette: már a ChatGPT-ben is közvetlenül vásárolhatsz koncertre vagy sporteseményre szóló jegyet...

MA 08:51

Az amerikai holdraszállásért folyó űrbéli versenyfutás – Artemis III

🚀 Fontos kérdés, hogy ki vezeti majd a következő emberes holdraszállást – a SpaceX vagy a Blue Origin...

MA 08:44

A Gemini nagy dobása: az MI végre tényleg megismer minket

💡 Érdemes kiemelni, hogy a Gemini idén bevezetett Personal Intelligence funkciója végre szintet lép: a korlátozott amerikai elérhetőség után most világszerte használhatóvá válik...

MA 08:36

A Samsung nagy dobása: óriási nyereség mesterséges intelligenciával

🚀 A Samsung SDS részvényei szerdán történelmi magasságokba törtek: akár 21,3%-ot emelkedtek, miután a világhírű magántőke-befektető, a KKR 1,22 billió won (mintegy 299 milliárd forint, azaz 820 millió dollár) értékben vásárolt átváltható kötvényeket a dél-koreai IT-megoldásokkal és logisztikával foglalkozó vállalattól...

MA 08:15

Az adatvédelem csak illúzió? A Google, Microsoft és a Meta figyel

Ami eleinte apróságnak tűnt, most több milliárd forintos büntetéshez vezethet: egy független audit szerint a Google, a Microsoft és a Meta még akkor is követi a felhasználókat, ha azok kifejezetten elutasítják a nyomkövetést...