2025. 08. 13., 10:03

Az MI mostantól nem falja fel az adatokat

Az MI mostantól nem falja fel az adatokat
A nagy nyelvi modellek (LLM) finomhangolása igazi adatzabáló folyamat – különösen, ha bonyolult, komoly szakértelmet igénylő feladatokra, például szabályszegő reklámok kiszűrésére szeretnénk őket betanítani. Az ilyen projektek nemcsak iszonyúan drágává teszik a fejlesztést, hanem rugalmatlanná is: ha új szabályok vagy veszélyes tartalomtípusok jelennek meg, szinte elölről kell kezdeni az egész tanítást, újabb tonnányi adathalmazzal. Az adatgyűjtés, a címkézés és a minőségbiztosítás mind pénz- és időigényes folyamat. Érdemes kiemelni, hogy még így is gyakran előfordul, hogy a finomhangolt modellek elmaradnak a humán szakértők szintjétől. Most azonban egy új, aktív tanulási alapú MI-adatkuratóriummal sikerült húszezerszeresére csökkenteni az adatigényt anélkül, hogy a minőség romlott volna – sőt, számos esetben még javult is.

Adatkuratórium: kevesebb, de értékesebb tanító példák

Az új eljárás lényege, hogy képes hatalmas adathalmazokból néhány lépésben kiválasztani azokat a példákat, amelyek a legértékesebbek lennének, ha szakértő látná el őket pontos címkével. Indulásként a kutatók egy nulladik modellt (LLM-0) alkalmaznak, amely néhány példán keresztül tanul, majd ezek alapján címkézi az összes reklámot, például eldöntve, melyik clickbait, melyik ártalmatlan. Mivel az online forgalomnak jellemzően kevesebb mint 1%-a clickbait, így az így kapott halmaz nagyon egyoldalú – ráadásul a kezdetleges MI-modell is gyakran hibázik.

A továbbfejlesztéshez a clickbaitnek és ártalmatlannak címkézett példákat külön csoportosítják, majd az átfedéseknél keresik azokat az eseteket, ahol az MI-minták egymáshoz legközelebb esnek, de eltérő címkét kaptak. Ezek a kétértelmű, nehezen eldönthető esetek kerülnek humán szakértők elé, akik eldöntik, melyik a helyes megítélés. Ha korlátozottak az emberi erőforrások, akkor a folyamat azokat az ellentétes címkéjű mintapárokat részesíti előnyben, amelyek a legnagyobb “területet” fedik le a döntési határon.

Az így kurált, szakértő által címkézett halmaz egyszerre informatív (hiszen a legbizonytalanabb, legalaposabb vizsgálatot igénylő példákat tartalmazza) és sokszínű (sokféle helyzetet lefed a határterületen mozgó minták révén).

Mit jelent a minőség? Nincs abszolút igazság!

Noha sok iparágban a pontosság vagy a visszahívás (precision, recall) a siker mércéje, tartalommoderáció és csalásfelderítés esetén az “igazi” címkézés gyakran szubjektív, és a szakértők között is vita tárgya lehet. Erre a célra különösen népszerű a Cohen-féle Kappa mutató: azt méri, mennyire egyezik két, egymástól független szakértő címkézése – a véletlenszerű egyezéshez képest. A skála 0-tól (nincs egyezés) 1-ig (tökéletes egyezés) tart – 0,8 fölött már kiemelkedőnek számít, de a 0,4 is elfogadható határérték.

Kísérletek: pici, de ütős adatcsomagok

A tesztekhez két különböző méretű LLM-et (Nano-1: 1,8 milliárd paraméter; Nano-2: 3,25 milliárd paraméter) tanítottak különböző nehézségű feladatokra, amelyekhez eleve 100 ezer példányos, tömegforrásból szerzett, címkézett adatot használtak. Ezek döntő többsége (kb. 95%) ártalmatlan címkét kapott. A kontroll-sorozatokat összevetették a kurációs eljárással kiválasztott mintákkal: itt ugyanez történt, csak a példákat szakértői páros címkézte, és minden iterációnál újratanultak, amíg a modell teljesítménye már nem közelített jobban a szakértői egyezéshez.

Az alacsonyabb komplexitású feladathoz hat, a bonyolultabbhoz öt iteráció kellett. Ez csupán 400–450, illetve 250–150 darab címkézett mintát jelentett, jelentős, kb. 40%-os pozitív címkéjű aránnyal. Szemben a 100 ezer adatból álló alapbázissal, ez három nagyságrenddel kisebb adatfelhasználást jelent.

A szakértői kurációval az MI és a humán szakértők közötti Cohen-féle Kappa mutató 0,56–0,38-ra ugrott (Nano-2 esetén), ami 55–65%-kal jobb, mint a tömegforrásos tanítás (0,36–0,23). A kisebb modellnél (Nano-1) a javulás nem volt ilyen látványos, de a nagyobb rendszer gyakorlatilag ugyanolyan vagy jobb pontossággal dolgozott szinte elenyésző adatmennyiség mellett. Érdemes kiemelni, hogy a jó minőségű (0,8 fölötti Kappa) címkézés elengedhetetlen: alacsonyabb szintnél nincs számottevő előnye a kurációnak a tömeg-címkézéshez képest.


Új korszak az MI-oktatásban

Összefoglalva: az MI-modellek tanításában nem feltétlenül az adat mennyisége a siker kulcsa, hanem az, hogy a lehető legértékesebb, leginformatívabb példák szerepelnek-e a tréning során, és hogy ezeket megbízható, egymással is egyetértő humán szakértők látták-e el hiteles címkével. A most bemutatott adatkuratórium nemcsak adatspórolásra kiváló, hanem lehetőséget is ad arra, hogy gyorsan változó problémákhoz, például reklámmoderációhoz, villámgyorsan lehessen újratanítani a modelleket. Az MI így valóban rugalmasabbá, alkalmazkodóbbá válik, és végre kitörhet az állandó adatéhség okozta csapdából.

2025, adminboss, research.google alapján

  • Te mit gondolsz, etikailag rendben van, ha csak kevesebb, de jobban válogatott adatot használunk egy MI tanításához?
  • Te mit tennél, ha a szakértők sem tudnak teljesen megegyezni a címkézésben?


Legfrissebb posztok

MA 09:20

Az ősi élet nyomai a legváratlanabb helyen kerültek elő

Marokkó mélyén, a Közép-Atlasz hegyvonulataiban egészen különös felfedezésre bukkantak a kutatók...

MA 09:10

A mesterséges intelligencia az észak-koreai hekkerek új csodafegyvere

🛡 Érdemes megvizsgálni, hogy napjainkban az MI-ügynökök jelentősen megkönnyítik a kiberbűnözők és állami hekkerek dolgát...

MA 09:01

Az olaj kilő, a Bitcoin szakad – Mi történik?

Nem hiszem el, de a hétvégi hírek még mindig semmi békülésről nem szólnak az iráni fronton, úgyhogy az olajpiac teljesen bepörgött...

MA 08:46

A Kansas City repülőtéren: rövid pánik, aztán minden a régi

Nem mindennapi vasárnapja volt a Kansas City Nemzetközi Repülőtérnek: órákra kiürítették a terminált egy vélt fenyegetés miatt...

MA 08:37

A grafén ihlette a mágnesek új korszakát

💡 A kétdimenziós anyagok különleges elektronikai és mágneses tulajdonságaik miatt komoly figyelmet kapnak, hiszen ezek a jövő technológiáit is forradalmasíthatják...

MA 08:29

Az Einstein-féle téridő mégsem úgy hajlik, ahogy hittük?

🤔 A modern fizika két legfontosabb elméletének, a kvantumelméletnek és az általános relativitáselméletnek az összeegyeztetése régóta várat magára...

MA 08:19

A Bitcoin tovább szakad: közeleg az amerikai tőzsdepánik?

A Bitcoin ára egyelőre stabilan 67 000 dollár (kb. 24,3 millió Ft) körül mozog, miközben a világ tőzsdéin komoly eladási hullámok indultak, az olaj ára meghaladta a 100 dollárt (36 ezer Ft) hordónként, és az USA-dollár egy éve nem látott erősödést produkált...

MA 08:01

Az agyszkennelés felfedi, mit művel a ketamin a depresszióval

A depresszió világszerte az egyik vezető egészségügyi probléma, nem véletlen, hogy az érintettek mintegy 30 százaléka a hagyományos antidepresszánsokra sem reagál...

MA 07:55

Az ázsiai tőzsdéket csak részben hűti le az olajárzuhanás

📈 Dél-Koreában a Kospi index hétfő délelőtt négy napon belül másodszor aktiválta a kereskedést felfüggesztő automatizmust, amikor a piac több mint 8 százalékot zuhant, miután az olajár hordónként közel 120 dollárig (kb...

MA 07:37

A gyermekkori elhízás mögött gyakran a szülők stressze áll

👶 Miközben a gyermekkori elhízás továbbra is riasztó ütemben terjed: 2024-ben az USA-ban minden ötödik gyerek és kamasz túlsúlyos lett...

MA 07:28

Az EU odacsap: a bankoknak azonnal kártalanítaniuk kell az adathalászat áldozatait

Az Európai Unió Bíróságának főtanácsnoka, Athanasios Rantos szerint a pénzintézeteknek haladéktalanul vissza kell téríteniük azokat a számlatulajdonosokat, akik jogosulatlan tranzakciók áldozatai lettek – akkor is, ha ebben részben saját hibájuk is közrejátszott...

MA 07:19

Az univerzum dübörög: megduplázódott a fekete lyuk–neutroncsillag ütközések száma

A Laser Interferometer Gravitational-Wave Observatory (LIGO) példátlan módon először a téridő hullámain keresztül érzékelte az ütköző fekete lyukakat...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/9

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Castle Zombiestein – 3D FPS (iPhone/iPad)A Zombiestein egy fizikára épülő akciójáték, melynek főhőse Yuri “Tarzan” Agron, az orosz Spetsnaz elit katonája...

MA 07:10

A nagy óceántakarítás: tényleg ez menti meg a klímát?

Bekeményítettünk a klímaváltozással szemben, de úgy néz ki, még mindig szorít a sarok, amibe magunkat festettük...

MA 07:01

A következő nagy dobás: 3D-nyomtatott iPhone és Apple Watch?

Na most kapaszkodj, mert az Apple tényleg azon dolgozik, hogy alumíniumból 3D-nyomtatott iPhone-okkal és Apple Watch-okkal hódítsa meg a világot...

MA 06:55

Az Apple megnyitja az Ultra-korszakot: jönnek a csúcskütyük

Úgy tűnik, az olcsó MacBook rövid időre lekerült a színről, mert az Apple most visszatér a luxuskategóriához...

MA 06:46

Az óraátállítás kicsinál: így éld túl

🕑 Minden márciusban sokan tapasztalják meg, milyen, ha az óraátállítás miatt kevesebbet alszanak éjszaka...

MA 06:37

Az örök adattárolás kulcsa: hódít a DNS‑merevlemez

🔑 A Missouri Egyetem kutatói áttörést jelentettek be: egy olyan DNS-alapú tárolót fejlesztettek, amelyet újra és újra lehet törölni és felülírni, ráadásul az adatok akár több száz évig is megőrizhetők benne...

MA 06:06

Történelmi események a mai napon (Március 9.)

Mi történt ezen a napon a történelemben? Erős nap ez a történelemben: a tokiói éjszakai gyújtóbombázás pusztítása, Brazília felfedezésének kezdete és a Francia Idegenlégió megalapítása mind ide köthető...

vasárnap 18:03

Az új csalási hullám: .arpa DNS és IPv6 a célkeresztben

🔴 Az internetes bűnözők egyre kifinomultabb módszerekkel igyekeznek megkerülni a hagyományos adathalászat elleni védelmeket: most az ...

vasárnap 17:39

Az OpenAI hardverigazgatója lemondott a Védelmi Minisztériummal kötött szerződés miatt

Caitlin Kalinowski, az OpenAI robotikai részlegének hardverért felelős vezetője benyújtotta lemondását, miután a vállalat sietve szerződést kötött az amerikai Védelmi Minisztériummal...

vasárnap 17:21

A mesterséges intelligencia felforgatja a kibertámadásokat minden szinten

💻 A kiberbűnözők soha nem voltak ilyen leleményesek: egyre kifinomultabb módszerekkel vetik be a mesterséges intelligenciát, hogy felgyorsítsák a támadások előkészítését, növeljék támadásaik hatékonyságát, és lecsökkentsék a szükséges technikai tudás szintjét...

vasárnap 17:02

Az amerikai kriptotörvény körül elszabadultak az indulatok

Kérdés, hogy a digitális eszközök piacát szabályozó új törvény, a Clarity Act valóban az áttörés küszöbén áll-e a szenátusban...

vasárnap 16:58

A kellemetlen igazság a hibrid autókról: nem az, aminek látszik

⚠ Hibrid autók – mindenki imádja őket, legalábbis amíg rá nem jön, mennyire illúzió az egész, ha a tulajok fele lusta töltőre dugni őket...

vasárnap 16:42

Az autóporszívók nagy csatája: négy bajnok, váratlan győztes

Megvizsgáltuk, mennyit számít az ár, a márkanév vagy a dizájn, ha a kocsi belseje tisztaságáról van szó...

vasárnap 16:22

A netes korhatár-ellenőrzés már a felnőtteket is célba veszi

Az Egyesült Államokban új online gyermekvédelmi törvények nap mint nap egyre több embert kényszerítenek kötelező korhatár-ellenőrzésre, ha tartalmakhoz szeretnének hozzáférni az interneten...

vasárnap 14:03

A biológia forradalma: jönnek a kvantumfehérjék

🚀 A kristálymedúza finom, zöldes fénye évtizedek óta meghatározza a biológiai kutatásokat...

vasárnap 13:59

Az új módszer átírhatja az exobolygó-vadászat szabályait

🚀 A csillagászoknak évek óta nagy kihívást jelent az exobolygók felkutatása, hiszen ezek legtöbbször olyan halvány jeleket hagynak hátra, amelyeket nehéz észlelni...

vasárnap 13:39

A nagy óraátállítás-vita: lesz valaha megoldás?

Minden évben eljön a pillanat, amikor az órákat előre vagy hátra kell állítani, de a legtöbben felteszik a kérdést: van ennek még értelme?..