Az MI mostantól nem falja fel az adatokat

Az MI mostantól nem falja fel az adatokat
A nagy nyelvi modellek (LLM) finomhangolása igazi adatzabáló folyamat – különösen, ha bonyolult, komoly szakértelmet igénylő feladatokra, például szabályszegő reklámok kiszűrésére szeretnénk őket betanítani. Az ilyen projektek nemcsak iszonyúan drágává teszik a fejlesztést, hanem rugalmatlanná is: ha új szabályok vagy veszélyes tartalomtípusok jelennek meg, szinte elölről kell kezdeni az egész tanítást, újabb tonnányi adathalmazzal. Az adatgyűjtés, a címkézés és a minőségbiztosítás mind pénz- és időigényes folyamat. Érdemes kiemelni, hogy még így is gyakran előfordul, hogy a finomhangolt modellek elmaradnak a humán szakértők szintjétől. Most azonban egy új, aktív tanulási alapú MI-adatkuratóriummal sikerült húszezerszeresére csökkenteni az adatigényt anélkül, hogy a minőség romlott volna – sőt, számos esetben még javult is.

Adatkuratórium: kevesebb, de értékesebb tanító példák

Az új eljárás lényege, hogy képes hatalmas adathalmazokból néhány lépésben kiválasztani azokat a példákat, amelyek a legértékesebbek lennének, ha szakértő látná el őket pontos címkével. Indulásként a kutatók egy nulladik modellt (LLM-0) alkalmaznak, amely néhány példán keresztül tanul, majd ezek alapján címkézi az összes reklámot, például eldöntve, melyik clickbait, melyik ártalmatlan. Mivel az online forgalomnak jellemzően kevesebb mint 1%-a clickbait, így az így kapott halmaz nagyon egyoldalú – ráadásul a kezdetleges MI-modell is gyakran hibázik.

A továbbfejlesztéshez a clickbaitnek és ártalmatlannak címkézett példákat külön csoportosítják, majd az átfedéseknél keresik azokat az eseteket, ahol az MI-minták egymáshoz legközelebb esnek, de eltérő címkét kaptak. Ezek a kétértelmű, nehezen eldönthető esetek kerülnek humán szakértők elé, akik eldöntik, melyik a helyes megítélés. Ha korlátozottak az emberi erőforrások, akkor a folyamat azokat az ellentétes címkéjű mintapárokat részesíti előnyben, amelyek a legnagyobb “területet” fedik le a döntési határon.

Az így kurált, szakértő által címkézett halmaz egyszerre informatív (hiszen a legbizonytalanabb, legalaposabb vizsgálatot igénylő példákat tartalmazza) és sokszínű (sokféle helyzetet lefed a határterületen mozgó minták révén).

Mit jelent a minőség? Nincs abszolút igazság!

Noha sok iparágban a pontosság vagy a visszahívás (precision, recall) a siker mércéje, tartalommoderáció és csalásfelderítés esetén az “igazi” címkézés gyakran szubjektív, és a szakértők között is vita tárgya lehet. Erre a célra különösen népszerű a Cohen-féle Kappa mutató: azt méri, mennyire egyezik két, egymástól független szakértő címkézése – a véletlenszerű egyezéshez képest. A skála 0-tól (nincs egyezés) 1-ig (tökéletes egyezés) tart – 0,8 fölött már kiemelkedőnek számít, de a 0,4 is elfogadható határérték.

Kísérletek: pici, de ütős adatcsomagok

A tesztekhez két különböző méretű LLM-et (Nano-1: 1,8 milliárd paraméter; Nano-2: 3,25 milliárd paraméter) tanítottak különböző nehézségű feladatokra, amelyekhez eleve 100 ezer példányos, tömegforrásból szerzett, címkézett adatot használtak. Ezek döntő többsége (kb. 95%) ártalmatlan címkét kapott. A kontroll-sorozatokat összevetették a kurációs eljárással kiválasztott mintákkal: itt ugyanez történt, csak a példákat szakértői páros címkézte, és minden iterációnál újratanultak, amíg a modell teljesítménye már nem közelített jobban a szakértői egyezéshez.

Az alacsonyabb komplexitású feladathoz hat, a bonyolultabbhoz öt iteráció kellett. Ez csupán 400–450, illetve 250–150 darab címkézett mintát jelentett, jelentős, kb. 40%-os pozitív címkéjű aránnyal. Szemben a 100 ezer adatból álló alapbázissal, ez három nagyságrenddel kisebb adatfelhasználást jelent.

A szakértői kurációval az MI és a humán szakértők közötti Cohen-féle Kappa mutató 0,56–0,38-ra ugrott (Nano-2 esetén), ami 55–65%-kal jobb, mint a tömegforrásos tanítás (0,36–0,23). A kisebb modellnél (Nano-1) a javulás nem volt ilyen látványos, de a nagyobb rendszer gyakorlatilag ugyanolyan vagy jobb pontossággal dolgozott szinte elenyésző adatmennyiség mellett. Érdemes kiemelni, hogy a jó minőségű (0,8 fölötti Kappa) címkézés elengedhetetlen: alacsonyabb szintnél nincs számottevő előnye a kurációnak a tömeg-címkézéshez képest.


Új korszak az MI-oktatásban

Összefoglalva: az MI-modellek tanításában nem feltétlenül az adat mennyisége a siker kulcsa, hanem az, hogy a lehető legértékesebb, leginformatívabb példák szerepelnek-e a tréning során, és hogy ezeket megbízható, egymással is egyetértő humán szakértők látták-e el hiteles címkével. A most bemutatott adatkuratórium nemcsak adatspórolásra kiváló, hanem lehetőséget is ad arra, hogy gyorsan változó problémákhoz, például reklámmoderációhoz, villámgyorsan lehessen újratanítani a modelleket. Az MI így valóban rugalmasabbá, alkalmazkodóbbá válik, és végre kitörhet az állandó adatéhség okozta csapdából.

2025, adminboss, research.google alapján

  • Te mit gondolsz, etikailag rendben van, ha csak kevesebb, de jobban válogatott adatot használunk egy MI tanításához?
  • Te mit tennél, ha a szakértők sem tudnak teljesen megegyezni a címkézésben?



Legfrissebb posztok

A robotrák karcsatája: amikor Wavy Dave alulmarad

MA 11:26

A robotrák karcsatája: amikor Wavy Dave alulmarad

Dél-Portugália iszapos partjainál újfajta harc bontakozott ki: egy MI-vezérelt, 3D-nyomtatott robotrák, Wavy Dave kihívta a helyi Afruca tangeri kandrákokat a híres karlengető versenyükben. Ezeket a karlengető mozdulatokat a...

Az utolsó égi bolygóparádé: így láthatod mind a hatot!

MA 11:01

Az utolsó égi bolygóparádé: így láthatod mind a hatot!

🌕 Augusztus 17-én este kivételes látvány tárul a hajnalban kelők szeme elé: a Föld szomszédai, vagyis a Merkúr, a Vénusz, a Jupiter, a Szaturnusz, az Uránusz és a Neptunusz...

Az áttörés: hibátlan kromoszómaszerkesztés kínai módra

MA 10:53

Az áttörés: hibátlan kromoszómaszerkesztés kínai módra

🔬 Egy kínai kutatócsoport új, rendkívül pontos génszerkesztő eljárásokat fejlesztett ki, amelyek lehetővé teszik akár hatalmas DNS-szakaszok módosítását is növényekben és állatokban, mindenféle nyom nélkül. Az új eszközök egyesítik...

Az év leglátványosabb csillaghullása: mit várhatsz a Perseidáktól?

MA 10:40

Az év leglátványosabb csillaghullása: mit várhatsz a Perseidáktól?

💫 Idén augusztusban ismét feltűnik éjszakáinkon a Perseida-meteorraj – bár a csaknem telihold fénye most csökkenti a látvány erejét, így is érdemes miatta felkelni az éjszaka közepén. A Perseidák...

Amikor igazán szomjasak vagyunk, így reagál a testünk és az agyunk

MA 10:29

Amikor igazán szomjasak vagyunk, így reagál a testünk és az agyunk

A vízhiányt minden sejted megérzi, de mégsem a sejtek, hanem az agy hozza létre azt az élményt, amit szomjúságnak hívunk. Az ismerős, száraz torok, égető érzés és tompa...

Az északi fény lecsap Amerikára: 18 államban látható lehet

MA 10:14

Az északi fény lecsap Amerikára: 18 államban látható lehet

🌈 Egy közeledő geomágneses vihar miatt akár 18 amerikai államban is feltűnhet az északi fény pénteken vagy szombaton. A jelenséget egy napszélből származó zavar okozza, amely várhatóan augusztus 8-án...

Elhunyt Jim Lovell, az Apollo–13 hőse és űrutazásunk megmentője

MA 09:56

Elhunyt Jim Lovell, az Apollo–13 hőse és űrutazásunk megmentője

James Lovell 97 éves korában hunyt el. Ő volt az első ember, aki kétszer is eljutott a Holdhoz, és főként az Apollo–13 (Apollo 13) katasztrófával fenyegető, ám végül...

Az MI alattomosan terjesztheti a gonoszságot, észrevétlenül

MA 09:28

Az MI alattomosan terjesztheti a gonoszságot, észrevétlenül

Képzeld el, hogy két MI csendben, pusztán számok és kódsorok segítségével adja tovább egymásnak a világ leghátborzongatóbb tanácsait – mindezt úgy, hogy a felhasználó semmit sem vesz észre....

Még mindig lassú a Pixel 10, ezért szeretik annyian

MA 09:15

Még mindig lassú a Pixel 10, ezért szeretik annyian

😐 A Pixel telefonok sosem a gyorsaságról szóltak. Ha valaki a leggyorsabb mobilt keresi, ma is nehéz dönteni a csúcskategóriás iPhone és az aktuális legújabb Samsung között. Ezek minden...