
Adatkuratórium: kevesebb, de értékesebb tanító példák
Az új eljárás lényege, hogy képes hatalmas adathalmazokból néhány lépésben kiválasztani azokat a példákat, amelyek a legértékesebbek lennének, ha szakértő látná el őket pontos címkével. Indulásként a kutatók egy nulladik modellt (LLM-0) alkalmaznak, amely néhány példán keresztül tanul, majd ezek alapján címkézi az összes reklámot, például eldöntve, melyik clickbait, melyik ártalmatlan. Mivel az online forgalomnak jellemzően kevesebb mint 1%-a clickbait, így az így kapott halmaz nagyon egyoldalú – ráadásul a kezdetleges MI-modell is gyakran hibázik.
A továbbfejlesztéshez a clickbaitnek és ártalmatlannak címkézett példákat külön csoportosítják, majd az átfedéseknél keresik azokat az eseteket, ahol az MI-minták egymáshoz legközelebb esnek, de eltérő címkét kaptak. Ezek a kétértelmű, nehezen eldönthető esetek kerülnek humán szakértők elé, akik eldöntik, melyik a helyes megítélés. Ha korlátozottak az emberi erőforrások, akkor a folyamat azokat az ellentétes címkéjű mintapárokat részesíti előnyben, amelyek a legnagyobb “területet” fedik le a döntési határon.
Az így kurált, szakértő által címkézett halmaz egyszerre informatív (hiszen a legbizonytalanabb, legalaposabb vizsgálatot igénylő példákat tartalmazza) és sokszínű (sokféle helyzetet lefed a határterületen mozgó minták révén).
Mit jelent a minőség? Nincs abszolút igazság!
Noha sok iparágban a pontosság vagy a visszahívás (precision, recall) a siker mércéje, tartalommoderáció és csalásfelderítés esetén az “igazi” címkézés gyakran szubjektív, és a szakértők között is vita tárgya lehet. Erre a célra különösen népszerű a Cohen-féle Kappa mutató: azt méri, mennyire egyezik két, egymástól független szakértő címkézése – a véletlenszerű egyezéshez képest. A skála 0-tól (nincs egyezés) 1-ig (tökéletes egyezés) tart – 0,8 fölött már kiemelkedőnek számít, de a 0,4 is elfogadható határérték.
Kísérletek: pici, de ütős adatcsomagok
A tesztekhez két különböző méretű LLM-et (Nano-1: 1,8 milliárd paraméter; Nano-2: 3,25 milliárd paraméter) tanítottak különböző nehézségű feladatokra, amelyekhez eleve 100 ezer példányos, tömegforrásból szerzett, címkézett adatot használtak. Ezek döntő többsége (kb. 95%) ártalmatlan címkét kapott. A kontroll-sorozatokat összevetették a kurációs eljárással kiválasztott mintákkal: itt ugyanez történt, csak a példákat szakértői páros címkézte, és minden iterációnál újratanultak, amíg a modell teljesítménye már nem közelített jobban a szakértői egyezéshez.
Az alacsonyabb komplexitású feladathoz hat, a bonyolultabbhoz öt iteráció kellett. Ez csupán 400–450, illetve 250–150 darab címkézett mintát jelentett, jelentős, kb. 40%-os pozitív címkéjű aránnyal. Szemben a 100 ezer adatból álló alapbázissal, ez három nagyságrenddel kisebb adatfelhasználást jelent.
A szakértői kurációval az MI és a humán szakértők közötti Cohen-féle Kappa mutató 0,56–0,38-ra ugrott (Nano-2 esetén), ami 55–65%-kal jobb, mint a tömegforrásos tanítás (0,36–0,23). A kisebb modellnél (Nano-1) a javulás nem volt ilyen látványos, de a nagyobb rendszer gyakorlatilag ugyanolyan vagy jobb pontossággal dolgozott szinte elenyésző adatmennyiség mellett. Érdemes kiemelni, hogy a jó minőségű (0,8 fölötti Kappa) címkézés elengedhetetlen: alacsonyabb szintnél nincs számottevő előnye a kurációnak a tömeg-címkézéshez képest.
Új korszak az MI-oktatásban
Összefoglalva: az MI-modellek tanításában nem feltétlenül az adat mennyisége a siker kulcsa, hanem az, hogy a lehető legértékesebb, leginformatívabb példák szerepelnek-e a tréning során, és hogy ezeket megbízható, egymással is egyetértő humán szakértők látták-e el hiteles címkével. A most bemutatott adatkuratórium nemcsak adatspórolásra kiváló, hanem lehetőséget is ad arra, hogy gyorsan változó problémákhoz, például reklámmoderációhoz, villámgyorsan lehessen újratanítani a modelleket. Az MI így valóban rugalmasabbá, alkalmazkodóbbá válik, és végre kitörhet az állandó adatéhség okozta csapdából.