Az MI mostantól nem falja fel az adatokat

Az MI mostantól nem falja fel az adatokat
A nagy nyelvi modellek (LLM) finomhangolása igazi adatzabáló folyamat – különösen, ha bonyolult, komoly szakértelmet igénylő feladatokra, például szabályszegő reklámok kiszűrésére szeretnénk őket betanítani. Az ilyen projektek nemcsak iszonyúan drágává teszik a fejlesztést, hanem rugalmatlanná is: ha új szabályok vagy veszélyes tartalomtípusok jelennek meg, szinte elölről kell kezdeni az egész tanítást, újabb tonnányi adathalmazzal. Az adatgyűjtés, a címkézés és a minőségbiztosítás mind pénz- és időigényes folyamat. Érdemes kiemelni, hogy még így is gyakran előfordul, hogy a finomhangolt modellek elmaradnak a humán szakértők szintjétől. Most azonban egy új, aktív tanulási alapú MI-adatkuratóriummal sikerült húszezerszeresére csökkenteni az adatigényt anélkül, hogy a minőség romlott volna – sőt, számos esetben még javult is.

Adatkuratórium: kevesebb, de értékesebb tanító példák

Az új eljárás lényege, hogy képes hatalmas adathalmazokból néhány lépésben kiválasztani azokat a példákat, amelyek a legértékesebbek lennének, ha szakértő látná el őket pontos címkével. Indulásként a kutatók egy nulladik modellt (LLM-0) alkalmaznak, amely néhány példán keresztül tanul, majd ezek alapján címkézi az összes reklámot, például eldöntve, melyik clickbait, melyik ártalmatlan. Mivel az online forgalomnak jellemzően kevesebb mint 1%-a clickbait, így az így kapott halmaz nagyon egyoldalú – ráadásul a kezdetleges MI-modell is gyakran hibázik.

A továbbfejlesztéshez a clickbaitnek és ártalmatlannak címkézett példákat külön csoportosítják, majd az átfedéseknél keresik azokat az eseteket, ahol az MI-minták egymáshoz legközelebb esnek, de eltérő címkét kaptak. Ezek a kétértelmű, nehezen eldönthető esetek kerülnek humán szakértők elé, akik eldöntik, melyik a helyes megítélés. Ha korlátozottak az emberi erőforrások, akkor a folyamat azokat az ellentétes címkéjű mintapárokat részesíti előnyben, amelyek a legnagyobb “területet” fedik le a döntési határon.

Az így kurált, szakértő által címkézett halmaz egyszerre informatív (hiszen a legbizonytalanabb, legalaposabb vizsgálatot igénylő példákat tartalmazza) és sokszínű (sokféle helyzetet lefed a határterületen mozgó minták révén).

Mit jelent a minőség? Nincs abszolút igazság!

Noha sok iparágban a pontosság vagy a visszahívás (precision, recall) a siker mércéje, tartalommoderáció és csalásfelderítés esetén az “igazi” címkézés gyakran szubjektív, és a szakértők között is vita tárgya lehet. Erre a célra különösen népszerű a Cohen-féle Kappa mutató: azt méri, mennyire egyezik két, egymástól független szakértő címkézése – a véletlenszerű egyezéshez képest. A skála 0-tól (nincs egyezés) 1-ig (tökéletes egyezés) tart – 0,8 fölött már kiemelkedőnek számít, de a 0,4 is elfogadható határérték.

Kísérletek: pici, de ütős adatcsomagok

A tesztekhez két különböző méretű LLM-et (Nano-1: 1,8 milliárd paraméter; Nano-2: 3,25 milliárd paraméter) tanítottak különböző nehézségű feladatokra, amelyekhez eleve 100 ezer példányos, tömegforrásból szerzett, címkézett adatot használtak. Ezek döntő többsége (kb. 95%) ártalmatlan címkét kapott. A kontroll-sorozatokat összevetették a kurációs eljárással kiválasztott mintákkal: itt ugyanez történt, csak a példákat szakértői páros címkézte, és minden iterációnál újratanultak, amíg a modell teljesítménye már nem közelített jobban a szakértői egyezéshez.

Az alacsonyabb komplexitású feladathoz hat, a bonyolultabbhoz öt iteráció kellett. Ez csupán 400–450, illetve 250–150 darab címkézett mintát jelentett, jelentős, kb. 40%-os pozitív címkéjű aránnyal. Szemben a 100 ezer adatból álló alapbázissal, ez három nagyságrenddel kisebb adatfelhasználást jelent.

A szakértői kurációval az MI és a humán szakértők közötti Cohen-féle Kappa mutató 0,56–0,38-ra ugrott (Nano-2 esetén), ami 55–65%-kal jobb, mint a tömegforrásos tanítás (0,36–0,23). A kisebb modellnél (Nano-1) a javulás nem volt ilyen látványos, de a nagyobb rendszer gyakorlatilag ugyanolyan vagy jobb pontossággal dolgozott szinte elenyésző adatmennyiség mellett. Érdemes kiemelni, hogy a jó minőségű (0,8 fölötti Kappa) címkézés elengedhetetlen: alacsonyabb szintnél nincs számottevő előnye a kurációnak a tömeg-címkézéshez képest.


Új korszak az MI-oktatásban

Összefoglalva: az MI-modellek tanításában nem feltétlenül az adat mennyisége a siker kulcsa, hanem az, hogy a lehető legértékesebb, leginformatívabb példák szerepelnek-e a tréning során, és hogy ezeket megbízható, egymással is egyetértő humán szakértők látták-e el hiteles címkével. A most bemutatott adatkuratórium nemcsak adatspórolásra kiváló, hanem lehetőséget is ad arra, hogy gyorsan változó problémákhoz, például reklámmoderációhoz, villámgyorsan lehessen újratanítani a modelleket. Az MI így valóban rugalmasabbá, alkalmazkodóbbá válik, és végre kitörhet az állandó adatéhség okozta csapdából.

2025, adminboss, research.google alapján

  • Te mit gondolsz, etikailag rendben van, ha csak kevesebb, de jobban válogatott adatot használunk egy MI tanításához?
  • Te mit tennél, ha a szakértők sem tudnak teljesen megegyezni a címkézésben?



Legfrissebb posztok

Veszélyben az Amazonas, esőerdő helyett szavanna jöhet

MA 23:51

Veszélyben az Amazonas, esőerdő helyett szavanna jöhet

Az Amazonas esőerdő ijesztően közel került ahhoz a fordulóponthoz, amely akár száz éven belül katasztrofális változásokat hozhat, és a buja esőerdőt száraz szavannává alakíthatja át. Fontos hangsúlyozni, hogy...


MA 23:25

Az ál-hús vége: a Beyond Meat zuhanórepülése Amerikában

Az Egyesült Államokban meredeken csökken a növényi alapú húspótlók népszerűsége: idén a hűtött ilyen termékek eladásai már 17,2 százalékkal, a fagyasztott változatoké pedig 8,1 százalékkal estek vissza. Ennek...

Mesterséges intelligencia hangklónokkal vernek át, új trükk a telefonos csalóknál

MA 23:02

Mesterséges intelligencia hangklónokkal vernek át, új trükk a telefonos csalóknál

Az elmúlt években egyre gyakoribbá váltak azok a telefonhívások, amelyek során valakinek a hangját klónozva próbálnak csalók pénzt vagy bizalmas adatokat kicsalni. Az ilyen hívásokban gyakran a megszólalásig...

Az új agy-gép startup, ami Musknak is odaszúr

MA 22:51

Az új agy-gép startup, ami Musknak is odaszúr

Sam Altman, az OpenAI vezérigazgatója egy új agy–számítógép interfész-startup, a Merge Labs alapításán dolgozik, és ehhez jelentős befektetést is szerezhet, főként az OpenAI kockázati tőkealapján keresztül. A Merge...

Az elveszett rendelések visszatérnek: újra működik az M&S átvétel

MA 22:26

Az elveszett rendelések visszatérnek: újra működik az M&S átvétel

📦 Négy hónapos leállás után ismét elérhető a Marks & Spencer (M&S) üzleteiben a Click & Collect (Áruházi átvétel) szolgáltatás, miután a céget áprilisban komoly kibertámadás érte. Bár a...

Az új mentőöv: Windows 365 a katasztrófák ellen

MA 22:01

Az új mentőöv: Windows 365 a katasztrófák ellen

A Microsoft most bemutatta a Windows 365 Reserve nevű megoldását, amellyel a cégek átmeneti, előre konfigurált felhőalapú PC-hez juttathatják azokat a dolgozókat, akik valamilyen váratlan esemény – például...

Vénusz és Jupiter együtt ragyog hajnalban, látványos égi jelenség az évben

MA 21:52

Vénusz és Jupiter együtt ragyog hajnalban, látványos égi jelenség az évben

🌌 Augusztus 12-én hajnalban rendkívüli égi eseménynek lehetünk tanúi: a Vénusz és a Jupiter, az égbolt két legfényesebb bolygója szoros együttállásban találkozik. Akik vállalkoznak arra, hogy hajnalban felkelnek vagy...


MA 21:02

Itt az iOS 26, ezekkel az iPhone-okkal működik

Az ősz hagyományosan az Apple újdonságainak időszaka, és idén sem lesz ez másként. Az iOS 26, valamint az iPadOS 26 idén jelentősen átalakítja mind az iPhone, mind az...

Zuckerberg titokban fejleszti a mesterséges intelligenciát

MA 20:51

Zuckerberg titokban fejleszti a mesterséges intelligenciát

A Meta vezetője, Mark Zuckerberg szerint a mesterséges intelligencia, amely képes önmagát fejleszteni, olyan technológiai korszakot hozhat el, amely alapjaiban alakítja át az emberiséget. A vállalat kutatói azt...