
Az LLM-ek fájdalmas drágasága
A vállalatok többsége hiába vágyik saját mesterséges intelligenciára, a jelenlegi LLM-ek betanítása elérhetetlenül drága és bonyolult. A klasszikus recept: végigpörgetni a teljes internetet, minden szövegre ránézni és rengeteg grafikus processzort zsongatni napokon át. Minden egyes újabb iteráció – legyen szó kísérletről vagy finomhangolásról – milliókba kerülhet, és elképesztő infrastruktúrát követel.
Ez nem csupán technikai, hanem üzleti korlát is egyben. A legtöbb próbálkozó hamar rájön: ha a modell hibázik, még nagyobbra kell nőnie, még több adatra és számításra van szükség, de a javulás már egyre kevésbé jelentős. Ráadásul a legtöbb, vállalati adattal dolgozó szervezet nem szeretné érzékeny vagy saját fejlesztésű információit az egész interneten tanított MI-re bízni. Nekik egy kisebb, személyre szabható, okos modell kell, amely képes a szabályok, számok és struktúrák között összefüggéseket keresni.
Egy újfajta mesterséges intelligencia-architektúra
A Sapient által bemutatott HRM (Hierarchical Recurrent Model) teljesen szakít a Transformer-architektúrák mindenhatóságával. Az új modellben a számítás két részre oszlik: egy lassabb, stratégiai (H-modulra) és egy gyors, végrehajtó komponensre (L-modulra). Ez megfelel annak, ahogy az emberek gondolkodnak: nagyobb lépésekben tervezzük, mit akarunk elérni, miközben a részletekben gyors, folyamatos kiigazítások történnek.
A HRM-Text nevű változatnál a fejlesztők kizárólag utasítás–válasz párokon tanították be az MI-t, elhagyva a nyers szöveges előrejelzést, tehát a brutális szövegmásolás helyett olyan tanulás zajlott, amely közel áll a tipikus vállalati környezethez: a felhasználó feladatot ad, az MI válaszol.
Trükkök és újdonságok, hogy tényleg működjön
A klasszikus visszacsatolt (recurrent) neurális hálók nagy léptékben könnyen instabillá válnak, különösen, ha a nyelv modellezése a cél. A Sapient két kulcsfontosságú újítást vezetett be: a MagicNorm nevű normalizációs eljárás megoldja az információs jelek elszállását vagy eltűnését, míg egy különleges „bemelegítő” tanítási technika kezdetben rövidebb gondolkodási hurkokat enged, majd fokozatosan növeli ezek mélységét és hosszát.
A HRM-Textnél a feladatvégzés vált a tanulási célkitűzéssé: az MI csak akkor „kapott jutalmat”, ha a teljes válasz helyes volt, nem pedig apró lépésekért. Az utasítás–válasz párokat eredeti szövegek, matematikai és logikai feladatok, tankönyvi példák, átírt tudáselemek képezték. Gondosan ügyeltek arra is, hogy kivegyék a „gondolkodásom” típusú lépéseket, ezzel is biztosítva a hierarchikus gondolkodás kialakulását.
Számok és eredmények: a kis modell nagyot szól
A Sapient által betanított HRM-Text mindössze 1 milliárd paraméterből áll, mégis meggyőzően szerepelt kulcsfontosságú ipari teszteken. A modellt 40 milliárd tokenen (szóelem) tanították, miközben versenytársai ennek a százszorosánál is többet dolgoznak fel. A teljes tanítás költsége 540 000 forint volt, 16 GPU-n futott 1,9 napig.
Az eredmény? A HRM-Text 60,7%-ot ért el az MMLU, 84,5%-ot a GSM8K és 56,2%-ot a MATH benchmarkokon – összemérhetően (sőt helyenként jobban is) teljesített a 2–7 milliárd paraméteres, széles körben használt nagy alapmodellekkel. Emellett az előzetes tudás memorizálása helyett a valódi érvelést, szabálykövetést, összefüggés-alkotást helyezi előtérbe, ami a vállalati igényekhez jobban igazodik.
Jellemző példa erre, hogy olyan teszteken, ahol kizárólag makulátlan, „szennyezésmentes” adatokat használtak, a modell továbbra is kiemelkedő pontszámokat szerzett.
Mit jelent ez a vállalatok számára?
A belső MI-re vágyó szervezetek most először reálisan vállalkozhatnak saját, titkosított, cégspecifikus modellre. A HRM-Text csak egy kiindulási alap: a gyakorlati implementáció során a cégek maguk választhatják meg, hogy pontosan mit akarjon tárolni az MI, milyen irányban fejlesszék tovább, illetve hogy a „modellezett és gondolkodó mag” döntési motorként szolgáljon, miközben a tényeket, tudásbázisokat, adatbázisokat külön, külső forrásból hívja elő.
Emellett a kritikus hangok szerint az utasítás–válasz tréning eltér az eddigi módszerektől, nem lehet összevetni a hagyományos, nyers szöveggel tanított MI-kkel. Azonban a gyakorlat gyakran ezt kívánja: a felhasználók utasításokat adnak, amelyekre az MI-nek pontos, tartalmas választ kell adnia.
Ha a tanítás ára 540 000 forintra zuhan, a vállalati MI már nemcsak infrastruktúra-kérdés, hanem stratégiai lehetőség lesz: a cégek végre saját, célzott MI-t építhetnek anélkül, hogy függnének a külső gigászoktól, és anélkül, hogy minden adatukat kiadnák másnak.
