
Megfizethető finomhangolás, mérnöki trükkök
Egy korszerű nagy nyelvi modell betanítása óriási költséggel jár: akár tíz-húszmilliárd forintot is felemészthet. A Nemotron-Cascade 2 viszont nem új modellként készült el. Az Nvidia már meglévő, kis méretű Nemotron-3-Nano modelljéből indultak ki, de a Cascade RL nevű, saját fejlesztésű utólagos tanítási lánccal minden benchmarkon felülmúlják az alapmodellt, sőt, sokszor még a kétszer-négyszer nagyobb testvéreket is megelőzik. Vagyis a siker kulcsa a jól megtervezett finomhangolási receptben rejlik, nem feltétlenül a nyers paraméterszámban. Ez minden vállalat számára vonzó lehetőség: nem kell a legnagyobb MI-t fejleszteni, ha van egy jobban vezérelt tanítási folyamat.
Cascade RL: megszelídített fejlesztés külön világokra
A jelenlegi nagy nyelvi modelleket többfeladatú tanulással szokás fejleszteni, de ilyenkor egy terület erősítése hajlamos lerontani a többi teljesítményét – ezt nevezik katasztrofális felejtésnek. A Cascade RL ezt azzal kerüli el, hogy szigorúan sorban, egyenként végzi el a megerősítéses tanulás (RL) lépéseit az egyes domainekre: először instrukciókövetés, aztán komplex tudományos, majd kódfeladatok, végül finomhangolás emberi preferenciákra és összetettebb programozási kihívásokra. Ekkor következik be a fordulat – a modell például a programozási tanulástól nem felejti el a matematikát, sőt, gyakran javul is benne. Minden domainen lehet igazítani a tanítás részletein, és a számítási kapacitás is hatékonyabban használható. Fontos, hogy a sorrend rugalmas: a fejlesztők a modell viselkedését figyelik, és ennek megfelelően döntenek a következő lépésről.
MOPD: a saját tudás tanít meg igazán
Hiába a körültekintő sorrend, az egyes RL-szakaszok között lehet kisebb teljesítményeltolódás, amikor a modell elveszít néhány, korábban elsajátított képességet. Ezt a problémát hidalja át a Multi-Domain On-Policy Distillation (MOPD), amellyel az egyes fázisok legjobb pillanatait „tanárként” használják fel – vagyis a saját legjobb korábbi mentéseik tanítják meg a végső diákmodellt. Így nem kell kívülről importálni drága tanár-MI-t, és elkerülhető a modellinkompatibilitás. Ráadásul a MOPD token-szinten dolgozik, nem egész mondatok szintjén, vagyis sokkal gyorsabban és kevesebb példával fejleszt, mint a hagyományos RL. E hatékonyság többek között azt eredményezte, hogy matematikai feladatokban 30 lépés alatt, míg emberi preferenciás kihívásokban 52 lépésben értek el mérföldkő szintű pontszámot, szemben az RLHF 160 lépésével.
Előnyök és árnyalatok: hol tarol, hol marad le
A Nemotron-Cascade 2 matematikában és programozásban a konkurens, többször nagyobb modellek orra alá tör borsot: a LiveCodeBench v6 kódolási platformon az eddigi rekorder Qwen3.5-35B-A3B-t és Qwen3.5-397B-A17B-t, valamint a Kimi-K2.5-1T-t is legyőzi (87,2 vs. 74,6/83,6/85,0). A matematikai HMMT 2025-ös versenyen is fej fej mellett teljesít a legnagyobb MI-kkel. Az ArenaHard megmérettetésen 83,5 pontot ér el, jelentősen előzve a kategóriáján belüli konkurenciát. Ha eszközintegrált következtetést is engedélyeznek, az AIME 2025-ön 98,6 pontig jut. Vagyis a modell a legnehezebb, logikai következtetést igénylő feladatokra optimalizált, nem pedig a lexikális, tudásalapú vagy összetettebb ügynökalapú párbeszédre. Ezeken a feladatokon, például az MMLU-Pro vagy a GPQA-Diamond teszteken, egy kicsit lemarad a legjobbak mögött.
Ezt vihetik magukkal a vállalati MI-csapatok
Az egész recept legnagyobb előnye, hogy vállalati környezetben komoly rugalmasságot ad: egy-egy új képesség hozzáadható anélkül, hogy nulláról kellene mindent újrakezdeni. A saját ellenőrzőpontokból származó tanárok révén nincs szükség költséges, külső referencia modellekre, minden az adott szervezet adataiból, saját tanítási futamaiból készíthető el. A Cascade RL szigorúan on-policy elven működik, külső regularizáció nélkül, és programozáshoz csupán 3500 „nehéz” feladaton is képes volt jelentősen felfejleszteni a modellt.
Intelligencia-sűrűség kevesebb paraméterrel
A fejlesztési trend most nem a paraméterszám további növelését, hanem az úgynevezett intelligencia-sűrűség maximalizálását célozza: mennyit tud egy adott aktív paraméter. Az Nvidia Cascade sorozata, a DeepSeek- és Qwen-modellek is ebbe az irányba tartanak. Nem mindegy, hogy egy 3 milliárd paraméteres modell költség- és válaszidőben mennyivel kedvezőbb, mint egy 70+-milliárd paraméteres óriás, miközben a célzott feladatokra már teljesen versenyképesek. Persze kérdés, hogy ez a módszer általánosabban is működik-e – például kevésbé ellenőrizhető vállalati problémákon –; ez még további kutatást kíván. De ahol a vállalati alkalmazások konkrét, jól mérhető logikai következtetést, üzleti modellezést, számítógépes vagy megfelelőségi elemzést várnak el, a most publikált recept az egyik legrészletesebb és legköltséghatékonyabb út a csúcs-MI-képességekhez.
