
Brutális méret, utcahosszal hatékonyabb működés
A Trinity Large nevű modell az eddigi legerősebb, nyílt forrású nyelvi MI, amit az Egyesült Államokban közzétettek. Az úgynevezett „mixture-of-experts” (MoE), azaz szakértői keverék architektúrán alapul: a 400 milliárdból egyszerre mindössze 13 milliárd, vagyis a paraméterek csupán 1,56 százaléka dolgozik egy adott feladaton. Ennek köszönhetően egyszerre kelt egy óriási agy benyomását, miközben sebességben és energiahatékonyságban simán lepipálja versenytársait – egyes mérések szerint akár 23-szor gyorsabb a riválisainál azonos hardveren. A helyzet drámai, hiszen a Trinity Large érkezése válasz az utóbbi időszakban piacra árasztott, konkurens kínai nyílt modellekre, amelyek eddig felülmúlták az amerikai fejlesztéseket.
A “TrueBase” nyers verzió: páratlan betekintés az MI agyába
Az Arcee az egyedi Trinity-Large-TrueBase, azaz a tiszta, 10 billió tokenen tanult nyers ellenőrzőpontot (checkpoint) is elérhetővé tette. Ez a modell úgy ad ízelítőt a nyers MI-intelligenciából, hogy semmilyen utólagos hangolást, utasítás-tanulást vagy erősítéses tanulást nem végeztek vele. Ilyen átlátható, valóban „feketedobozmentes” alapmodell szinte nincs a piacon: még a nagy techcégek modelljei is többnyire erősen utólag formáltak és finomhangoltak, így nehezebben derül ki, mi is rejlik a felszín alatt. A TrueBase teljesen új lehetőségeket teremt kutatók és szabályozott szektorok – főleg pénzügy, hadipar – számára auditálásra és testreszabásra egyaránt. Ezáltal végre elkezdhetők az elvi torzításoktól mentes, személyre szabott fejlesztések ezen a területen.
Méret, technológia, költséghatékonyság
A Trinity Large fejlesztése példamutatóan gazdaságos volt: kevesebb mint 7,2 milliárd forintból (nagyjából 20 millió dollárból) mindössze 33 nap alatt készültek el vele – pedig a fejlesztőcsapat teljes költségvetése meg sem haladta a 18 milliárd forintot, azaz 50 millió dollárt. Mindez azt mutatja, hogyan lehet kreatívan innoválni komoly anyagi korlátok között is. Az architektúra is forradalmi: minden token feldolgozásához 256 szakértő közül csak négyet aktivál, így extrém nagy a ritkított jelleg, ami súlyos stabilitási kihívásokat okozott a betanítás során. Ezt a problémát a Soft-clamped Momentum Expert Bias Updates (SMEBU) nevű eljárással sikerült orvosolni, amely igazságosan osztja el a tanulást a különböző alrendszerek között.
Gyorsítás, hosszú kontextus, új generációs hardver
Az Arcee a Trinity Large-ot már az Nvidia legújabb Blackwell (B300) GPU-ival futtatta, amelyek kétszer gyorsabbak, és jóval nagyobb memóriát nyújtanak, mint a korábbi Hopper generáció. Ez tette lehetővé, hogy a teljes alaptanítás 33 nap alatt lezáruljon. Az adathalmaz legalább 8 billió tokennyi szintetikus adatot tartalmazott, de nem tipikus „utánzásra tanító” műadatokat generáltak, hanem a nyers adattartalmat, például blogokat vagy Wikipedia-cikkeket írtak át tömörebbre, hogy a modell inkább ok-okozati logikát tanuljon szó szerinti visszamondás helyett. Az architektúra 3:1 arányú, helyi és globális, csúszóablakos figyelmet alkalmaz, ami nagyon előnyös hosszú szövegek esetén: a 256 000 tokenes sorozathosszon túl akár 1 millió tokenen is stabil teljesítményt nyújt.
Amerikai alternatíva a domináns kínai modellek ellen
A Trinity Large igazi áttörést jelent az amerikai MI-fejlesztéseknek. Míg a Meta fokozatosan kiszállt az élvonalbeli, nyílt MI-modellek nyílt fejlesztéséből, jelenleg csak az OpenAI és az Arcee számít jelentősebb szereplőnek a teljesen önállóan, az alapoktól tanított, nyílt forrású modellek terén. Az iparági nyomás miatt az amerikai nagyvállalatok egyre kevésbé bíznak a kínai MI-kben, különösen pénzügyi és védelmi területen. Ennek következtében az Arcee menedzsmentje új stratégiát választott: az Apache 2.0 licenc tette lehetővé, hogy bármely amerikai szervezet teljesen saját jogon futtathassa, alakíthassa, tulajdonolhassa mesterségesintelligencia-modelljét, anélkül, hogy bármelyik kínai vagy harmadik félre kellene támaszkodnia.
Intelligencia vagy használhatóság? – A jövő útja
Az Arcee most azon dolgozik, hogy a Trinity Large-ot a jelenlegi alap vagy „instruct” típusú modellből valódi érvelő MI-vé fejlessze tovább, amely a teszteken kiemelkedő, ugyanakkor a való életben is hasznos és „nem akar mindenáron beszélgetni”. A cél: visszahozni az amerikai szuverén, nyílt forráskódú MI régi értékeit, ahol nemcsak a „díszcsomagolás” számít, hanem valós, kontrollálható infrastruktúrát kap a fejlesztői közösség.
