
Lépés a szokványostól: új arc az MI-piacon
Ha valaki unja az Nvidia vagy AMD mindent uraló megoldásait, a Tenstorrent név már elsőre is alternatívának tűnik. A kanadai chipgyártó három generációnyi RISC-V alapú gyorsítóval kívánja megreformálni az MI-infrastruktúrát, és már kész vasat is kínálnak azoknak, akik valódi fejlesztői platformra vágynak. A cél: felvenni a versenyt úgy, hogy egyetlen kártyától akár 32 gyorsítón át, sőt, szerverparkig skálázható rendszert adnak, mérsékelt költségen.
A legújabb csúcstermék, a QuietBox, mintegy 4,3 millió forintért kínál folyadékhűtéses, 36 kg-os gépet, benne négy Blackhole P150 gyorsítóval, és mindennel, amit egy fejlesztőnek tudnia kell a Tenstorrent architektúráról. A gép hardveresen egy kisebb verziója a jövő évre ígért, sokkal nagyobb Blackhole Galaxy szervereknek.
Formaterv és hűtés: nem lehet eltéveszteni
A QuietBox feltűnő, kék csíkos házban érkezik, amely formai és hűtési szempontból is különleges. A ház hűtését alul és felül egy-egy 400 mm-es radiátor biztosítja: alul beszívja a hideg levegőt, felül kifújja a meleget. Mindezt négy nagy Noctua ventilátor végez bámulatosan csendesen ahhoz képest, hogy 1200 wattnyi gyorsító, valamint a CPU, a memória és a tárhely melegét kell elvezetniük. A csendes működés persze nem jelenti azt, hogy hangtalan – leginkább egy asztali hősugárzó finom zúgására emlékeztet.
Belül egy ASRock Rack EPYC szerverlap végzi az irányítást, rajta az AMD EPYC Siena 8124P processzorral (16 mag, 32 szál, max. 3 GHz), nyolc darab 64 GB DDR5 RAM-mal (összesen 512 GB) és 4 TB NVMe SSD-vel. A négy Blackhole P150 gyorsító elképesztő, összesen 3 petaFLOPS FP8 műveleti teljesítményt produkál.
A Blackhole gyorsítók és bővíthetőség
A P150 gyorsító mindegyike 140 Tensix magot, 16 nagyobb RISC-V magot, 32 GB GDDR6 memóriát (512 GB/s sávszélességgel), 210 MB SRAM-ot és 774 TFLOPS FP8/387 TFLOPS Block FP8 számítási kapacitást kínál – mindezt darabonként 300 wattos fogyasztás mellett. A négy gyorsító 800 Gbps sávszélességű QSFP-DD portokon keresztül kapcsolódik egymáshoz, amivel a gép belső hálózata bőven felveszi a versenyt bármely csúcs-GPU-rendszerével.
Az architektúra nagy előnye, hogy modulárisan skálázható: akár két QuietBox is összekapcsolható, vagy a jövőben még nagyobb, 32 gyorsítós Blackhole Galaxy szerverek is építhetők belőle. Az ilyen felépítés lehetővé teszi, hogy egy helyben tesztelt vagy fejlesztett kód gyakorlatilag minden további módosítás nélkül felskálázható legyen nagyobb klaszterekre.
Fontos megjegyezni, hogy egy-egy ilyen QSFP-DD kábel ára 70 ezer forint körül mozog, tehát a bővíthetőség ára is borsos, viszont technikailag akár több QuietBox vagy Galaxy rendszer összefűzése is megoldható, elvben végtelen skálázhatóságot eredményez.
Első lépések és szoftveres kihívások
A QuietBox üzembe helyezése egy fejlesztőnek sem rutinfeladat: a géphez nincs dedikált grafikus kártya, így vagy egy VGA–HDMI-átalakítón keresztül, vagy hálózaton (IPMI) keresztül kell elérni a rendszer felületét. A négy P150 gyorsítót a mellékelt összekötési ábra alapján kell csatlakoztatni, és a rendszer első indítása akár 10 percnél is tovább tarthat — ezt az EPYC platform memóriakezelése indokolja. Az Ubuntu 22.04 LTS rendszer előtelepítve érkezik.
A cég saját telepítőszkriptje automatizálja a szükséges driver-, firmware- és hálózati beállításokat, de tapasztalataink szerint ez még messze nem bombabiztos. Hibák, hiányos vagy hibás mezők, félkész szoftverletöltések előfordulhatnak — ez most a korai szoftverkorszak része.
Modellek, tesztüzem, demók
Fontos megjegyezni, hogy a Blackhole nem GPU, így a megszokott módon, például Llama.cpp-vel nem lehet rögtön modellt futtatni. A dokumentáció azonban segít a TT-Inference-Server telepítésében, amellyel LLM-eket is lehet kérdezni. Egy tipikus modellbetöltési folyamat kb. 45 percig tart (ennek nagy részét a 140 GB-os modellek letöltése és átalakítása viszi el).
A rendszer végül OpenAI-kompatibilis API-t ad, amelyre például egy Open WebUI felületet lehet illeszteni. Más teszt- és demóalkalmazások is elérhetők, például ResNet50, BERT, Stable Diffusion 1.4 vagy a Boltz 2 biomolekuláris modell futtatható, konténerizált környezetben.
Az összes ilyen próbálkozáshoz azonban erős Google-ös, GitHub-os keresési és hibakeresési készség kell, és az sem ritka, hogy egyes demókhoz (főként dokumentáció híján) külön „vadászatot” kell indítani.
Szoftverfilozófia: nyílt forrás, sok szinttel
A chipgyártásban és gyorsítóknál ma már az számít, mennyire könnyű programozni a hardvert. A Tenstorrent ezért teljesen nyílt forrású szoftververemre esküszik: alacsony szintű API-t kínál (TT-LLK) a „vasra” programozóknak, és magasabb szintű fordítókat a PyTorch, JAX vagy ONNX modelleket futtatóknak.
A következmények beláthatatlanok lehetnek, hiszen ha a cég időben és elég nagy közösségi támogatással erősíti meg a szoftverkínálatát, valóban alternatíva lehet a mainstream GPU-k mellett.
Jelenleg azonban még csak fejlesztőknek, haladó felhasználóknak ajánlható a QuietBox — azoknak, akik szeretnek új architektúrákban gondolkodni, és nem riadnak vissza a szoftverrel való küzdelemtől.
Összegzés
A Tenstorrent QuietBox igazi mérnöki csemege, amely hardverben és bővíthetőségben szinte mindent tud, amit a nagyok, ráadásul RISC-V alapokon. Szoftver, támogatás és könnyű használhatóság terén viszont bőven van még hova fejlődni. Most még inkább egy lelkes fejlesztői platform, de ha a szoftveroldal is felnő a hardverhez, komoly szereplővé válhat az MI-gyorsítók piacán.
