
Új szint a pontosságban
A Transcribe 2 milliárd paraméterrel dolgozik, Apache-2.0-licenc alatt fut, és 14 nyelvet támogat – többek között angolt, franciát, németet, olaszt, spanyolt, görögöt, hollandot, lengyelt, portugált, kínait, japánt, koreait, vietnámit és arabot –, bár a kínai változat esetében nem árultak el részleteket a dialektusról. Az átlagos hibaarány mindössze 5,42%, vagyis kevesebb félrehallásra lehet számítani, mint a riválisoknál. Ez az érték felveszi a versenyt a jelenlegi vezető modellekkel, például a ChatGPT-ben dolgozó Whisper Large v3-mal (7,44%), az ElevenLabs Scribe v2-vel (5,83%) vagy a Qwen3-ASR-1.7B-vel (5,76%).
Végre saját GPU-n is futtatható
Eddig az volt a megszokott, hogy a mesterséges intelligenciás feliratozást csak külső szolgáltatókon keresztül lehetett igénybe venni, ami óhatatlanul adatvédelmi aggályokat vetett fel. Most azonban a Transcribe már saját helyi infrastruktúrán és GPU-kon is fut, így az érzékeny hangadatok teljes mértékben házon belül maradhatnak. Az új modell jóval kevesebb erőforrást igényel, és a vállalatok már közvetlenül automatizált folyamatokba, keresőrendszerekbe is beépíthetik.
Kiemelkedő eredmények a teszteken
A Hugging Face vizsgálataiban, például az AMI adathalmazán (értekezletek, párbeszédek) a Transcribe 8,15%-os eredményt ért el, míg a VoxPopuli akcentustesztjén 5,87%-os pontosságot produkált, amelyet csak a Zoom Scribe múlt felül. A legnagyobb előny, hogy a vállalatok számára így végleg leáldozhat a külső API-król való függés ideje, és a teljes beszédfeldolgozás immár helyben, gyorsan, saját eszközön is megvalósítható.
