Az új ASR-modell kiváltja a méregdrága feliratozó API-kat

A cégek, amelyek hangvezérelt munkafolyamatokat akarnak létrehozni, eddig két rossz közül választhattak: vagy megbízható, de zárt és adatvédelmi szempontból kockázatos API-kat, vagy nyílt, de – a telepítés rugalmasságáért cserébe – pontatlanabb modelleket. Esetünkben ez azt jelenti, hogy megjelenik egy harmadik út: a Cohere által fejlesztett Transcribe nevű automatikus beszédfelismerő (ASR-)modell, amely minden kulcsterületen versenyképes, legyen szó szöveghűségről, gyorsaságról, felhasználói kontrollról vagy költségekről.

Új szint a pontosságban

A Transcribe 2 milliárd paraméterrel dolgozik, Apache-2.0-licenc alatt fut, és 14 nyelvet támogat – többek között angolt, franciát, németet, olaszt, spanyolt, görögöt, hollandot, lengyelt, portugált, kínait, japánt, koreait, vietnámit és arabot –, bár a kínai változat esetében nem árultak el részleteket a dialektusról. Az átlagos hibaarány mindössze 5,42%, vagyis kevesebb félrehallásra lehet számítani, mint a riválisoknál. Ez az érték felveszi a versenyt a jelenlegi vezető modellekkel, például a ChatGPT-ben dolgozó Whisper Large v3-mal (7,44%), az ElevenLabs Scribe v2-vel (5,83%) vagy a Qwen3-ASR-1.7B-vel (5,76%).

Végre saját GPU-n is futtatható

Eddig az volt a megszokott, hogy a mesterséges intelligenciás feliratozást csak külső szolgáltatókon keresztül lehetett igénybe venni, ami óhatatlanul adatvédelmi aggályokat vetett fel. Most azonban a Transcribe már saját helyi infrastruktúrán és GPU-kon is fut, így az érzékeny hangadatok teljes mértékben házon belül maradhatnak. Az új modell jóval kevesebb erőforrást igényel, és a vállalatok már közvetlenül automatizált folyamatokba, keresőrendszerekbe is beépíthetik.

Kiemelkedő eredmények a teszteken

A Hugging Face vizsgálataiban, például az AMI adathalmazán (értekezletek, párbeszédek) a Transcribe 8,15%-os eredményt ért el, míg a VoxPopuli akcentustesztjén 5,87%-os pontosságot produkált, amelyet csak a Zoom Scribe múlt felül. A legnagyobb előny, hogy a vállalatok számára így végleg leáldozhat a külső API-król való függés ideje, és a teljes beszédfeldolgozás immár helyben, gyorsan, saját eszközön is megvalósítható.

2026, adrienne, venturebeat.com alapján