
Rekordpontosság 25 nyelven – a hangátírás új korszaka
A MAI-1 Voice-to-Text a piac egyik legpontosabb beszédfelismerő rendszereként debütált. A modell átlagosan 3,8%-os hibaarányt produkál a legtöbbet használt 25 nyelven, felülmúlva az OpenAI, a Google és az ElevenLabs megoldásait – az utóbbit minden nyelven, a Google-t 25-ből 22 esetben. A rendszer modern, kétirányú hangkódoló architektúrát használ, és villámgyors: egy 200 MB-os mp3-, wav- vagy flac-fájl feldolgozása az Azure Fast kínálat sebességének 2,5-szeresével történik. A következő hónapokban érkezik hozzá beszélőazonosítás és valós idejű feldolgozás is. Ráadásul a Microsoft már saját szolgáltatásai, például a Teamsben és a Copilotban, beépített funkcióként is teszteli, így rövidesen teljesen leválthatja a külső vagy elavult belső modelleket.
Természetes hangok, saját szövegből, villámgyorsan
A MAI-1 Voice egy szövegfelolvasó megoldás, amely képes 60 másodpercnyi élethű, természetes emberi beszédet generálni egyetlen másodperc alatt. A modell felismeri és megőrzi a beszélő hangszínét és karakterét hosszabb szövegeknél is, sőt mostantól már néhány másodpercnyi mintából saját, személyes hangprofilt készíthetünk a Microsoft Foundry felületén. Az ár 1 millió karakterre vetítve 8 100 forint. A MAI-Image-2 a Microsoft képalkotó rendszere, amely mostantól kétszer gyorsabban dolgozik, mint elődje, elérhető a Foundryban és a Copilot funkcióban, itt 1 millió tokennyi szövegbemenet 1 850 forint, 1 millió token képkimenet pedig 12 200 forint.
A szerződések harca: A Microsoft végre önálló lehet
A Microsoft MI-fejlesztési rohamának hátterében egy jelentős szerződésmódosítás áll. Korábban, tavaly októberig szerződés tiltotta, hogy a cég az OpenAI-tól függetlenül fejlesszen mesterséges általános intelligenciát (AGI). Az eredeti, 2019-es megállapodás szerint a Microsoft építette fel az OpenAI adatközpontjait, ezért cserébe azonban lemondott az önálló fejlesztés jogáról. Amikor az OpenAI ki akarta terjeszteni infrastruktúráját más szolgáltatókhoz (például a SoftBankhoz), elérkezett a stratégiai váltás: most először fejleszthet a Microsoft önálló „frontier”, azaz élvonalbeli modelleket – miközben az OpenAI termékeihez is megtartja a licencet 2032-ig. Ráadásul a vállalat továbbra is szoros partnerséget ápol mind az OpenAI-val, mind az Anthropiccal, így sajátos hidat képez a nagy MI-laborok között.
Kis csapat, óriási teljesítmény: A Microsoft áttörési stratégiája
Érdekes részlet, hogy mindhárom új modell csupán tízfős csapatok munkájával született. Mustafa Suleyman, a Microsoft szuperintelligencia-részlegének vezetője hangsúlyozta, hogy a valós áttörést nem a létszám, hanem az adatkészlet minősége és a modellarchitektúra adja – így a gyorsaság, hatékonyság és pontosság páratlan. Ennek ellenére, a Google vagy az OpenAI óriási csapataival ellentétben, a Microsoft hatékonyabb működésével jelentős költségelőnyre tesz szert: ha mindezt kevesebb mérnökkel és kisebb GPU-felhasználással éri el, az anyavállalat MI-üzletágának megtérülése ugrásszerűen javul.
Emberközpontú MI, transzparens adatkészlet
Suleyman filozófiája az MI-fejlesztésben az emberközpontúság. Cél, hogy az MI ténylegesen az emberiség szolgálatában álljon, az ember maradjon felül, és az irányítás soha ne kerüljön ki a kezéből. Ráadásul a „tiszta” adatkészlet kiemelten fontos: a Microsoft szerint a legtöbb versenytárssal szemben kizárólag jogtiszta, átlátható forrásokra támaszkodnak, ami csökkenti a jogi és reputációs kockázatot. Ez nagy vonzerő azokra a vállalatokra vagy üzemekre, ahol MI-törvények és compliance-követelmények bonyolítják a bevezetést.
Árharc, versenytársak célkeresztben: Amazon, Google, startupok
A hangátírás, beszédszintetizálás és képalkotás hármas modelljeivel a Microsoft egyszerre támadja a szinte minden piaci területet uraló Google-t, az OpenAI-t és az ígéretes MI-startupokat. Az új árpolitika leszorítja a költségeket: a felhasználók és a fejlesztők olcsóbban juthatnak prémium minőséghez, miközben a Microsoft óriási ügyfélbázisa toronymagas versenyelőnyt jelent. Ráadásul az új modellek az eddigi fejlesztés költségeinek töredékéért futnak, így a vállalat potenciálisan sokkal nyereségesebbé válhat az MI-szektorban.
A következő nagy dobás: független, saját nyelvi modell
A jelenlegi trió – hang, beszéd, kép – csak a kezdet. Suleyman szerint rövid időn belül készül a következő generációs, önálló, GPT-szintű nagy nyelvi modell, amely új korszakot nyithat. A cél: a szuperintelligencia területén is teljes önállóság, a versenytársak utolérése vagy megelőzése, minden eddiginél nagyobb skálán, minden lehetséges hatékonysággal. A nagy kérdés: vajon a türelmetlen befektetők és a piac hajlandók-e kivárni, hogy a Microsoft szuperintelligencia-csapata valóban végig tudja-e vinni ezt a forradalmat?
