
Perceptron Mk1: Alternatíva a gigászok árnyékában
Az amerikai Perceptron Inc. újítása, a Perceptron Mk1 modell, alapjaiban rengeti meg a piacot. Az MI videóelemzője mindössze 22 Ft (0,15 USD) egymillió bemeneti tokenenként és 220 Ft (1,50 USD) egymillió kimeneti tokenenként dolgozik, ami 80–90%-kal olcsóbb, mint a hasonló képességű MI-platformok, például az Anthropic-féle Claude Sonnet 4.5, az OpenAI GPT-5 vagy a Google Gemini 3.1 Pro. A cég vezérigazgatója, Armen Aghajanyan korábban a Meta FAIR-nél és a Microsoftnál dolgozott, és csapatával 16 hónapon át egy teljesen új, multimodális algoritmus fejlesztésén munkálkodott, hogy az MI a valódi, fizikai világban is releváns tudással rendelkezzen.
Tarol a legkeményebb teszteken
Különösen fontos kiemelni, hogy a Perceptron Mk1 eredményei meghaladják a nagy nevek eredményeit is a szektorban. Térbeli logikai feladatokban (ER Benchmarks) 85,1 pontot ért el az EmbSpatialBench teszten, maga mögé utasítva a Google Robotics-ER 1.5 (78,4) és az Alibaba Q3.5-27B (kb. 84,5) modelleket is. A különösen nehéz RefSpatialBench teszten 72,4 ponttal messze felülmúlta az OpenAI GPT-5m (9,0) és a Sonnet 4.5 (2,2) eredményeit.
Videóalapú kihívásokban is kimagasló: az EgoSchema Hard Subset esetében – ahol nem elég pusztán az első és az utolsó képkockát vizsgálni – 41,4 pontot szerzett, míg a Google Gemini 3.1 Flash-Lite csak 25,0 pontot ért el. A VSI-Bench teszten 88,5 pontjával minden vetélytársat lekörözött.
Hatékonyság új szintje és piacformáló árazás
A Perceptron célzottan az úgynevezett „Efficiency Frontier”-re lőtt, vagyis a teljesítmény és költséghatékonyság egyensúlyára. Míg a GPT-5 átlagos ára közel 290 Ft (2 USD) egymillió tokenenként, a Gemini 3.1 Pro pedig hozzávetőleg 440 Ft (3 USD) egymillió tokenenként, addig az Mk1 blended (átlagolt) költsége mindössze 44 Ft (0,30 USD) ugyanerre az adatmennyiségre, miközben a logikai teszteken jobb eredményeket produkál.
A megközelítés lényege, hogy a fizikai világ MI-alapú értelmezése ne csak elit laborok és kutatások számára legyen elérhető, hanem nagyipari, kereskedelmi szereplők is beépíthessék mindennapi folyamataikba.
Egyedi felépítés és valós időben értelmezett videófolyam
A Perceptron Mk1 egyszerre képes natív videofelvételeket 2 képkocka/másodperc sebességgel, akár 32 ezer tokenes ablakban értelmezni. Több szempontból is eltér a hagyományos kép- és szövegalapú MI-ktől: nem egy-egy képkockát elemez önálló képként, hanem folyamatos, összefüggő cselekményként látja a videót, és képes felismerni a tárgyakat akkor is, ha azok időlegesen kitakarásba kerülnek.
A fejlesztők tetszőleges pillanatokra kérdezhetnek rá, amelyekre a rendszer strukturált időbélyegekkel válaszol, jelentősen egyszerűsítve például a fontos események automatikus kivágását vagy pontos beazonosítását.
Fizika az MI-ben – valódi térbeli-logikai tudás
A Perceptron Mk1 döntő előnye az úgynevezett fizikai logika és térbeli tudás. Képes valós időben következtetni tárgyak dinamikájára, interakcióira, sőt akár leolvasni analóg órákat vagy mérőműszereket, amelyek eddig kihívást jelentettek a digitális rendszereknek. Például egy kosármeccsen pontosan meg tudja mondani, hogy a kosárdobás a sípszó előtt vagy után történt – ez a labda pályájának és a kijelző állásának egyidejű értelmezését igényli.
Felhasználói tapasztalatok is ezt igazolják: a rendszer akár több száz objektumot is összeszámol zsúfolt jelenetekben, bonyolult, régi felvételeken is gyorsan és pontosan felismeri a részleteket, az időpontokat is helyesen azonosítja.
Fejlesztői platform és nyílt modelllicenc – mindkét világ legjava
A modell megjelenése mellett a Perceptron kibővített fejlesztői platformot is kínál: a Python-alapú SDK révén már kevés kóddal is hasznosítható a gépi érzékelés. Olyan speciális funkciókat ad, mint a Fókusz (adott területek automatikus kijelölése), a Számlálás (tömeges felismerés és megszámlálás például gyümölcsnél vagy kiskutyáknál), illetve a példatanulás (in-context learning), amellyel pár példából rá lehet tanítani az MI-t új felismerési kategóriákra.
A vállalat kétirányú licencstratégiát alkalmaz: a csúcsváltozat (Mk1) zárt, csak API-n keresztül érhető el, azonban az Isaac-sorozat nyílt forráskódú alternatíva marad egészen 2 milliárd paraméteres méretig, gyors, 0,2 másodpercen belüli válaszidővel.
Mögöttes csapat és jövőkép
A Perceptron AI történetét két, a Metánál (Facebook AI Research) kutatóként dolgozó alapító, Armen Aghajanyan és Akshat Shrivastava indította. 2024 végén döntöttek úgy, hogy a digitális MI helyett olyan rendszereket építenek, amelyek a fizikai világot is képesek értelmezni. Korábbi közös kutatásuk az új generációs, vegyes szekvenciákat (képet és szöveget) feldolgozó modellek fejlesztése volt, az ezekből leszűrt tapasztalatokat vitték tovább a Perceptron megoldásaiba.
Valós terep – már alkalmazzák élesben
A rendszer képességeit már most hasznosítják különféle partnerek: sportközvetítésekben automatikusan kiemelik a legfontosabb jeleneteket, robotikai alkalmazásokban a tanuláshoz használt adatok automatikus címkézése és tisztítása zajlik, gyártósorokon multimodális minőségellenőrzést végeznek, okosszemüvegeken segítő, kontextusérzékeny információkat szolgáltatnak a felhasználóknak.
A Perceptron célja, hogy a fizikai világ MI-megértése éppoly magától értetődővé váljon, mint a digitálisé, új korszakot hozva az ipar, biztonság, robotika és tartalommoderáció terén.
