2026. 03. 12., 06:30

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2
A modern vállalatok már nem engedhetik meg maguknak a széttagolt adatkezelést: szövegek, hangfelvételek, képek, videók és dokumentumok együttese folyton szigetekre szakítja az információkat. Most a Google áttört egy lélektani és technológiai korlátot – bemutatta a Gemini Embedding 2 modellt, az első natív, multimodális beágyazásokat kínáló MI‑megoldást, amely véget vet az adathalmazok tördelt világának.

Mit tud egy beágyazási modell?

A beágyazási (embedding) modellek az MI láthatatlan motorjai: a legösszetettebb adatokat – mondatokat, képeket, hangrészleteket – alakítják át hosszú számsorokká, azaz vektorokká. Ezek a számok valójában egy sokdimenziós gondolattér koordinátáit jelentik. Két eltérő típusú adat, például a „kutya” szó és egy golden retriever fotója is egymás mellé kerül, ha jelentésük közeli.

Ma már keresők, ajánlórendszerek (Netflix, Spotify) vagy vállalati asszisztensek (Retrieval‑Augmented Generation – RAG) is ezen alapulnak: a vállalati dokumentumokat, képeket, hangokat így tudja egy MI egyetlen kérdés alapján összekapcsolni.

A szóalapú vektorreprezentáció ötlete az 1950‑es évekre vezethető vissza, ám csak 2013‑ban jött az igazi áttörés – a Google a Word2Vec modellt vezette be, ami új iparági standardot teremtett. Ma ezt a piacot a Google, az OpenAI, az Anthropic és a Cohere uralják.

Miért forradalmi a Gemini Embedding 2?

A legtöbb beágyazási modell eddig szinte kizárólag szöveggel dolgozott. Hiába akartál például videóra keresni, előbb ki kellett vonni belőle a szöveget, majd ezen futott a keresés. A Gemini Embedding 2 viszont alapból multimodális: képes a képeket, hangokat, videókat, dokumentumokat és szöveget közvetlenül, ugyanabban a 3072 dimenziós térben ábrázolni.

Ez azt jelenti, hogy mostantól nincs szükség külön pipeline‑ra a képekhez, videókhoz, szövegekhez. Egy egyszerű kereséssel egy időben találhatsz rá egy meghatározott pillanatra egy videóban, egy képre vagy akár egy hangrészletre. A rendszer egyes kérésekben kevert bemenetekkel is megbirkózik. Így például egy vintage autót ábrázoló fotóval és a „Mi a motor típusa?” kéréssel egyszerre lehet dolgozni, nem kell szétválasztani a médiaformátumokat.

Egy speciális újítás a Matryoshka Representation Learning, amely lehetővé teszi, hogy a vektor leglényegesebb információi már az első néhány számban benne legyenek, így a vállalatok akár a 3072 helyett 768 vagy 1536 dimenziós vektorokat is használhatnak, optimális tárhellyel, csekély pontosságvesztéssel.

Teljesítmény és gyakorlati eredmények

A Gemini Embedding 2 új szintet jelent a multimodális keresésben és leképezésben. Főleg videó‑ és hangalapú keresésben mutatja meg erejét: nem igényel közbeiktatott szöveges átiratokat, így pontosabban tudja összekapcsolni a vizuális és auditív jelentéseket.

A legnagyobb előnyök:
– A szöveg‑kép, szöveg‑videó, szöveg‑hang keresésben stabilan veri az iparági versenytársakat.
– Natív audiófeldolgozásban kiemelkedő, jobban megragadja a kimondott szavak érzelmi és intonációs tartalmát is.
– Hosszú dokumentumok (8192 token) kezelése sem jelent problémát, így egy 6 oldalas PDF‑nek is van értelme.
– A Matryoshka technológiának köszönhetően még lecsökkentett, 768 dimenziós vektorokkal is jobb a teljesítménye, mint sok fix méretű konkurensnek.


Mit jelent ez a vállalati adatbázisokra nézve?

Az eddig megszokott különálló pipeline‑okat egyetlen egységes tudásbázissá olvaszthatod össze. Egy ügyfélprobléma – amiben hangfelvétel, képernyőkép, szerződés PDF és e‑levelezés is előkerülhet – most már egyetlen kereséssel feltérképezhető.

Első felhasználók között a Sparkonomy platform 70%-os késleltetéscsökkenést jelentett: MI‑asszisztensüknek már nem kellett a modellek között „lefordítani” az adatot, hanem rögtön értelmezte a multimodális keresést. Az Everlaw jogi techcég szerint minden eddiginél több „füstölgő fegyver” bizonyíték jött elő, hisz a képek és videók is azonnal kereshetővé váltak.

Korlátok és bemeneti limitációk

Fontos látni: a rendszer nem mindenható. Egyetlen kéréssel maximum 8192 tokennyi szöveget, 6 képet, 128 másodperc videót (2 perc 8 másodperc), 80 másodperc natív hangot (1 perc 20 másodperc), illetve 6 oldalas PDF‑et lehet beadni. Ha például egy 100 oldalas szerződést kell feldolgozni, azt 6 oldalas szeletekre kell vágni, és így kell feltölteni.

Videók és hanganyagok esetén ugyanígy: például egy 10 perces videót nyolc részre kell bontani, és részletekben lehet beágyazni. Ezek tehát nem tárhelyi, csak kérésekkénti korlátok – minden szegmens vektorként ugyanabban az adatbázisban kereshető lesz.

Árazás, licenc, elérhetőség

2026. március 10‑től a Gemini Embedding 2 nyilvános előzetesként érhető el minden fejlesztőnek és cégnek. Elérhető a Google két fő MI‑kapuján keresztül: gyors prototípusokhoz azonnal elindítható, nagyvállalati alkalmazásoknál pedig Google Cloud‑integrációval, fejlett biztonsági és skálázási támogatással működik.

Beépült a főbb MI‑infrastruktúra‑könyvtárakba (LangChain, LlamaIndex, Weaviate stb.), nagyon egyszerűvé téve az átállást meglévő projektekben.

Az árképzés kétlépcsős:
– Az ingyenes szint 60 kérés/perc kapacitással próbaverzióként szolgál azoknak, akik kísérletezni akarnak.
– Termelési (production) használatban minden 1 millió tokennyi szöveg/kép/videó után 90 HUF, hang esetén 180 HUF (mert a nyers hangfeldolgozás dupla erőforrást igényel) számlázódik.

Nagyvállalatoknál a Vertex AI platformon „Pay‑as‑you‑go”, vagyis használatalapú díjazás él, beállítható fix, garantált sávszélességgel, és akár nagy tömbök kötegelt átkódítására is alkalmas.

A Python kódot tartalmazó dokumentáció és példák Apache 2.0 licenc alá esnek, így szabadon módosíthatók, beépíthetők saját rendszerekbe – semmi jogdíj, semmilyen kötelező visszaosztás.

Migrálni vagy nem migrálni?

A döntés az adatosztályvezetőknél és technikai vezetőknél van: ha eddig széttagolt pipeline‑okra, köztes modellekre támaszkodott a szervezet, az átállás stratégiai előnyhöz juttathat. Nincs több „lebutító átírás”, kevesebb ponton csúszik el a jelentés – ezt már a Sparkonomy is tapasztalta.

Az átállás a meglévő ipari szoftverintegrációknak köszönhetően sokszor csak minimális kódmódosítást igényel. Az igazi „költöztetés” abban áll, hogy a régi adatbázist újra kell beágyazni a 3072 dimenziós térbe: ez egyszeri számítási kihívás, de utána valóban keresztmédias keresés, gyorsabb és precízebb találati arány lesz a végeredmény.

A Matryoshka technológiával pedig különböző típusú felhasználásokhoz a pontosság vagy a költség optimalizálható: a kritikus jogi kereséseket maximális pontosággal, a kevésbé fontos ajánlórendszereket kisebb, olcsóbb vektorokkal lehet futtatni.

Összefoglalásként megjegyezhető, hogy aki igazán komplex, sokféle médiát érintő, kereshető tudásbázisra, gyorsabb lekérdezésre és kevesebb veszteségre vágyik, annak a „szöveg‑plusz” világból érdemes a Gemini Embedding 2 multimodális világába migrálni. A költségek gyorsan visszajönnek a pontosabb válaszok és a letisztultabb MI‑architektúra révén – a nagyvállalati informatika most lép a következő korszakba.

2025, adminboss, venturebeat.com alapján

Legfrissebb posztok

MA 06:37

Az olcsó laptopok új királya: megérkezett az Intel Wildcat Lake

💻 Az Intel idén tovább bővíti 2026-os mobilprocesszor-palettáját, méghozzá a pénztárcabarát Core Series 3 chipekkel, melyeket Wildcat Lake kódnéven fejlesztettek...

MA 06:29

A valódi munkaerőválság: mi falja fel a munkaerőpiacot valójában?

A legtöbb cégvezető a mesterséges intelligenciában látja a munkahelyek jövőjére leselkedő legnagyobb veszélyt, pedig valószínűbb, hogy egészen más folyamat fenyegeti a munkaerőpiacot...

MA 06:22

Az Altman-golyók véget vethetnek a jegyüzérkedésnek?

🧠 Sam Altman, a Tools for Humanity társalapítója által fejlesztett, szemszkennerekkel működő „golyói” új területen vethetők be, hogy felvegyék a harcot a koncertjegyeket elkapkodó botokkal...

MA 06:05

Történelmi események a mai napon (Április 18.)

Röviden: ezen a napon rengés pusztította el San Franciscót, merész amerikai rajtaütés érte Japánt a második világháborúban, és megszületett Zimbabwe független köztársasága...

MA 06:02

Újra kegyben az Anthropic a Fehér Háznál?

😷 Ebből következően érdemes megérteni, mi zajlik az Anthropic és a jelenlegi amerikai kormányzat között: a mesterséges intelligencia, pontosabban az Anthropic Mythos-modellje körüli viták hónapokon át tartó feszültsége után most újra megnyílni látszik a kommunikáció...

péntek 21:56

A tűzveszély miatt ismét visszahívják a külső mobilakkukat

A Casely ismét visszahívja az 5000 mAh-s MagSafe Power Podokat, miután újabb eseteket jelentettek túlmelegedésről és tűzesetekről...

péntek 21:34

Az új Windows-frissítés ismét térdre kényszeríti a szervereket

Na most kapaszkodj, mert a legújabb áprilisi Windows-biztonsági frissítés (KB5082063) telepítése után néhány szerver szinte azonnal újraindulási körforgásba zuhan...

péntek 21:24

A Naprendszer különcei: a legfurcsább bolygók

🐼 A Naprendszer bolygói elképesztően sokfélék. Vannak óriásiak és aprók, némelyiket sűrű légkör borítja, másoknak egyáltalán nincs légkörük...

péntek 21:12

Az MI-katasztrófákért ki felel – forr a vita Illinois-ban

Érdekes felvetés, hogy Illinois állam most az MI-fejlesztők felelősségét próbálja tisztázni, ha egy technológia komoly bajt okoz...

péntek 20:56

Az ingyenes fedélzeti netnek vége, leáldozik a T‑Mobile aranykora?

🚨 A T-Mobile évekig verhetetlen volt, ha a repülőn elérhető ingyenes Wi-Fi-ről volt szó, most viszont jócskán megcsappant az előnyük...

péntek 20:47

Az atomlánc, amely új korszakot nyit az elektromos térérzékelésben

A gyenge, alacsony frekvenciájú elektromos terek pontos mérése eddig komoly kihívást jelentett, főleg a nagy, nehezen miniatürizálható eszközök és a korlátozott felbontás miatt...

péntek 20:34

Az ámbráscetek kommunikációja kísértetiesen emlékeztet a miénkre

Az ember és az ámbráscetek között első ránézésre kevés a közös vonás, elvégre 90 millió éve volt az utolsó közös ősünk...

péntek 20:23

Az antibiotikum-rezisztencia robban: szétpukkanó baktériumok szórják a géneket

A baktériumok elképesztően találékonyak tudnak lenni, amikor az életben maradásról van szó...

péntek 20:14

Az űrhajózás új korszaka: rekordok, úttörők és kihívások

🚀 Felmerül a kérdés, merre tart most az űrhajózás, miközben minden eddiginél izgalmasabb fejlemények zajlanak mind a NASA, mind a komoly magáncégek berkeiben...

péntek 20:01

A várva várt ingyenes MI-frissítés közeleg a Galaxy S25-re

🚀 A Samsung végre elérhetővé teszi azokat a mesterségesintelligencia-funkciókat, amelyeket először a Galaxy S26 modellben ismerhettünk meg – ráadásul teljesen ingyen a Galaxy S25 felhasználóinak...

péntek 19:56

A Supermicro új szörnye: 40 mag, brutális háló, letisztult ház

Jól mutatja ezt, mennyi mindent zsúfoltak bele egy viszonylag apró, de elképesztően erős szerverbe...

péntek 19:45

Az elveszett bizalom: újságírás az MI viharában

Bár egyre többen alkalmazzák a mesterséges intelligenciát a médiában, az újságíró közösségben továbbra is erős fenntartások élnek a használatával szemben...

péntek 19:34

A YouTube végre újra szólhat a háttérben az Edge Canaryvel – ingyen

Most őszintén, könyörgöm, észrevetted már, hogy a YouTube mennyire rákapcsolt, amikor pénzt akar tőled szedni?..

péntek 19:12

Az MI korában is az ember a győztes csapat kulcsa

Technológiai forradalomban élünk, ahol minden eddiginél gyorsabban haladhatnak előre a cégek – a kérdés azonban korántsem ilyen egyszerű: vajon mindenki valóban jó irányba indul-e?..

péntek 18:59

Az Anthropic veszélyes MI-je: tényleg fenyeget, vagy csak pánikkeltés?

⚠ Április elején az Anthropic bejelentette legújabb MI-modelljét, Mythos néven. A döntés, hogy a fejlesztést nem engedik szabadon a nagyközönséghez, szinte példátlannak számít a szektorban – legutóbb hasonló lépésre 2019-ben az OpenAI szánta el magát...

péntek 18:58

A bolti kávék nagy túlélőkalauza: Mit érdemes venni?

Az élelmiszerboltok polcain sorakozó kávékkal szembesülő vásárló könnyen elbizonytalanodhat: vajon nem hagy-e ki valami jobbat a jól megszokott márkák mögött?..

APP
péntek 09:12

APPok, Amik Ingyenesek MA, 4/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     PostalCal (iPhone/iPad)A Postal Employee Day Off Calendar egy egyszerű, célzott alkalmazás, amely a USPS postai dolgozók és családtagjaik számára készült...

péntek 08:52

Az óriás nyelvi modellek futtatásának új korszaka

💻 Amit látunk, az túlmutat a megszokotton: a nagyméretű nyelvi modellek (LLM-ek) üzemeltetése ma már nem csupán jó algoritmusokról szól, hanem komoly hardvertervezési és optimalizálási kérdés is lett...

péntek 08:43

Az okosóráról irányítható mobilkamera: megérkezett a Blackmagic újdonsága

A Blackmagic Camera alkalmazás iOS-re újabb szintre lépett, hiszen mostantól Apple Watchról is egyszerűen vezérelhető és monitorozható...

péntek 08:37

Az univerzum rejtett arca: fekete lyukak és titkos dimenziók

Erre utal többek között az, hogy a fekete lyukak soha nem tűnnek el teljesen, még akkor sem, ha Hawking sugárzása révén látszólag folyamatosan veszítik tömegüket...

péntek 08:29

Az új Walmart Onn 4K Pro megéri a pénzét?

Érdekes, hogy a Walmart ismét egy váratlan termékbejelentéssel borzolja a kedélyeket, most éppen az Onn 4K Pro streaming boxszal...

péntek 08:24

Az MI-alapú keresés új szintre emeli az ügyfélszolgálati ügynökök tudását

A mai digitális világban elengedhetetlen, hogy a különféle MI-ügynökök hatékonyan tudjanak keresni az információk között...

péntek 08:16

Az MI-háború új felvonása: a Claude Opus 4.7 visszaveszi a trónt

A mesterséges intelligencia fejlesztésének újabb mérföldkövéhez érkeztünk: az Anthropic piacra dobta legújabb, mindenki számára elérhető nagy nyelvi modelljét, a Claude Opus 4...

péntek 08:08

A hosszú élet titka: a rettegett „halálfehérje” nyomában

Fontos kérdés, hogy miért gyengül az immunrendszer és a vérképzés az életkor előrehaladtával...