2026. 03. 12., 06:30

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2
A modern vállalatok már nem engedhetik meg maguknak a széttagolt adatkezelést: szövegek, hangfelvételek, képek, videók és dokumentumok együttese folyton szigetekre szakítja az információkat. Most a Google áttört egy lélektani és technológiai korlátot – bemutatta a Gemini Embedding 2 modellt, az első natív, multimodális beágyazásokat kínáló MI‑megoldást, amely véget vet az adathalmazok tördelt világának.

Mit tud egy beágyazási modell?

A beágyazási (embedding) modellek az MI láthatatlan motorjai: a legösszetettebb adatokat – mondatokat, képeket, hangrészleteket – alakítják át hosszú számsorokká, azaz vektorokká. Ezek a számok valójában egy sokdimenziós gondolattér koordinátáit jelentik. Két eltérő típusú adat, például a „kutya” szó és egy golden retriever fotója is egymás mellé kerül, ha jelentésük közeli.

Ma már keresők, ajánlórendszerek (Netflix, Spotify) vagy vállalati asszisztensek (Retrieval‑Augmented Generation – RAG) is ezen alapulnak: a vállalati dokumentumokat, képeket, hangokat így tudja egy MI egyetlen kérdés alapján összekapcsolni.

A szóalapú vektorreprezentáció ötlete az 1950‑es évekre vezethető vissza, ám csak 2013‑ban jött az igazi áttörés – a Google a Word2Vec modellt vezette be, ami új iparági standardot teremtett. Ma ezt a piacot a Google, az OpenAI, az Anthropic és a Cohere uralják.

Miért forradalmi a Gemini Embedding 2?

A legtöbb beágyazási modell eddig szinte kizárólag szöveggel dolgozott. Hiába akartál például videóra keresni, előbb ki kellett vonni belőle a szöveget, majd ezen futott a keresés. A Gemini Embedding 2 viszont alapból multimodális: képes a képeket, hangokat, videókat, dokumentumokat és szöveget közvetlenül, ugyanabban a 3072 dimenziós térben ábrázolni.

Ez azt jelenti, hogy mostantól nincs szükség külön pipeline‑ra a képekhez, videókhoz, szövegekhez. Egy egyszerű kereséssel egy időben találhatsz rá egy meghatározott pillanatra egy videóban, egy képre vagy akár egy hangrészletre. A rendszer egyes kérésekben kevert bemenetekkel is megbirkózik. Így például egy vintage autót ábrázoló fotóval és a „Mi a motor típusa?” kéréssel egyszerre lehet dolgozni, nem kell szétválasztani a médiaformátumokat.

Egy speciális újítás a Matryoshka Representation Learning, amely lehetővé teszi, hogy a vektor leglényegesebb információi már az első néhány számban benne legyenek, így a vállalatok akár a 3072 helyett 768 vagy 1536 dimenziós vektorokat is használhatnak, optimális tárhellyel, csekély pontosságvesztéssel.

Teljesítmény és gyakorlati eredmények

A Gemini Embedding 2 új szintet jelent a multimodális keresésben és leképezésben. Főleg videó‑ és hangalapú keresésben mutatja meg erejét: nem igényel közbeiktatott szöveges átiratokat, így pontosabban tudja összekapcsolni a vizuális és auditív jelentéseket.

A legnagyobb előnyök:
– A szöveg‑kép, szöveg‑videó, szöveg‑hang keresésben stabilan veri az iparági versenytársakat.
– Natív audiófeldolgozásban kiemelkedő, jobban megragadja a kimondott szavak érzelmi és intonációs tartalmát is.
– Hosszú dokumentumok (8192 token) kezelése sem jelent problémát, így egy 6 oldalas PDF‑nek is van értelme.
– A Matryoshka technológiának köszönhetően még lecsökkentett, 768 dimenziós vektorokkal is jobb a teljesítménye, mint sok fix méretű konkurensnek.


Mit jelent ez a vállalati adatbázisokra nézve?

Az eddig megszokott különálló pipeline‑okat egyetlen egységes tudásbázissá olvaszthatod össze. Egy ügyfélprobléma – amiben hangfelvétel, képernyőkép, szerződés PDF és e‑levelezés is előkerülhet – most már egyetlen kereséssel feltérképezhető.

Első felhasználók között a Sparkonomy platform 70%-os késleltetéscsökkenést jelentett: MI‑asszisztensüknek már nem kellett a modellek között „lefordítani” az adatot, hanem rögtön értelmezte a multimodális keresést. Az Everlaw jogi techcég szerint minden eddiginél több „füstölgő fegyver” bizonyíték jött elő, hisz a képek és videók is azonnal kereshetővé váltak.

Korlátok és bemeneti limitációk

Fontos látni: a rendszer nem mindenható. Egyetlen kéréssel maximum 8192 tokennyi szöveget, 6 képet, 128 másodperc videót (2 perc 8 másodperc), 80 másodperc natív hangot (1 perc 20 másodperc), illetve 6 oldalas PDF‑et lehet beadni. Ha például egy 100 oldalas szerződést kell feldolgozni, azt 6 oldalas szeletekre kell vágni, és így kell feltölteni.

Videók és hanganyagok esetén ugyanígy: például egy 10 perces videót nyolc részre kell bontani, és részletekben lehet beágyazni. Ezek tehát nem tárhelyi, csak kérésekkénti korlátok – minden szegmens vektorként ugyanabban az adatbázisban kereshető lesz.

Árazás, licenc, elérhetőség

2026. március 10‑től a Gemini Embedding 2 nyilvános előzetesként érhető el minden fejlesztőnek és cégnek. Elérhető a Google két fő MI‑kapuján keresztül: gyors prototípusokhoz azonnal elindítható, nagyvállalati alkalmazásoknál pedig Google Cloud‑integrációval, fejlett biztonsági és skálázási támogatással működik.

Beépült a főbb MI‑infrastruktúra‑könyvtárakba (LangChain, LlamaIndex, Weaviate stb.), nagyon egyszerűvé téve az átállást meglévő projektekben.

Az árképzés kétlépcsős:
– Az ingyenes szint 60 kérés/perc kapacitással próbaverzióként szolgál azoknak, akik kísérletezni akarnak.
– Termelési (production) használatban minden 1 millió tokennyi szöveg/kép/videó után 90 HUF, hang esetén 180 HUF (mert a nyers hangfeldolgozás dupla erőforrást igényel) számlázódik.

Nagyvállalatoknál a Vertex AI platformon „Pay‑as‑you‑go”, vagyis használatalapú díjazás él, beállítható fix, garantált sávszélességgel, és akár nagy tömbök kötegelt átkódítására is alkalmas.

A Python kódot tartalmazó dokumentáció és példák Apache 2.0 licenc alá esnek, így szabadon módosíthatók, beépíthetők saját rendszerekbe – semmi jogdíj, semmilyen kötelező visszaosztás.

Migrálni vagy nem migrálni?

A döntés az adatosztályvezetőknél és technikai vezetőknél van: ha eddig széttagolt pipeline‑okra, köztes modellekre támaszkodott a szervezet, az átállás stratégiai előnyhöz juttathat. Nincs több „lebutító átírás”, kevesebb ponton csúszik el a jelentés – ezt már a Sparkonomy is tapasztalta.

Az átállás a meglévő ipari szoftverintegrációknak köszönhetően sokszor csak minimális kódmódosítást igényel. Az igazi „költöztetés” abban áll, hogy a régi adatbázist újra kell beágyazni a 3072 dimenziós térbe: ez egyszeri számítási kihívás, de utána valóban keresztmédias keresés, gyorsabb és precízebb találati arány lesz a végeredmény.

A Matryoshka technológiával pedig különböző típusú felhasználásokhoz a pontosság vagy a költség optimalizálható: a kritikus jogi kereséseket maximális pontosággal, a kevésbé fontos ajánlórendszereket kisebb, olcsóbb vektorokkal lehet futtatni.

Összefoglalásként megjegyezhető, hogy aki igazán komplex, sokféle médiát érintő, kereshető tudásbázisra, gyorsabb lekérdezésre és kevesebb veszteségre vágyik, annak a „szöveg‑plusz” világból érdemes a Gemini Embedding 2 multimodális világába migrálni. A költségek gyorsan visszajönnek a pontosabb válaszok és a letisztultabb MI‑architektúra révén – a nagyvállalati informatika most lép a következő korszakba.

2025, adminboss, venturebeat.com alapján

Legfrissebb posztok

MA 20:12

Az amerikai kormány 2 milliárdot rátesz a kvantumszámításra, a védelem lemarad

💸 Az USA nem kevesebb mint 730 milliárd forintot fektet be a kvantumszámítógépek fejlesztésébe, miközben a másik oldalon, a védelem oldalán veszélyesen lelassult az innováció...

MA 19:56

A vb-házigazda Kanada Bosznia-Hercegovina ellen rajtol az első pontokért

Megemlíthető továbbá, hogy Toronto péntek este igazi futballünnepet ígér, hiszen a 2026-os labdarúgó-világbajnokság egyik házigazdája, Kanada Bosznia és Hercegovina ellen kezdi meg szereplését a B csoport nyitómeccsén...

MA 19:45

Az új SKYLRK Bluetooth-hangszórók, amiket a B&O is megirigyelne

🎧 Justin Bieber legújabb fejlesztéseivel rukkolt elő saját lifestyle márkája, a SKYLRK égisze alatt, ahol most két vadonatúj Bluetooth hangszóró és egy vezeték nélküli fejhallgató jelentek meg...

MA 19:34

A holland civil perelné a Valve-ot a magasan tartott árak miatt

💳 Évek óta a Steamre gondolva hatalmas leárazások, filléres játékhegyek és véget nem érő akciók jutnak eszünkbe, nem a magas árak...

MA 19:23

A Kalshi kriptós örökös határidős ügyletei újraélesztik a határidős–swap vitát

📈 Az amerikai pénzpiacokon újra fellángolt a vita: vajon hogyan is kellene szabályozni a kriptovaluta-befektetések egyik legnépszerűbb termékét, az örökös (perpetual) szerződést?..

MA 19:12

Az apró pórusok megváltoztathatják, hogyan tisztítja a világ a vizet

💧 Egészen új távlatok nyíltak meg az ipari víztisztítás és a vegyszerek leválasztásának jövőjében, miután kutatók egy hihetetlenül pontos, egy nanométeres pórusokkal rendelkező membránt fejlesztettek ki...

MA 19:01

A pénztárcabarát, pehelykönnyű pajzs: Norton Antivirus Plus teszt

Az online fenyegetések világában egyre fontosabb az okoseszközök gyors és zökkenőmentes védelme...

MA 18:57

A Tejútrendszer peremén a Kis Magellán-felhőt nagytestvére tépi szét

A Tejútrendszer peremén jelenleg is látványos dráma zajlik: a Kis Magellán-felhőt szó szerint szétszakítja nagyobb társa, a Nagy Magellán-felhő...

MA 18:47

A nép szava: a Resident Evil Veronica milliós kívánságlistát ér el

A Resident Evil Veronica bejelentése után szinte pillanatok alatt tarolt: kevesebb mint egy hét alatt egymillió kívánságlistára került PlayStation 5-ön és PC-n is...

MA 18:36

Az alaszkai gleccserek ijesztő válasza: három héttel hosszabb az olvadás

Felmerül a kérdés, hogy mennyire érzékenyek az alaszkai gleccserek a hőmérséklet-emelkedésre...

MA 18:26

A kivonások dacára a Bitcoin ETF-befektetők többsége kitart

Nehéz elhinni, de a Bitcoin ETF-ből már mintegy 3,27 billió forint értékű tőke távozott idén, mégsem omlott össze a piac...

MA 17:35

A Silent lapjai, amelyekkel Ascension 10-ig jutottam a Slay the Spire 2-ben

Az Ascension 10 teljesítése a Slay the Spire 2-ben nem tökéletes pakliépítésen múlik, hanem azon, hogy mennyire gyorsan és hatékonyan tudod megszüntetni a kezdőpaklid gyengeségeit...

MA 17:23

A legendás Rick James fia börtönben: Tazman Johnsont droggal vádolják

Rick James fia, Tazman Johnson jelenleg a Los Angeles megyei börtönben van, súlyos vádak miatt...

MA 16:45

A SpaceX tőzsdei rajtja: zuhanás vagy rakétázás a kriptónak?

🚀 Egy lényeges szempont, hogy hónapok várakozása után ma megkezdődik a SpaceX részvényének kereskedése a Nasdaqon, miután a befektetők 75 milliárd dollárt – azaz közel 27 000 milliárd forintot – öntöttek a valaha volt legnagyobb tőzsdei bevezetésbe...

MA 16:34

Az Arm AI-s sugárkövetéssel kihívja az AMD-t és az Intelt kézikonzolokban

Noha sokan csak a telefonjukról ismerik az Arm-chipeket, most kiderült, hogy ezek jóval többre is képesek...

MA 16:23

A Top Gun: Maverick színésze, James Handy halála: kés és fojtás

🔥 A 81 éves James Handy, akit a Top Gun: Maverick (Top Gun: Maverick) című filmben is láthattunk, brutális támadás áldozata lett Los Angeles-i otthonában...

MA 16:12

A Monero 33%-ot száguldott, 438 dollárig, 120 milliós blokkláncon zajló pénzmosás közepette

📈 A Monero árfolyama hirtelen 33%-ot ugrott, elérve a 438 dollár (kb...

MA 16:01

A Havn HS 360, a HS 420 kisebb, könnyebb és okosabb kistestvére

Az asztali számítógépházak világában sokan ismerhetik a masszív és látványos HS 420-at, amelynek most megérkezett a kisebb testvére...

MA 15:35

Az üvöltés lelassíthatja a szervereket: meghökkentő tény a HDD-kről

😱 Ez a jelenség jól illusztrálható azzal, hogy minden szerverteremben ott lapulnak a kis alumínium-, réz- és kerámiadobozkák, amelyek egészen emberi tulajdonságokat hordoznak – legalábbis amikor úgy viselkednek, mint egy sértődött munkatárs: ha rájuk ordítasz, lelassulnak...

MA 15:12

A Bitcoin 63 ezernél toporog: jön a bikák kálváriája?

📈 A hét elején látványos mélységbe, 59 000 dollárig zuhant le a bitcoin árfolyama, majd visszakapaszkodott 63 000 dollár környékére...

MA 15:01

Az új AirPods EQ már elérhető — még nem érdemes frissíteni

Az Apple végre elhozta az AirPods felhasználóinak az egyéni hangszínszabályzást (EQ-t), amire sokan régóta vártak...

MA 14:45

A Google erkölcsi iránytűje elveszett: vezető lemondott a Pentagon MI-szerződései miatt

A Google Android platformbiztonságáért felelős igazgatója, René Mayrhofer lemondott, miután a vállalat lehetővé tette, hogy az amerikai Védelmi Minisztérium (DoD) titkos feladatokra felhasználja a cég MI-modelljeit...

MA 14:23

A Seed lehet a The Sims óta a legnagyobb dobás

A Seed minden korábbi életszimulátor-játékot felülmúlhat, hiszen teljesen új távlatokat nyit meg a virtuális közösségek előtt...

MA 13:34

A BlackRock bitcoinjövedelem-ETF-je jövő héten rajtolhat

Érdemes megvizsgálni, hogy a BlackRock hamarosan új korszakot nyit a hagyományos pénzügyi piacokon, hiszen bemutatja a világ első olyan bitcoin ETF-jét, amely kifejezetten jövedelemtermelésre fókuszál...

MA 13:23

Így nézheted élőben: Barcelona–Catalunya Nagydíj 2026 – menetrend, előzetes

🏁 Fontos kérdés, ki lesz képes villantani a 2026-os F1-es szezon következő, fordulatos futamán Barcelonában, ahol a történelmi pálya idén először viseli a Barcelona-Catalunya Nagydíj elnevezést...

MA 13:01

A Metaplanet felvásárolja a Siiibo Securities-t: gyorsul a bitcoin-forradalom

🚀 Érdemes megvizsgálni, hogy egy friss japán felvásárlással a Metaplanet jelentős lépést tett a digitális pénzügyi rendszer átalakítása felé...

MA 12:56

Az MI forradalmasítja a számlacsalás elleni küzdelmet

A mesterséges intelligencia (MI) néhány év alatt gyökeresen átalakította a vállalatok mindennapjait, és különösen a pénzügyi csapatok működésében hozott jelentős változásokat...

MA 12:45

Az Apple szerint Siri segít, nem randizik veled – odaszúrás a ChatGPT-nek

😉 Különösen említést érdemel, hogy az Apple végre részletesen bemutatta, miben lesz más az év végén érkező, teljesen megújult Siri a többi, mesterséges intelligenciára épülő digitális asszisztenshez képest...

MA 12:35

Az eljárás, amely véget vetett a napi tucatnyi szívleállásnak

Mindennapi tevékenységek is komoly veszélyt jelenthetnek bizonyos szívbetegséggel élőknél. Egy ritka állapot, a kardioinhibitórikus szinkópe miatt egyesek akár naponta tucatnyi alkalommal elveszíthetik az eszméletüket...