2026. 03. 12., 06:30

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2
A modern vállalatok már nem engedhetik meg maguknak a széttagolt adatkezelést: szövegek, hangfelvételek, képek, videók és dokumentumok együttese folyton szigetekre szakítja az információkat. Most a Google áttört egy lélektani és technológiai korlátot – bemutatta a Gemini Embedding 2 modellt, az első natív, multimodális beágyazásokat kínáló MI‑megoldást, amely véget vet az adathalmazok tördelt világának.

Mit tud egy beágyazási modell?

A beágyazási (embedding) modellek az MI láthatatlan motorjai: a legösszetettebb adatokat – mondatokat, képeket, hangrészleteket – alakítják át hosszú számsorokká, azaz vektorokká. Ezek a számok valójában egy sokdimenziós gondolattér koordinátáit jelentik. Két eltérő típusú adat, például a „kutya” szó és egy golden retriever fotója is egymás mellé kerül, ha jelentésük közeli.

Ma már keresők, ajánlórendszerek (Netflix, Spotify) vagy vállalati asszisztensek (Retrieval‑Augmented Generation – RAG) is ezen alapulnak: a vállalati dokumentumokat, képeket, hangokat így tudja egy MI egyetlen kérdés alapján összekapcsolni.

A szóalapú vektorreprezentáció ötlete az 1950‑es évekre vezethető vissza, ám csak 2013‑ban jött az igazi áttörés – a Google a Word2Vec modellt vezette be, ami új iparági standardot teremtett. Ma ezt a piacot a Google, az OpenAI, az Anthropic és a Cohere uralják.

Miért forradalmi a Gemini Embedding 2?

A legtöbb beágyazási modell eddig szinte kizárólag szöveggel dolgozott. Hiába akartál például videóra keresni, előbb ki kellett vonni belőle a szöveget, majd ezen futott a keresés. A Gemini Embedding 2 viszont alapból multimodális: képes a képeket, hangokat, videókat, dokumentumokat és szöveget közvetlenül, ugyanabban a 3072 dimenziós térben ábrázolni.

Ez azt jelenti, hogy mostantól nincs szükség külön pipeline‑ra a képekhez, videókhoz, szövegekhez. Egy egyszerű kereséssel egy időben találhatsz rá egy meghatározott pillanatra egy videóban, egy képre vagy akár egy hangrészletre. A rendszer egyes kérésekben kevert bemenetekkel is megbirkózik. Így például egy vintage autót ábrázoló fotóval és a „Mi a motor típusa?” kéréssel egyszerre lehet dolgozni, nem kell szétválasztani a médiaformátumokat.

Egy speciális újítás a Matryoshka Representation Learning, amely lehetővé teszi, hogy a vektor leglényegesebb információi már az első néhány számban benne legyenek, így a vállalatok akár a 3072 helyett 768 vagy 1536 dimenziós vektorokat is használhatnak, optimális tárhellyel, csekély pontosságvesztéssel.

Teljesítmény és gyakorlati eredmények

A Gemini Embedding 2 új szintet jelent a multimodális keresésben és leképezésben. Főleg videó‑ és hangalapú keresésben mutatja meg erejét: nem igényel közbeiktatott szöveges átiratokat, így pontosabban tudja összekapcsolni a vizuális és auditív jelentéseket.

A legnagyobb előnyök:
– A szöveg‑kép, szöveg‑videó, szöveg‑hang keresésben stabilan veri az iparági versenytársakat.
– Natív audiófeldolgozásban kiemelkedő, jobban megragadja a kimondott szavak érzelmi és intonációs tartalmát is.
– Hosszú dokumentumok (8192 token) kezelése sem jelent problémát, így egy 6 oldalas PDF‑nek is van értelme.
– A Matryoshka technológiának köszönhetően még lecsökkentett, 768 dimenziós vektorokkal is jobb a teljesítménye, mint sok fix méretű konkurensnek.


Mit jelent ez a vállalati adatbázisokra nézve?

Az eddig megszokott különálló pipeline‑okat egyetlen egységes tudásbázissá olvaszthatod össze. Egy ügyfélprobléma – amiben hangfelvétel, képernyőkép, szerződés PDF és e‑levelezés is előkerülhet – most már egyetlen kereséssel feltérképezhető.

Első felhasználók között a Sparkonomy platform 70%-os késleltetéscsökkenést jelentett: MI‑asszisztensüknek már nem kellett a modellek között „lefordítani” az adatot, hanem rögtön értelmezte a multimodális keresést. Az Everlaw jogi techcég szerint minden eddiginél több „füstölgő fegyver” bizonyíték jött elő, hisz a képek és videók is azonnal kereshetővé váltak.

Korlátok és bemeneti limitációk

Fontos látni: a rendszer nem mindenható. Egyetlen kéréssel maximum 8192 tokennyi szöveget, 6 képet, 128 másodperc videót (2 perc 8 másodperc), 80 másodperc natív hangot (1 perc 20 másodperc), illetve 6 oldalas PDF‑et lehet beadni. Ha például egy 100 oldalas szerződést kell feldolgozni, azt 6 oldalas szeletekre kell vágni, és így kell feltölteni.

Videók és hanganyagok esetén ugyanígy: például egy 10 perces videót nyolc részre kell bontani, és részletekben lehet beágyazni. Ezek tehát nem tárhelyi, csak kérésekkénti korlátok – minden szegmens vektorként ugyanabban az adatbázisban kereshető lesz.

Árazás, licenc, elérhetőség

2026. március 10‑től a Gemini Embedding 2 nyilvános előzetesként érhető el minden fejlesztőnek és cégnek. Elérhető a Google két fő MI‑kapuján keresztül: gyors prototípusokhoz azonnal elindítható, nagyvállalati alkalmazásoknál pedig Google Cloud‑integrációval, fejlett biztonsági és skálázási támogatással működik.

Beépült a főbb MI‑infrastruktúra‑könyvtárakba (LangChain, LlamaIndex, Weaviate stb.), nagyon egyszerűvé téve az átállást meglévő projektekben.

Az árképzés kétlépcsős:
– Az ingyenes szint 60 kérés/perc kapacitással próbaverzióként szolgál azoknak, akik kísérletezni akarnak.
– Termelési (production) használatban minden 1 millió tokennyi szöveg/kép/videó után 90 HUF, hang esetén 180 HUF (mert a nyers hangfeldolgozás dupla erőforrást igényel) számlázódik.

Nagyvállalatoknál a Vertex AI platformon „Pay‑as‑you‑go”, vagyis használatalapú díjazás él, beállítható fix, garantált sávszélességgel, és akár nagy tömbök kötegelt átkódítására is alkalmas.

A Python kódot tartalmazó dokumentáció és példák Apache 2.0 licenc alá esnek, így szabadon módosíthatók, beépíthetők saját rendszerekbe – semmi jogdíj, semmilyen kötelező visszaosztás.

Migrálni vagy nem migrálni?

A döntés az adatosztályvezetőknél és technikai vezetőknél van: ha eddig széttagolt pipeline‑okra, köztes modellekre támaszkodott a szervezet, az átállás stratégiai előnyhöz juttathat. Nincs több „lebutító átírás”, kevesebb ponton csúszik el a jelentés – ezt már a Sparkonomy is tapasztalta.

Az átállás a meglévő ipari szoftverintegrációknak köszönhetően sokszor csak minimális kódmódosítást igényel. Az igazi „költöztetés” abban áll, hogy a régi adatbázist újra kell beágyazni a 3072 dimenziós térbe: ez egyszeri számítási kihívás, de utána valóban keresztmédias keresés, gyorsabb és precízebb találati arány lesz a végeredmény.

A Matryoshka technológiával pedig különböző típusú felhasználásokhoz a pontosság vagy a költség optimalizálható: a kritikus jogi kereséseket maximális pontosággal, a kevésbé fontos ajánlórendszereket kisebb, olcsóbb vektorokkal lehet futtatni.

Összefoglalásként megjegyezhető, hogy aki igazán komplex, sokféle médiát érintő, kereshető tudásbázisra, gyorsabb lekérdezésre és kevesebb veszteségre vágyik, annak a „szöveg‑plusz” világból érdemes a Gemini Embedding 2 multimodális világába migrálni. A költségek gyorsan visszajönnek a pontosabb válaszok és a letisztultabb MI‑architektúra révén – a nagyvállalati informatika most lép a következő korszakba.

2025, adminboss, venturebeat.com alapján

Legfrissebb posztok

MA 17:02

Az iráni hekkerek lecsaptak: veszélyben az amerikai tengerészgyalogosok adatai

🔫 Többek között közel 2400, a Perzsa-öböl térségében szolgáló amerikai tengerészgyalogos személyes adatait hozta nyilvánosságra egy iráni kiberbanda, amely már hónapok óta szervezi támadásait...

MA 16:56

A PlayStation-tábor forrong a 30 napos ellenőrzés miatt

🔥 Több PlayStation-felhasználó igazi rémálomként élte meg, hogy a Sony digitális boltjából vásárolt játékoknál feltűnt egy új, 30 napos licencellenőrzési kötelezettség...

MA 16:46

Az MI végre munkába áll: a Mistral Workflows betör a vállalatokhoz

💼 A francia székhelyű Mistral AI, amelynek értékét 11,7 milliárd euróra (kb...

MA 16:34

Az amerikai infláció, háborús pánik és gyenge jen ledöntötte a bitcoint

Az év eleji menetelés után a bitcoin ára a héten 28 millió forint (76 500 dollár) környékére húzódott vissza, messze az áhított 29,5 milliós (80 000 dollár) árfolyamtól...

MA 16:22

Az izraeli digitális sékel megérkezett: stabilcoin a blokkláncon

Izrael első hivatalosan szabályozott stabilcoinja elindult: a Bits of Gold nevű tel-avivi kriptotőzsde két évnyi tesztidőszak után megkapta az engedélyt, így már stabilcoint bocsáthat ki a helyi pénznemhez, a sékelhez kötve...

MA 16:12

Az első 6K-s gamer monitor: forradalom vagy parasztvakítás?

A Samsung bemutatta az Odyssey G8-at (G80HS), amely a világ első 6K-s, 32 hüvelykes gamer monitora, és 1 499 eurós (kb...

MA 16:01

Az MI elveszi a fiatalok munkáját? Egy vezető kiutat mutat

💡 Az utóbbi években rengeteg fiatal, főként a Z generáció tagjai, épp arra ébrednek rá, mennyire semmivé vált az a tudás, amivel az iskolapadból kikerültek...

MA 15:57

Az apró távcső, amelytől ámulnak az égbolt rajongói

👀 A DwarfLab Dwarf Mini igazi újdonságnak számít azoknak, akik egyszerűen, gyorsan és minimális vesződéssel szeretnének égi fotókat készíteni...

MA 15:45

Az OpenAI új mobilja trónfosztja az iPhone-t?

📱 Az OpenAI újabb meglepetéssel készül a techvilágnak: a korábbi pletykákkal ellentétben nemcsak digitális hangrögzítőn, viselhető kiegészítőn vagy okoshangszórón dolgozik, hanem egy saját fejlesztésű mobilchipen is, ami egy teljes OpenAI-mobiltelefon eljövetelét vetítheti előre...

MA 15:34

Az áramhálózatot már robotok irányítják: startol Kína nagy dobása

⚡ A kínai hatóságok idén 8 500 vadonatúj robotot vetnek be az ország energiaellátásának megújítására...

MA 15:24

Az új DJI Mic Mini 2: kis méret, nagy tudás, baráti ár

🔊 A DJI Mic Mini 2 a vezeték nélküli mikrofonok világában friss színt hoz — szó szerint is, hiszen a transmitterein lecserélhető, színes előlapok is elérhetők...

MA 14:45

Az Arc Raidersben gyorsabban törnek a fegyverek, felfordul a PvP

⚡ A legfrissebb Arc Raiders-frissítés alaposan felforgatja a fegyverek kezelését: mostantól fegyvereink sokkal gyorsabban mennek tönkre, ráadásul az értékesebb zsákmányra vadászó játékosokat is a pálya közepére terelik...

MA 14:23

Itt az óvatosság ideje: megtört a bitcoin lendülete, zuhan a piac

A bitcoin megint elakadt a 80 000 dollár (kb. 29,5 millió forint) feletti kitörésnél, és ezzel együtt közel 0,75 százalékos esést szenvedett el, miközben az ether és a piac többi része is hasonló mozgást mutat...

MA 13:35

A nagyvállalatok új aduja: az MI-szuverenitás

🤖 A mesterséges intelligencia fejlődése villámgyors, és a korábbi kísérleti időszakot követően a világ legnagyobb vállalatai stratégiai újratervezésbe kezdtek...

MA 13:23

A világegyetem vége közelebb van, mint hinnéd

Az univerzum sorsa új fordulatot vett: friss kutatások szerint nem trillió éveink vannak hátra, hanem „csak” éppen 33 milliárd évünk van hátra, míg minden önmagába omlik...

MA 13:13

Az új Steam Deck 2 még nem hozza az áttörést

A Valve már több mint négy éve dolgozik a Steam Deck következő generációján, viszont a várva várt új gép bemutatása még mindig nem látható a láthatáron...

MA 13:01

Az ether-vásárlási roham utoléri a Bitcoin nagyágyúit

💸 Senki sem várta volna, hogy az üzleti világ két legnagyobb kriptovásárlója ennyire közel kerüljön egymáshoz...

MA 12:56

Az új visszatekerés: senki nem marad le a 8020-as irányelvről

Külön említést érdemel, hogy a Supermassive Games fejlesztői végre meghallották a rajongók egyik legnagyobb kívánságát: az Irányelv 8020-ban (Directive 8020) bevezetik a játék közbeni visszatekerés lehetőségét...

MA 12:44

A döbbenetes bitcoin-vagyon, amivel Jack Dorsey cége zsonglőrködik

💸 Jack Dorsey, a Twitter egykori vezére által alapított Block igencsak bespájzolt bitcoint: az év első negyedévében 114 új bitcoint vásárolt, amivel a vállalati kasszában már majdnem 9 000 BTC-t, vagyis körülbelül 264 milliárd forintot tart...

MA 12:34

A túlzásba vitt automatizálás megöli az értékesítést

Külön említést érdemel, hogy az értékesítési csapatok ma minden korábbinál nagyobb nyomás alatt állnak...

MA 12:24

Az MI-láz berobban: a Netcompany új korszakot nyit az INEOS Cyclingnél

Az INEOS Cycling öt évre szóló együttműködést kötött a dán Netcompanyval, hogy forradalmasítsák a profi országúti kerékpározást MI-alapú technológiával...

MA 10:37

Az új Logitech G512 X: a gamer billentyűzet, amire vártunk?

A Logitech G512 X bizonyítja, milyen sokat számítanak az okos tervezési megoldások és az innováció a gamer billentyűzetek piacán...

MA 10:29

A mesterséges intelligencia feltámasztja a halott projekteket

Érdekes felvetés, hogy a hosszú hétvégék után az e-mail-fiókunkba belépve rendre találkozunk olyan projektekkel, amelyek sem előre nem haladtak, sem nem törölték őket...

MA 10:22

Jön az újabb japán kamatemelés? Szárnyal a jen, esik a bitcoin

💰 A japán jegybank keddi döntése nyomán egyre erősebbek a várakozások, hogy már júniusban nőhetnek a hitelfelvételi költségek...

MA 10:14

Az Ondo Finance új dimenzióba repíti a tokenizált részvényeket

Az Ondo Finance forradalmasítja a tokenizált részvényeket és ETF-eket azzal, hogy bevezeti a meghatalmazotti szavazás lehetőségét...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/28

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás lehetővé teszi, hogy könnyedén megtudd, hány nap választ el két dátumot egymástól...

MA 08:57

Az MI-keresők rejtett hibái: veszélyben a vállalati rendszerek

⚠ Úgy tűnik, hogy azok a vállalati fejlesztőcsapatok, amelyek gondosan finomhangolják a RAG (Retrieval-Augmented Generation) beágyazó modelljeiket, ezzel jelentősen, akár 40%-kal is ronthatják a visszakeresés pontosságát...

MA 08:50

Az áttörés: Végre repedés nélkül fagyaszthatók a beültethető szervek

A szervátültetés sokáig versenyt futott az idővel: a donorszervek eltarthatósága szűk keresztmetszetet jelent, gyakran csak órákban mérhető...

MA 08:43

Az XRP mélyrepül: az eladók veszik át az irányítást

📉 Tipikus eset, amikor egy régóta várt támaszpont hirtelen enged el: az XRP éppen most esett 3%-ot, erős forgalom mellett 420 forint (1,40 USD) alá szakadt, és ezzel utat nyitott a további lejtmenetnek...