2026. 03. 12., 06:30

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2
A modern vállalatok már nem engedhetik meg maguknak a széttagolt adatkezelést: szövegek, hangfelvételek, képek, videók és dokumentumok együttese folyton szigetekre szakítja az információkat. Most a Google áttört egy lélektani és technológiai korlátot – bemutatta a Gemini Embedding 2 modellt, az első natív, multimodális beágyazásokat kínáló MI‑megoldást, amely véget vet az adathalmazok tördelt világának.

Mit tud egy beágyazási modell?

A beágyazási (embedding) modellek az MI láthatatlan motorjai: a legösszetettebb adatokat – mondatokat, képeket, hangrészleteket – alakítják át hosszú számsorokká, azaz vektorokká. Ezek a számok valójában egy sokdimenziós gondolattér koordinátáit jelentik. Két eltérő típusú adat, például a „kutya” szó és egy golden retriever fotója is egymás mellé kerül, ha jelentésük közeli.

Ma már keresők, ajánlórendszerek (Netflix, Spotify) vagy vállalati asszisztensek (Retrieval‑Augmented Generation – RAG) is ezen alapulnak: a vállalati dokumentumokat, képeket, hangokat így tudja egy MI egyetlen kérdés alapján összekapcsolni.

A szóalapú vektorreprezentáció ötlete az 1950‑es évekre vezethető vissza, ám csak 2013‑ban jött az igazi áttörés – a Google a Word2Vec modellt vezette be, ami új iparági standardot teremtett. Ma ezt a piacot a Google, az OpenAI, az Anthropic és a Cohere uralják.

Miért forradalmi a Gemini Embedding 2?

A legtöbb beágyazási modell eddig szinte kizárólag szöveggel dolgozott. Hiába akartál például videóra keresni, előbb ki kellett vonni belőle a szöveget, majd ezen futott a keresés. A Gemini Embedding 2 viszont alapból multimodális: képes a képeket, hangokat, videókat, dokumentumokat és szöveget közvetlenül, ugyanabban a 3072 dimenziós térben ábrázolni.

Ez azt jelenti, hogy mostantól nincs szükség külön pipeline‑ra a képekhez, videókhoz, szövegekhez. Egy egyszerű kereséssel egy időben találhatsz rá egy meghatározott pillanatra egy videóban, egy képre vagy akár egy hangrészletre. A rendszer egyes kérésekben kevert bemenetekkel is megbirkózik. Így például egy vintage autót ábrázoló fotóval és a „Mi a motor típusa?” kéréssel egyszerre lehet dolgozni, nem kell szétválasztani a médiaformátumokat.

Egy speciális újítás a Matryoshka Representation Learning, amely lehetővé teszi, hogy a vektor leglényegesebb információi már az első néhány számban benne legyenek, így a vállalatok akár a 3072 helyett 768 vagy 1536 dimenziós vektorokat is használhatnak, optimális tárhellyel, csekély pontosságvesztéssel.

Teljesítmény és gyakorlati eredmények

A Gemini Embedding 2 új szintet jelent a multimodális keresésben és leképezésben. Főleg videó‑ és hangalapú keresésben mutatja meg erejét: nem igényel közbeiktatott szöveges átiratokat, így pontosabban tudja összekapcsolni a vizuális és auditív jelentéseket.

A legnagyobb előnyök:
– A szöveg‑kép, szöveg‑videó, szöveg‑hang keresésben stabilan veri az iparági versenytársakat.
– Natív audiófeldolgozásban kiemelkedő, jobban megragadja a kimondott szavak érzelmi és intonációs tartalmát is.
– Hosszú dokumentumok (8192 token) kezelése sem jelent problémát, így egy 6 oldalas PDF‑nek is van értelme.
– A Matryoshka technológiának köszönhetően még lecsökkentett, 768 dimenziós vektorokkal is jobb a teljesítménye, mint sok fix méretű konkurensnek.


Mit jelent ez a vállalati adatbázisokra nézve?

Az eddig megszokott különálló pipeline‑okat egyetlen egységes tudásbázissá olvaszthatod össze. Egy ügyfélprobléma – amiben hangfelvétel, képernyőkép, szerződés PDF és e‑levelezés is előkerülhet – most már egyetlen kereséssel feltérképezhető.

Első felhasználók között a Sparkonomy platform 70%-os késleltetéscsökkenést jelentett: MI‑asszisztensüknek már nem kellett a modellek között „lefordítani” az adatot, hanem rögtön értelmezte a multimodális keresést. Az Everlaw jogi techcég szerint minden eddiginél több „füstölgő fegyver” bizonyíték jött elő, hisz a képek és videók is azonnal kereshetővé váltak.

Korlátok és bemeneti limitációk

Fontos látni: a rendszer nem mindenható. Egyetlen kéréssel maximum 8192 tokennyi szöveget, 6 képet, 128 másodperc videót (2 perc 8 másodperc), 80 másodperc natív hangot (1 perc 20 másodperc), illetve 6 oldalas PDF‑et lehet beadni. Ha például egy 100 oldalas szerződést kell feldolgozni, azt 6 oldalas szeletekre kell vágni, és így kell feltölteni.

Videók és hanganyagok esetén ugyanígy: például egy 10 perces videót nyolc részre kell bontani, és részletekben lehet beágyazni. Ezek tehát nem tárhelyi, csak kérésekkénti korlátok – minden szegmens vektorként ugyanabban az adatbázisban kereshető lesz.

Árazás, licenc, elérhetőség

2026. március 10‑től a Gemini Embedding 2 nyilvános előzetesként érhető el minden fejlesztőnek és cégnek. Elérhető a Google két fő MI‑kapuján keresztül: gyors prototípusokhoz azonnal elindítható, nagyvállalati alkalmazásoknál pedig Google Cloud‑integrációval, fejlett biztonsági és skálázási támogatással működik.

Beépült a főbb MI‑infrastruktúra‑könyvtárakba (LangChain, LlamaIndex, Weaviate stb.), nagyon egyszerűvé téve az átállást meglévő projektekben.

Az árképzés kétlépcsős:
– Az ingyenes szint 60 kérés/perc kapacitással próbaverzióként szolgál azoknak, akik kísérletezni akarnak.
– Termelési (production) használatban minden 1 millió tokennyi szöveg/kép/videó után 90 HUF, hang esetén 180 HUF (mert a nyers hangfeldolgozás dupla erőforrást igényel) számlázódik.

Nagyvállalatoknál a Vertex AI platformon „Pay‑as‑you‑go”, vagyis használatalapú díjazás él, beállítható fix, garantált sávszélességgel, és akár nagy tömbök kötegelt átkódítására is alkalmas.

A Python kódot tartalmazó dokumentáció és példák Apache 2.0 licenc alá esnek, így szabadon módosíthatók, beépíthetők saját rendszerekbe – semmi jogdíj, semmilyen kötelező visszaosztás.

Migrálni vagy nem migrálni?

A döntés az adatosztályvezetőknél és technikai vezetőknél van: ha eddig széttagolt pipeline‑okra, köztes modellekre támaszkodott a szervezet, az átállás stratégiai előnyhöz juttathat. Nincs több „lebutító átírás”, kevesebb ponton csúszik el a jelentés – ezt már a Sparkonomy is tapasztalta.

Az átállás a meglévő ipari szoftverintegrációknak köszönhetően sokszor csak minimális kódmódosítást igényel. Az igazi „költöztetés” abban áll, hogy a régi adatbázist újra kell beágyazni a 3072 dimenziós térbe: ez egyszeri számítási kihívás, de utána valóban keresztmédias keresés, gyorsabb és precízebb találati arány lesz a végeredmény.

A Matryoshka technológiával pedig különböző típusú felhasználásokhoz a pontosság vagy a költség optimalizálható: a kritikus jogi kereséseket maximális pontosággal, a kevésbé fontos ajánlórendszereket kisebb, olcsóbb vektorokkal lehet futtatni.

Összefoglalásként megjegyezhető, hogy aki igazán komplex, sokféle médiát érintő, kereshető tudásbázisra, gyorsabb lekérdezésre és kevesebb veszteségre vágyik, annak a „szöveg‑plusz” világból érdemes a Gemini Embedding 2 multimodális világába migrálni. A költségek gyorsan visszajönnek a pontosabb válaszok és a letisztultabb MI‑architektúra révén – a nagyvállalati informatika most lép a következő korszakba.

2025, adminboss, venturebeat.com alapján

Legfrissebb posztok

MA 14:45

Az Arc Raidersben gyorsabban törnek a fegyverek, felfordul a PvP

⚡ A legfrissebb Arc Raiders-frissítés alaposan felforgatja a fegyverek kezelését: mostantól fegyvereink sokkal gyorsabban mennek tönkre, ráadásul az értékesebb zsákmányra vadászó játékosokat is a pálya közepére terelik...

MA 14:23

Itt az óvatosság ideje: megtört a bitcoin lendülete, zuhan a piac

A bitcoin megint elakadt a 80 000 dollár (kb. 29,5 millió forint) feletti kitörésnél, és ezzel együtt közel 0,75 százalékos esést szenvedett el, miközben az ether és a piac többi része is hasonló mozgást mutat...

MA 13:35

A nagyvállalatok új aduja: az MI-szuverenitás

🤖 A mesterséges intelligencia fejlődése villámgyors, és a korábbi kísérleti időszakot követően a világ legnagyobb vállalatai stratégiai újratervezésbe kezdtek...

MA 13:23

A világegyetem vége közelebb van, mint hinnéd

Az univerzum sorsa új fordulatot vett: friss kutatások szerint nem trillió éveink vannak hátra, hanem „csak” éppen 33 milliárd évünk van hátra, míg minden önmagába omlik...

MA 13:13

Az új Steam Deck 2 még nem hozza az áttörést

A Valve már több mint négy éve dolgozik a Steam Deck következő generációján, viszont a várva várt új gép bemutatása még mindig nem látható a láthatáron...

MA 13:01

Az ether-vásárlási roham utoléri a Bitcoin nagyágyúit

💸 Senki sem várta volna, hogy az üzleti világ két legnagyobb kriptovásárlója ennyire közel kerüljön egymáshoz...

MA 12:56

Az új visszatekerés: senki nem marad le a 8020-as irányelvről

Külön említést érdemel, hogy a Supermassive Games fejlesztői végre meghallották a rajongók egyik legnagyobb kívánságát: az Irányelv 8020-ban (Directive 8020) bevezetik a játék közbeni visszatekerés lehetőségét...

MA 12:44

A döbbenetes bitcoin-vagyon, amivel Jack Dorsey cége zsonglőrködik

💸 Jack Dorsey, a Twitter egykori vezére által alapított Block igencsak bespájzolt bitcoint: az év első negyedévében 114 új bitcoint vásárolt, amivel a vállalati kasszában már majdnem 9 000 BTC-t, vagyis körülbelül 264 milliárd forintot tart...

MA 12:34

A túlzásba vitt automatizálás megöli az értékesítést

Külön említést érdemel, hogy az értékesítési csapatok ma minden korábbinál nagyobb nyomás alatt állnak...

MA 12:24

Az MI-láz berobban: a Netcompany új korszakot nyit az INEOS Cyclingnél

Az INEOS Cycling öt évre szóló együttműködést kötött a dán Netcompanyval, hogy forradalmasítsák a profi országúti kerékpározást MI-alapú technológiával...

MA 10:37

Az új Logitech G512 X: a gamer billentyűzet, amire vártunk?

A Logitech G512 X bizonyítja, milyen sokat számítanak az okos tervezési megoldások és az innováció a gamer billentyűzetek piacán...

MA 10:29

A mesterséges intelligencia feltámasztja a halott projekteket

Érdekes felvetés, hogy a hosszú hétvégék után az e-mail-fiókunkba belépve rendre találkozunk olyan projektekkel, amelyek sem előre nem haladtak, sem nem törölték őket...

MA 10:22

Jön az újabb japán kamatemelés? Szárnyal a jen, esik a bitcoin

💰 A japán jegybank keddi döntése nyomán egyre erősebbek a várakozások, hogy már júniusban nőhetnek a hitelfelvételi költségek...

MA 10:14

Az Ondo Finance új dimenzióba repíti a tokenizált részvényeket

Az Ondo Finance forradalmasítja a tokenizált részvényeket és ETF-eket azzal, hogy bevezeti a meghatalmazotti szavazás lehetőségét...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/28

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás lehetővé teszi, hogy könnyedén megtudd, hány nap választ el két dátumot egymástól...

MA 08:57

Az MI-keresők rejtett hibái: veszélyben a vállalati rendszerek

⚠ Úgy tűnik, hogy azok a vállalati fejlesztőcsapatok, amelyek gondosan finomhangolják a RAG (Retrieval-Augmented Generation) beágyazó modelljeiket, ezzel jelentősen, akár 40%-kal is ronthatják a visszakeresés pontosságát...

MA 08:50

Az áttörés: Végre repedés nélkül fagyaszthatók a beültethető szervek

A szervátültetés sokáig versenyt futott az idővel: a donorszervek eltarthatósága szűk keresztmetszetet jelent, gyakran csak órákban mérhető...

MA 08:43

Az XRP mélyrepül: az eladók veszik át az irányítást

📉 Tipikus eset, amikor egy régóta várt támaszpont hirtelen enged el: az XRP éppen most esett 3%-ot, erős forgalom mellett 420 forint (1,40 USD) alá szakadt, és ezzel utat nyitott a további lejtmenetnek...

MA 08:36

A drága olaj és az MI fékezi a bitcoint, a Fed tétlen

📈 Kissé leült a bitcoin: 3 százalékos mínuszban, 28,6 millió forint környékén ingadozik, miközben a befektetők kivárnak a sűrű amerikai makrogazdasági hét előtt...

MA 08:29

Az olajár száguld, a kriptók mélyrepülésben

Kedd reggelre jelentős esést produkált a kriptopiac: a Bitcoin értéke 76 923 dollárra (kb...

MA 08:22

Az amerikai Bitcoin-őrület véget ér?

💸 A Bitcoin gyors és látványos emelkedése után megállt a lendület, a kriptovaluta árfolyama pedig egyre több gyengeségre utaló jelet mutat...

MA 08:15

A két kilométer mélyen rejtőző aranygömb meglepő titka

🪙 Több mint két kilométer mélységben találtak rá a titokzatos arany gömbre az Alaszkai-öbölben, ami éveken át lázban tartotta a tudósokat és a laikusokat egyaránt...

MA 08:01

Az automatizált iPaaS forradalmasítja az ellátási láncokat

⚡ Az ellátási láncokban a hagyományos integrációs modellek már nem bírják a terhelést...

MA 07:56

A MARA Alapítvány harcba száll a Bitcoin jövőjéért

💸 Megemlíthető, hogy Las Vegasban, a Bitcoin Conference rendezvényén Fred Thiel, a MARA Holdings vezérigazgatója bejelentette a MARA Foundation megalapítását, amelynek célja a Bitcoin-hálózat hosszú távú biztonságának és alkalmazkodóképességének garantálása...

MA 07:49

Az elfojtott stressz alattomosan kikezdi az emlékezetet

🤯 Az idősebb kínai amerikaiak körében végzett kutatás szerint azok a stresszfajták, amelyeket az emberek magukba fojtanak, jelentősen növelhetik a memóriazavar kialakulásának esélyét...

MA 07:43

Az egyetemisták kozmikus rádióval űzik a sötét anyagot

📺 Érdemes megérteni, hogy egyetemi hallgatók is képesek lehetnek valódi áttöréseket elérni a modern fizika legnagyobb rejtélyei között számon tartott sötét anyag keresésében – méghozzá óriási nemzetközi projektek, hatalmas pénzekkel támogatott laboratóriumai nélkül is...

MA 07:37

A megfizethető MI forradalma: a Xiaomi MiMo V2.5 tarol

🚀 A Xiaomi neve eddig leginkább okostelefonjaival és elektromos autóival fonódott össze, de most a kínai vállalat olyan nyílt forráskódú, nagy teljesítményű nyelvi MI-modellekkel rukkolt elő, amelyek hatékonyságukkal és árukkal is felforgatják a piacot...

MA 07:29

Az apró emlős, amely túlélte a dínóvészt – ma ő az úr

🐮 Mintegy 66 millió évvel ezelőtt egy katasztrofális esemény eltörölte a Föld élővilágának háromnegyedét, köztük a dinoszauruszokat is...

MA 07:22

Az MI áttörése: Jön az olcsóbb otthoni fűtés?

Érdekes felvetés, hogy a japán kutatók újfajta MI-eszköze néhány másodperc alatt képes ultrahatékony hőelektromos generátorokat tervezni...