MA 06:30

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2

Itt az új MI-forradalom: megérkezett a multimodális Gemini Embedding 2
A modern vállalatok már nem engedhetik meg maguknak a széttagolt adatkezelést: szövegek, hangfelvételek, képek, videók és dokumentumok együttese folyton szigetekre szakítja az információkat. Most a Google áttört egy lélektani és technológiai korlátot – bemutatta a Gemini Embedding 2 modellt, az első natív, multimodális beágyazásokat kínáló MI‑megoldást, amely véget vet az adathalmazok tördelt világának.

Mit tud egy beágyazási modell?

A beágyazási (embedding) modellek az MI láthatatlan motorjai: a legösszetettebb adatokat – mondatokat, képeket, hangrészleteket – alakítják át hosszú számsorokká, azaz vektorokká. Ezek a számok valójában egy sokdimenziós gondolattér koordinátáit jelentik. Két eltérő típusú adat, például a „kutya” szó és egy golden retriever fotója is egymás mellé kerül, ha jelentésük közeli.

Ma már keresők, ajánlórendszerek (Netflix, Spotify) vagy vállalati asszisztensek (Retrieval‑Augmented Generation – RAG) is ezen alapulnak: a vállalati dokumentumokat, képeket, hangokat így tudja egy MI egyetlen kérdés alapján összekapcsolni.

A szóalapú vektorreprezentáció ötlete az 1950‑es évekre vezethető vissza, ám csak 2013‑ban jött az igazi áttörés – a Google a Word2Vec modellt vezette be, ami új iparági standardot teremtett. Ma ezt a piacot a Google, az OpenAI, az Anthropic és a Cohere uralják.

Miért forradalmi a Gemini Embedding 2?

A legtöbb beágyazási modell eddig szinte kizárólag szöveggel dolgozott. Hiába akartál például videóra keresni, előbb ki kellett vonni belőle a szöveget, majd ezen futott a keresés. A Gemini Embedding 2 viszont alapból multimodális: képes a képeket, hangokat, videókat, dokumentumokat és szöveget közvetlenül, ugyanabban a 3072 dimenziós térben ábrázolni.

Ez azt jelenti, hogy mostantól nincs szükség külön pipeline‑ra a képekhez, videókhoz, szövegekhez. Egy egyszerű kereséssel egy időben találhatsz rá egy meghatározott pillanatra egy videóban, egy képre vagy akár egy hangrészletre. A rendszer egyes kérésekben kevert bemenetekkel is megbirkózik. Így például egy vintage autót ábrázoló fotóval és a „Mi a motor típusa?” kéréssel egyszerre lehet dolgozni, nem kell szétválasztani a médiaformátumokat.

Egy speciális újítás a Matryoshka Representation Learning, amely lehetővé teszi, hogy a vektor leglényegesebb információi már az első néhány számban benne legyenek, így a vállalatok akár a 3072 helyett 768 vagy 1536 dimenziós vektorokat is használhatnak, optimális tárhellyel, csekély pontosságvesztéssel.

Teljesítmény és gyakorlati eredmények

A Gemini Embedding 2 új szintet jelent a multimodális keresésben és leképezésben. Főleg videó‑ és hangalapú keresésben mutatja meg erejét: nem igényel közbeiktatott szöveges átiratokat, így pontosabban tudja összekapcsolni a vizuális és auditív jelentéseket.

A legnagyobb előnyök:
– A szöveg‑kép, szöveg‑videó, szöveg‑hang keresésben stabilan veri az iparági versenytársakat.
– Natív audiófeldolgozásban kiemelkedő, jobban megragadja a kimondott szavak érzelmi és intonációs tartalmát is.
– Hosszú dokumentumok (8192 token) kezelése sem jelent problémát, így egy 6 oldalas PDF‑nek is van értelme.
– A Matryoshka technológiának köszönhetően még lecsökkentett, 768 dimenziós vektorokkal is jobb a teljesítménye, mint sok fix méretű konkurensnek.


Mit jelent ez a vállalati adatbázisokra nézve?

Az eddig megszokott különálló pipeline‑okat egyetlen egységes tudásbázissá olvaszthatod össze. Egy ügyfélprobléma – amiben hangfelvétel, képernyőkép, szerződés PDF és e‑levelezés is előkerülhet – most már egyetlen kereséssel feltérképezhető.

Első felhasználók között a Sparkonomy platform 70%-os késleltetéscsökkenést jelentett: MI‑asszisztensüknek már nem kellett a modellek között „lefordítani” az adatot, hanem rögtön értelmezte a multimodális keresést. Az Everlaw jogi techcég szerint minden eddiginél több „füstölgő fegyver” bizonyíték jött elő, hisz a képek és videók is azonnal kereshetővé váltak.

Korlátok és bemeneti limitációk

Fontos látni: a rendszer nem mindenható. Egyetlen kéréssel maximum 8192 tokennyi szöveget, 6 képet, 128 másodperc videót (2 perc 8 másodperc), 80 másodperc natív hangot (1 perc 20 másodperc), illetve 6 oldalas PDF‑et lehet beadni. Ha például egy 100 oldalas szerződést kell feldolgozni, azt 6 oldalas szeletekre kell vágni, és így kell feltölteni.

Videók és hanganyagok esetén ugyanígy: például egy 10 perces videót nyolc részre kell bontani, és részletekben lehet beágyazni. Ezek tehát nem tárhelyi, csak kérésekkénti korlátok – minden szegmens vektorként ugyanabban az adatbázisban kereshető lesz.

Árazás, licenc, elérhetőség

2026. március 10‑től a Gemini Embedding 2 nyilvános előzetesként érhető el minden fejlesztőnek és cégnek. Elérhető a Google két fő MI‑kapuján keresztül: gyors prototípusokhoz azonnal elindítható, nagyvállalati alkalmazásoknál pedig Google Cloud‑integrációval, fejlett biztonsági és skálázási támogatással működik.

Beépült a főbb MI‑infrastruktúra‑könyvtárakba (LangChain, LlamaIndex, Weaviate stb.), nagyon egyszerűvé téve az átállást meglévő projektekben.

Az árképzés kétlépcsős:
– Az ingyenes szint 60 kérés/perc kapacitással próbaverzióként szolgál azoknak, akik kísérletezni akarnak.
– Termelési (production) használatban minden 1 millió tokennyi szöveg/kép/videó után 90 HUF, hang esetén 180 HUF (mert a nyers hangfeldolgozás dupla erőforrást igényel) számlázódik.

Nagyvállalatoknál a Vertex AI platformon „Pay‑as‑you‑go”, vagyis használatalapú díjazás él, beállítható fix, garantált sávszélességgel, és akár nagy tömbök kötegelt átkódítására is alkalmas.

A Python kódot tartalmazó dokumentáció és példák Apache 2.0 licenc alá esnek, így szabadon módosíthatók, beépíthetők saját rendszerekbe – semmi jogdíj, semmilyen kötelező visszaosztás.

Migrálni vagy nem migrálni?

A döntés az adatosztályvezetőknél és technikai vezetőknél van: ha eddig széttagolt pipeline‑okra, köztes modellekre támaszkodott a szervezet, az átállás stratégiai előnyhöz juttathat. Nincs több „lebutító átírás”, kevesebb ponton csúszik el a jelentés – ezt már a Sparkonomy is tapasztalta.

Az átállás a meglévő ipari szoftverintegrációknak köszönhetően sokszor csak minimális kódmódosítást igényel. Az igazi „költöztetés” abban áll, hogy a régi adatbázist újra kell beágyazni a 3072 dimenziós térbe: ez egyszeri számítási kihívás, de utána valóban keresztmédias keresés, gyorsabb és precízebb találati arány lesz a végeredmény.

A Matryoshka technológiával pedig különböző típusú felhasználásokhoz a pontosság vagy a költség optimalizálható: a kritikus jogi kereséseket maximális pontosággal, a kevésbé fontos ajánlórendszereket kisebb, olcsóbb vektorokkal lehet futtatni.

Összefoglalásként megjegyezhető, hogy aki igazán komplex, sokféle médiát érintő, kereshető tudásbázisra, gyorsabb lekérdezésre és kevesebb veszteségre vágyik, annak a „szöveg‑plusz” világból érdemes a Gemini Embedding 2 multimodális világába migrálni. A költségek gyorsan visszajönnek a pontosabb válaszok és a letisztultabb MI‑architektúra révén – a nagyvállalati informatika most lép a következő korszakba.

2025, adminboss, venturebeat.com alapján

Legfrissebb posztok

MA 07:46

A Grammarly lebukott: az MI a valódi arcodat is lenyúlja?

A Grammarly egy ideje anélkül használja valódi emberek nevét és személyiségét a „Szakértői értékelés” (Expert Review) AI-funkciójához, hogy bármilyen engedélyt kérne tőlük...

MA 07:37

A MediaTek újabb botránya: percek alatt feltörhetők a telefonok

Nehéz elhinni, de néhány kattintással, mindössze 45 másodperc alatt sikerült egy kutatócsoportnak hozzáférnie egy Nothing CMF Phone 1 védett adataihoz...

MA 07:28

Az öregedő bélbaktériumok rombolják a memóriát – egerekben bizonyított

Egy lényeges szempont, hogy az agy öregedése nem mindenkire hat ugyanúgy: egyesek idősen is kiválóan tartják a memóriájukat, míg mások gyorsabban hanyatlanak...

MA 07:19

Az új Grammarly-botrány miatt forrnak az indulatok az írók között

A Grammarly nemrég kiadott egy új funkciót, amely generatív MI segítségével adott visszajelzést a felhasználók szövegeire, és azokat ismert írók vagy tudósok nevéhez kötötte...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/12

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Bank – A Dice Game (iPhone/iPad)A Bank lendületes, fordulatos kockajáték, amelyben stratégia, merészség és szerencse összefonódik...

MA 07:11

Az elpusztíthatatlan baktérium, amely az űrben is túlél

Erre utal többek között, hogy egy különleges baktériumfaj, a Deinococcus radiodurans, elképesztő strapabíróságot mutatott egy újszerű, laborban végzett kísérlet során...

MA 07:02

Az FCC elnöke kiosztotta az Amazont a SpaceX miatt

Az űriparban megszokott, hogy a nagyvállalatok folyamatosan vitatkoznak a műholdrendszerek miatt...

MA 06:55

A Bitcoin leveri az aranyat és a részvényeket is

💸 A legnagyobb kriptovaluta árfolyama stabilan 25,5 millió forint (70 000 dollár) körül tartózkodik, miközben az amerikai részvénypiacok és az arany csak szerény mértékben emelkednek...

MA 06:46

Az orosz forradalom aranya: félmilliós kincs rejtőzik a pincében

Egy 100 éves aranykincsre bukkantak egy történelmi orosz ház alapjainak feltárásakor, Torzhok városában, Szentpétervártól 420 kilométerre délkeletre...

MA 06:37

A jövő Tokióban startol: a Nuro önvezető autókat tesztel

🚗 Az amerikai Nuro vállalat önvezető autótechnológiáját már Tokió zsúfolt utcáin is tesztelik...

MA 06:20

Az Apple-nél készül a Ködszerzet-film, ahogy Sanderson megálmodta

🎥 Brandon Sanderson nagy fába vágja a fejszéjét: az Apple-lel kötött megállapodásnak köszönhetően végre megvalósulhat régóta dédelgetett terve, hogy filmre viszi híres Cosmere-univerzumát...

MA 06:06

Történelmi események a mai napon (Március 12.)

Viharos, fordulópontos nap a történelemben: Gandhi elindítja a Salt March (Sós menet) felvonulást, Németország bekebelezi Ausztriát, az USA kihirdeti a Truman-doktrínát, Finnország békét köt a Szovjetunióval, a WHO pedig globális figyelmeztetést ad ki a SARS-járványról...

szerda 18:03

A VPN-árak piszkos titkai: ne dőlj be a trükköknek!

A VPN-előfizetések világa elsőre káprázatosnak tűnhet, elképesztő, akár 80%-os kedvezményekkel csalogatva az érdeklődőket...

szerda 17:59

Az MI forradalmasítja a Photoshopot: 5 kötelező eszköz

Érdemes megérteni, hogy a Photoshop már nemcsak a profik titkos fegyvere: az MI-eszközök jelentősen leegyszerűsítik a képszerkesztést, és olyan lehetőségeket nyitnak meg, amelyek eddig csak hosszadalmas kézi munkával voltak elérhetők...

szerda 17:39

Az óriás Google bekebelezte a felhőbiztonság új sztárját, a Wizet

🚀 Hatalmas dobás: a Google rekordösszegért, 11,8 billió forintért (32 milliárd dollárért) felvásárolta az izraeli Wiz nevű, villámgyorsan növekvő felhőbiztonsági vállalkozást...

szerda 17:20

A Lucid Gravity végre utoléri azt, amit ma már minden autó tud

🚗 Kissé ciki volt, de most helyrehozták: a Lucid Motors csütörtöktől végre kiad egy frissítést a Gravity SUV-hoz Észak-Amerikában, aminek köszönhetően már működik benne az Apple CarPlay és az Android Auto is...

szerda 16:58

A Kilauea újra tombol: Hawaii forróbb, mint valaha

🔥 Ó, édes Nagy-sziget (Big Island), te sosem spórolsz a drámával! Most épp a Kilauea vulkán eresztett el minden poklot: kilenc órán át nagyjából 4 millió köbméter (mintegy 16 millió köbyard) lávát lőtt ki, akár 400 méter magasra (1300 láb) – na tessék, ennyit arról, hogy csak földrengésekkel lehet villantani...

szerda 16:22

Itt az Intel Core Ultra 250K és 270K Plus: végre igazi gyorsulás?

⚡ Idén az Intel Arrow Lake processzorai kapják a főszerepet az asztali gépek piacán, mivel az új Panther Lake csak hordozható gépekbe kerül...

szerda 14:01

Az új Meta-trükkökkel így véded meg magad Facebookon, Messengeren, WhatsAppon

Az élet egyre digitálisabb, de a csalók is ezzel tartanak – szerencsére a Meta most felrázta magát, és új funkciókkal száll szembe a sumákolókkal...

szerda 13:58

A TSA leállt: óriási sorok és káosz a reptereken

🚡 Aki mostanában repülni készül az Egyesült Államokban, annak komoly várakozási időkkel kell számolnia a reptereken, mert részlegesen leállt a kormányzati működés...

szerda 13:40

Az Amazon robotaxijai ellepik Las Vegast: szövetségben az Uberrel

Tipikus eset, amikor két óriás összefog, hogy átrajzolják a városi közlekedés jövőjét: az Amazon tulajdonában álló Zoox és az Uber többéves megállapodást kötött, amelynek köszönhetően idén nyáron Las Vegasban, 2025-ben pedig Los Angelesben robotaxik lepik el az utakat...

szerda 13:20

Az Északi-tenger mélyén egy ősi aszteroida szökőárt szabadított el

🌊 Az Északi-tenger feneke alatt, 700 méter mélységben, Yorkshire partjaitól mintegy 130 km-re egy rejtett, három kilométer széles kráter található, amelynek eredete több mint húsz éve komoly tudományos vitákat váltott ki...

szerda 11:59

Az MI-hangok egyszerre keltenek gyanút és ámulatot

Egy lényeges szempont, hogy az emberek bizalmatlanokká válnak az MI-hangokkal szemben abban a pillanatban, amikor felismerik, hogy nem egy valódi ember beszél...

szerda 11:40

Az első kínai holdraszállás célpontja végre eldőlt?

A nemzetközi űrverseny egyre izgalmasabbá válik, hiszen Kína és az Egyesült Államok versengve készülnek arra, hogy először embereket juttassanak vissza a Holdra...

szerda 10:55

A YouTube új reklámözöne a tévén: ezt ki bírja?

Na most komolyan, a YouTube a tévéken annyira rákapcsolt az idegölő reklámokra, hogy már tényleg csak a popcorn hiányzik a szenvedés mellé...

szerda 10:28

A Starlinknek álcázva támad Androidon az új BeatBanker

Érdemes megvizsgálni, hogy egyre kifinomultabb módszerekkel támadják az okostelefonokat: most egy olyan androidos kártevő tűnt fel, amely Starlink-alkalmazásnak álcázza magát, miközben valójában a BeatBanker nevű csaló program rejtőzik mögötte...

szerda 09:55

Az Amazon egészségügyi mesterséges intelligenciája mostantól bárkinek elérhető

Az Amazon bővíti egészségügyi MI-asszisztense, a Health AI elérhetőségét: mostantól nemcsak a One Medical alkalmazásban, hanem közvetlenül az Amazon weboldalán és alkalmazásában is hozzáférhető...

szerda 09:37

Az MI forradalmasítja a Ford flottáinak irányítását

🚗 A Ford új lendületet ad a céges járműparkok irányításának: a Ford Pro AI névre hallgató, mesterséges intelligenciát használó szolgáltatás mostantól a Ford Pro telematikai szoftverébe épül be...

szerda 09:28

Az első gyerekeknek szánt E. coli-vakcina áttörést hoz

💉 Jellemző példa erre, hogy a világ egyik legveszélyesebb gyermekkori bélfertőzése ellen most először született hatékony védelem: a skandináv fejlesztésű ETVAX vakcina áttörő eredményeket mutat a halálos bélbaktérium, az enterotoxigén E...