2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 21:56

Az Apple végleg elkaszálta a méregdrága Mac Prót

🗑 Tizenöt év után az Apple hivatalosan leállította a torony kivitelű Mac Pro gyártását, egyúttal bejelentette, hogy utódmodellre egyelőre nem lehet számítani...

MA 21:45

Az első MI-cikk átcsúszott a rostán: kitört a pánik

😱 Egy tudományos mérföldkőhöz érkeztünk: először sikerült egy kizárólag MI által írt tudományos publikációnak átjutnia az emberi szakmai ellenőrzésen...

MA 21:34

Az apró mágneses örvények forradalma: új korszak az adattárolásban

📡 Ebből következően érdemes megérteni, hogy az eddig alig érzékelhető mágneses hullámokban rejlő lehetőség teljesen új távlatokat nyithat a számítástechnika és a kvantuminformatika összekapcsolásában...

MA 21:12

A PS5 megint drágul: a Sony nem kíméli a pénztárcákat

💸 Különösen igaz ez akkor, ha valaki épp most szeretne beszerezni egy PlayStation 5-öt...

MA 20:45

Az internet hemzseg a kiszivárgott kulcsoktól – bankok is érintettek

🔑 Több tízmillió oldal átfésülése után döbbenetes eredményre jutottak a biztonsági kutatók: közel 2000 érvényes, alkalmazásokhoz használt API-kulcsot, vagyis gyakorlatilag bejárati kulcsokat találtak szabadon elérhetően az interneten, amelyekből egyesek nagyvállalatokhoz, kritikus infrastruktúrákhoz és kormányzati szervekhez tartoztak...

MA 20:34

Az álhírek tüzében a VS Code: veszélyben a GitHub-fejlesztők?

💥 A GitHubot elárasztotta egy nagyszabású átverés, amely során fejlesztők ezreit célozzák hamis Visual Studio Code (VS Code) biztonsági figyelmeztetésekkel...

MA 20:23

Veszélyben a felhasználók: súlyos hiba egy toplistás MI-bővítményben

⚠ A Claude Chrome-bővítmény nemrégiben súlyos hibát tartalmazott, amely lehetővé tette a hackerek számára, hogy mindenféle felhasználói beavatkozás nélkül átvegyék az irányítást a böngésző felett...

MA 20:12

Az új pénzügyi igazgatód: mesterséges intelligencia?

🤖 Alex Balazs több mint húsz éve dolgozik az Intuitnál, kezdve mérnökként a QuickBooks Online első verzióin, amikor az volt a fő kérdés, hogy a pénzügyi folyamatokat hogyan lehet áthelyezni az internetre...

MA 20:02

A VPN-ek titka: a joghatóságon áll vagy bukik a magánszféra

Külön említést érdemel, hogy a VPN-ek világában nemcsak a sebesség, a szerverek száma vagy a felhasználóbarát kezelőfelület számít...

MA 19:56

Az Androidon újra itt az egyérintéses Wi‑Fi kapcsoló

Az Android 17 Beta 3 végre elhozza azt a könnyítést, amire sokan vágytak: ismét elég egyetlen érintés a Wi-Fi ki- vagy bekapcsolásához a Gyorsbeállítások panelen...

MA 19:45

Az újabb pofátlan PS5-drágulás: meddig bírja a pénztárcád?

💸 A PlayStation 5 ára ismét az egekbe szökik, és most nem finomkodik a Sony: 20–30%-kal többet kell kiadni, mint néhány hónapja...

MA 19:34

A Netflix újabb áremelése a Verizon-ügyfeleket is sújtja

💸 Erre utal többek között az, hogy a Verizon előfizetői újabb áremeléssel szembesülnek: a Netflix és az HBO Max (reklámos) csomagért eddig kedvezményes árat fizettek, de ennek most vége...

MA 18:02

Az univerzum titkos múltja: az apró fekete lyukak hajnala?

💫 A fekete lyukak világa egészen lenyűgöző. Nemcsak a téridőt képesek meghajlítani, de elképesztő sebességgel forognak, és mindent magukba szívnak, ami a közelükbe kerül...

MA 17:34

Az első üstökös, amely megfordította forgásirányát: a NASA megfigyelte

2017-ben a NASA Hubble űrtávcsöve egy igencsak különös üstökössel találkozott, amikor megközelítette a Napot...

MA 17:23

A bélrendszer titkos szövetségesei: baktériumok, amelyek átprogramozzák az immunrendszeredet

A bélrendszerben élő baktériumok nem csupán ártalmatlan utasok: képesek fehérjéket közvetlenül az emberi sejtekbe juttatni...

MA 17:12

Az Európai Bizottság megint ég: Amazon-felhőből loptak, zsarolás egyelőre nincs

💧 Nem hiszem el, de újabb felhőalapú lebőgés rázta meg az Európai Bizottságot: egy hackercsapat simán hozzáfért az EU-s tisztviselők Amazon-felhőjéhez, és közben 350 GB-nyi adatot szippantott le több adatbázisból...

MA 17:02

Az MI-csoda megbukott: a Grok tiltja a meztelenképeket

Elon Musk MI-fejlesztő cége, az xAI komoly jogi pofont kapott Hollandiában...

MA 16:56

A mobilodon többé semmi sem titok Hongkongban

📱 Hongkong új nemzetbiztonsági szabályai alapjaiban forgatják fel az adatvédelem eddigi rendjét...

MA 16:46

A bíróság szerint jogszerű az X elleni hirdetői bojkott – pórul járt Musk

🛑 Elon Musk legújabb perében igyekezett bizonyítani, hogy az X-et (korábbi nevén Twitter) elhagyó hirdetők versenyjogot sértettek közös fellépésükkel...

MA 16:34

A PlayStation most aranyárban van: ki fizet ennyit érte?

Hihetetlen, de a PlayStation-konzolok ára újabb őrült szintre lép jövő héten, úgyhogy ha most akarsz PlayStation-t venni, kapd össze magad!..

MA 16:24

A tavaszi utazásodhoz melyik power bank a nyerő?

🛫 Felmerül a kérdés, hogy a mai okoseszközökkel telepakolt táskákban hogyan lehet minden eszközt folyamatosan működésben tartani egy hosszú túra, városnézés vagy akár egy fesztivál alatt...

MA 14:01

Az új iOS gyorsan meríti az iPhone-t? Nyugi, normális!

Kiugrott az új iOS 26.4 március 24-én, hozott magával egy rakás izgalmat: végre saját videós podcastok pörögnek az Apple Podcastsban, némi hibajavítás is becsúszott, meg persze még pár apróság...

MA 13:56

Az Anthropic szigorít: csúcsidőben drágul az MI-csevegés

⚠ Az Anthropic szerdán váratlan fordulattal módosította a Claude nevű MI-szolgáltatás időalapú felhasználási korlátait...

MA 13:45

Az új Langflow-sebezhetőségre már rárepültek a hackerek

A Langflow-keretrendszer egy súlyos sebezhetőség miatt került veszélybe, amelyet a hackerek már aktívan ki is használnak...

MA 13:34

A kisbefektetők pánikban szórják a bitcoint, a nagyok kivárnak

A bitcoin megint zuhan, most épp 24,5 millió forint alá esett egy darabja, és ahogy ez lenni szokott, előkerül a pánikgomb: akik 10 bitcoint (vagyis nagyjából 245 millió forintnyit) tartanak vagy annál kevesebbet, szó szerint menekítik a vagyonukat...

MA 13:23

A legjobb gamepadok egyike most fillérekért elvihető

🎮 Egy lényeges szempont, hogy a hardverhiány miatti áremelkedés főként a belső alkatrészekre volt jellemző, de a perifériák ára nagyrészt stabil maradt...

MA 12:01

A pumpamentes átfolyós akkumulátor: tényleg ez a jövő?

Most őszintén, észrevetted már, hogy a legtöbb flow battery (átfolyós akkumulátor) bonyolult pumpákkal van telepakolva?..

MA 11:44

A nagy blama: milliárdok menekülnek a bitcoin ETF-ekből

💸 Csütörtökön nagyot rándult a piac: a befektetők egyetlen nap alatt 62 milliárd forint értékű – azaz 171 millió dollárnyi – tőkét vontak ki az amerikai bitcoin ETF-ekből...

MA 11:11

Lezárul egy korszak: az Apple kivezeti a Mac Pro-t

Szevasz, Mac Pro, hello, régi idők! Az Apple minden megmaradt Mac Pro-rajongónak most azt üzeni: köszi, ennyi volt...