2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 10:19

Az igazi cowboy-farmerek, amiket a Yellowstone kedvencei viselnek

Hódítanak a western trendek, és a Sárga-kő (Yellowstone) sorozat karaktereinek stílusa ma is irányt mutat a farmerek világában...

MA 10:01

Az MI-spektrométerchip, amely homokszemmé zsugorítja a labort

🧩 A sokáig laboratóriumi monstrumokhoz kötött spektrométerek most egy szilíciumchipen miniatűr formában jelennek meg...

MA 09:46

Az új kutatások megkérdőjelezik a B12 és a rák kapcsolatát

🧠 Sokan úgy gondolják, hogy elég, ha elegendő vitamint fogyasztanak, és ezzel megtették a szükséges lépéseket az egészségükért...

MA 09:37

Az aranykeresztet lesik a kereskedők: billeg a bitcoin, esik a ZEC

Fontos kérdés, meddig tart még a bitcoin gyengélkedése, amikor a világ részvénypiacai szinte naponta döntögetik a rekordokat...

MA 09:28

A Corsair Pro az AI-munkaállomások és szerverek trónkövetelője

💻 Rendkívül éles a verseny az MI-hez kapcsolódó szerverek és munkaállomások piacán, hiszen egyre több vállalat szeretné kiszolgálni az MI-műhelyek és cégek igényeit...

MA 09:19

A Grace klinika sztárja titokban megnősült: Jesse Williamséknél úton a baba

👶 Alejandra Onieva a napokban diszkréten mutatta meg gömbölyödő pocakját az Instagramon, ahol több képet is megosztott magáról és férjéről, Jesse Williamsről...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/27

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     War Mongrels (iPhone/iPad)A War Mongrels egy izometrikus nézetű, valós idejű taktikai videojáték, amely a második világháború keleti frontján játszódik...

MA 09:10

Az arany átvette a vezetést: megtört a Bitcoin háromhónapos ralija

🥇 Ez a jelenség jól illusztrálható azzal, hogy a Bitcoin három hónapos, aranyhoz viszonyított szárnyalása véget ért...

MA 08:55

Az egyszerű orrspray, amely visszafordítja az agy öregedését

Az amerikai Texas A&M Egyetem kutatói meglepő fordulatot hoztak az agyi öregedés lassításának kérdésében...

MA 08:47

A pénzügyi szolgáltatókat letaroló támadás visszaállítja az MFA-t, tokent lop

🔐 A finanszírozási szektorban dolgozóknak napjainkban már nemcsak a jelszólopás miatt kell aggódniuk – a támadók egy új, kifejezetten hatékony módszerrel szerzik meg a hozzáféréseket: a multifaktoros hitelesítés (MFA) megkerülésével...

MA 08:36

Az XRP 1,32 dollárnál egyensúlyoz: szűkül a sáv, lesz kitörés?

Az XRP továbbra sem képes kitörni az egyre szűkülő sávjából, miután újabb próbálkozás után is elbukott az 1,36 dolláros (480 HUF) szintnél...

MA 08:28

A felturbózott K-vitamin beindíthatja az agy öngyógyítását

Japán kutatók olyan forradalmi vitamin K-alapú vegyületeket hoztak létre, amelyek segíthetnek az agy sérült idegsejtjeinek regenerálásában, sőt, idővel akár az Alzheimer- és Parkinson-kór kezelését is megváltoztathatják...

MA 08:02

A meteoritcsapás aranyfénybe vonta Ghána Lelkek Tavát

🌑 Ghána szívében található a Bosumtwi-tó, amelynek eredete egy ősi, gigászi becsapódásig nyúlik vissza...

MA 07:47

A halálos ütközés előtt: „Rövid az élet” – üzent Dominic Russo

🚘 Fiatal szerelem, heves érzelmek és végzetes döntés – mindez egy tragikus balesetben csúcsosodott ki az Egyesült Államokban...

MA 07:37

Az LHC különös részecskeviselkedést észlelt – átírhatja a fizikát

A genfi Large Hadron Collider (LHC) legfrissebb kutatásai alapjaiban rengethetik meg azt, amit eddig a világegyetem alapvető építőkockáiról hittünk...

MA 07:28

A Joe Lubin által támogatott SharpLink bekerül a Russell-indexekbe

📈 Az utóbbi években a kriptótartalékot építő vállalatok közül az egyik legkiemelkedőbb szereplő, a SharpLink Gaming, hamarosan belép a Russell 2000 és Russell 3000 tőzsdeindexekbe, miután június 29-i zárás után az FTSE Russell végrehajtja éves átsorolását...

MA 07:19

A 007: First Light rajtja: megjelenési dátum és indulási idők

Agent 47 egy kis szabadságra vonul, hamarosan pedig minden tekintet James Bondra szegeződik: május 27-én, szerdán világszerte elrajtol az IO Interactive legújabb játéka, a 007 First Light...

MA 07:10

A Nyaralóház forró reunionján lelepleződött West és Amanda viszonya

A Nyaralóház (Summer House) tizedik évadának egyik legnagyobb rejtélye végül lelepleződött, amikor a résztvevők a forró hangulatú évadzáró műsorban minden eddiginél nyíltabban beszéltek West Wilson és Amanda Batula kapcsolatáról...

MA 07:01

A Fülöp-szigeteki, kitörő tűzhányó fölött felrobbant egy smaragdzöld tűzgömb

🔥 A Fülöp-szigetek középső részén fekvő Mayon vulkán kitörése közben egy látványos, élénkzöld tűzgömb villant át az éjszakai égbolton, majd felrobbant a levegőben...

MA 06:55

A Jackson-hagyaték őre, John McClain, 71 évesen elhunyt

John McClain, a zeneipar legendás alakja, életének 71. évében malibui otthonában hunyt el...

MA 06:37

Az apró Bermuda kriptónagyhatalomra tör

🔮 Ebből következően érdemes megérteni, hogy Bermuda, a kis szigetország, hatalmas lépéseket tesz annak érdekében, hogy a világ első teljesen on-chain, vagyis blokklánc‑alapú gazdaságává váljon...

MA 06:28

A DeepSWE felforgatja a rangsort, trónra ülteti a GPT-5.5-öt

A legmodernebb MI-kódolási ranglisták hónapok óta azt a benyomást keltették, hogy nincs igazi különbség a vezető modellek között...

MA 06:19

Az Off Campus 2 visszatér: új szerelmek és sokkoló távozás

💘 Érdemes megjegyezni, hogy az Off Campus című sorozat első évada óriási sikert aratott mind a nézők, mind a kritikusok körében...

MA 06:05

Történelmi események a mai napon (Május 27.)

Válogatás a történelem mai napjához kötődő mérföldkövekből: királykoronázás, városalapítás, világháborús tragédiák és politikai fordulatok...

kedd 17:23

Az államkötvény-hozamok milliárdokat szívnak ki a bitcoin ETF-ekből

A kriptovaluták iránti lendület komoly csapást szenvedett el, ahogy a befektetők tömegesen menekítik a pénzüket a bitcoin-alapú tőzsdén kereskedett alapokból...

kedd 17:01

Az évszázad hőhulláma sújtja Európát: újabb halálos áldozatok

Döbbenetesen szokatlan, rendkívüli hőséggel küzd Nyugat-Európa: sorra dőlnek a melegrekordok, miközben egyre többen vesztik életüket a forróság következtében...

kedd 16:35

Az új Bond-játék végre igazi Bond-mozi: lopakodás és robbanások

Üldözések, szuperkütyük és látványos akciópillanatok – a 007 First Light minden eddiginél jobban képes átélhetővé tenni, milyen érzés James Bondként beszivárogni a világ legveszélyesebb színtereire...

kedd 16:23

Az új Ferrari Luce sokkol: Jony Ive védi, egy döntést imádnak

A Ferrari leleplezte története első elektromos autóját, a Lucét, ami máris heves vitákat kavart...

kedd 16:13

A GEEKOM A9 Max (2026) tesztje: mini PC, munkaállomás-erővel

Az asztali méretű, kis helyet foglaló gépek mezőnyében a GEEKOM A9 Max 2026 komoly kihívóként lépett színre...