2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 14:45

A gagyi kerti lámpák kora lejárt: Govee napelemes okos fényfüzérei

Eleged van már abból, hogy a boltok polcairól levett napelemes fények egyetlen szezont sem bírnak ki, és estére inkább sötétben marad a kert?..

MA 14:33

Az első amerikai napi készpénzosztalékot fizető tőzsdei papír lehet a Strive SATA

💵 A Strive SATA részvénye június 16-tól minden munkanapon készpénzosztalékot fizet a befektetőknek, amire eddig egyetlen amerikai tőzsdén jegyzett értékpapír sem vállalkozott...

MA 14:23

Az MI-óriások IPO-sora elszívja a tőkét a kriptótól?

📈 Felmerül a kérdés, mennyi pénz áramlik hirtelen az MI-piacra, miközben a kriptovaluták háttérbe szorulnak...

MA 13:34

A Zelda élőszereplős filmje a vártnál korábban jön

🎥 Különösen említést érdemel, hogy a Nintendo váratlanul előrehozta a várva várt élőszereplős A Zelda legendája (The Legend of Zelda) film bemutatóját, így az a tervezettnél korábban kerül a mozikba...

MA 13:23

A Capcom nagy dobása: jönnek a folytatások, remake-ek és portok

Egy újabb sikeres évet tudhat maga mögött a Capcom, amely nemrég jelentette meg legújabb játékát, és sorozatban tizenegyedik éve ér el 10%-ot meghaladó üzemi nyereségnövekedést...

MA 13:12

Az inkognitó nem elég: ezt látja az internetszolgáltatód, ez véd meg

Sokan hiszik, hogy a böngésző inkognitó módja valóban elrejti a netes szokásaikat mindenki elől...

MA 12:56

A Moody’s csúcsra értékelte a Fidelity és a BlackRock tokenizált pénzpiaci alapjait

💰 A Fidelity és a BlackRock tokenizált pénzpiaci alapjai mostantól a Moody’s legmagasabb, AAA-mf minősítésével büszkélkedhetnek...

MA 12:45

A tudósok ilyet még nem láttak: az 1945-ös atomrobbantás különleges kristályt szült

A második világháború végének hajnalán, 1945 júliusában az amerikai hadsereg és a tudósok felrobbantották a világ első atombombáját Új-Mexikó sivatagában...

MA 12:33

A jövő heti Trump-mobil rajtja sem állítja meg a zuhanó mémcoint

Senki sem várta volna, hogy Donald Trump hivatalos mémcoinja, a TRUMP-token, nagyot ugrik a népszerűsége attól, hogy végre elindul a Trump Mobile telefonjának, a T1-nek a kiszállítása...

MA 12:23

Az OpenAI lecserélte a GPT-4o-t, a rajongók óriáskijelzőn ünnepelnek a Times Square-ön

🎉 A mesterséges intelligencia világában ritkán tapasztalható olyan lelkesedés, mint amilyet a GPT-4o váltott ki...

MA 11:45

A Wrexham első Championship-idénye: hol nézhető online az 5. évad?

🏀 Május 14-én, amerikai idő szerint 21 órakor indul az ötödik évad, amelyet az Egyesült Államokban az FXX, a világ többi részén pedig a Disney+ sugározza...

MA 11:34

A kínai pénzlevelű növény leveleinek megdöbbentő matematikai titka

A kínai szerencsepálma (Pilea peperomioides) hosszú ideje népszerű szobanövény, de most újabb izgalmas titokra derült fény: a növény levelei magukban hordoznak egy rendkívül kifinomult, természetes geometriai rendszert, amellyel eddig főleg az informatikában, hálózatok tervezésében vagy a várostervezésben találkozhattunk...

MA 11:12

A légkör meglepő titka: a CO2 lehűti a felső rétegeket

🌓 Felmerül a kérdés, hogy miközben a Föld felszíne folyamatosan melegszik, bolygónk felsőbb légkörei éppen ellenkező irányba változnak: gyorsan hűlnek...

MA 10:55

Az ETF-ekből rekord 635 millió dollár távozott: mi lesz a bitcoin árával?

Az amerikai spot bitcoin ETF-ekből egyetlen nap alatt 226 milliárd forintnyi, azaz 635 millió dollár értékű tőkét vontak ki a befektetők – ez a legnagyobb egynapos kiáramlás január vége óta...

MA 10:47

Az új Dutton Ranch: Beth és Rip felszántják Texast

Beth Dutton és Rip Wheeler elszakadnak a megszokott világtól, és egy egészen új fejezetet nyitnak Texasban – messze az eddig jól ismert Yellowstone-tól...

MA 10:38

A halálos „vörös ég” napviharát ősi fák árulták el

Több mint nyolcszáz évvel ezelőtti óriási napvihar nyomaira bukkantak japán kutatók eltemetett fák gyűrűiben és középkori krónikákban...

MA 10:20

A Bungie feltolja a zsákmányt az első wipe előtt, Cryo Archive 24/7

📚 Sok játékos ismeri az érzést, amikor a lelkesedés alábbhagy: a kihívások egyre nehezebbek, a jutalmak pedig túl ritkán érkeznek...

MA 10:03

A Kongresszus forró májusa: adatbotránytól botránylavináig

Külön említést érdemel, hogy ismét súlyos adatvédelmi botrány borzolja a kedélyeket az Egyesült Államok Kongresszusában...

MA 09:55

Az Anthropic lehagyta az OpenAI-t – de három veszély fenyegeti

Az MI-versenyben drámai fordulat történt: az amerikai vállalatok többet költenek most az Anthropic termékére, a Claude-ra, mint a piacot eddig uraló OpenAI ChatGPT-jére...

MA 09:37

Az Amazon dolgozói mesterségesen pörgetik az MI-használatot a kvótákért

📈 Az Amazonnál egyre nagyobb a nyomás a dolgozókon, hogy minden héten használják az MI-t, akár akarják, akár nem...

MA 09:27

A japánok valódi eredete: óriási DNS-felfedezés átírja a történelmet

Évszázadokon át általános volt a nézet, hogy a japán lakosság elsősorban két ősi népcsoport, a szigetcsoportban évezredek óta élő Jomon vadászó-gyűjtögetők és a később keletről bevándorló, rizstermesztést és új technológiákat meghonosító közösségek leszármazottai...

MA 09:19

A Stardew Valley-ben nem lesz hűtlenség – Nagypapa nem örülne

🌾 A Stardew Valley rajongói között komoly hullámokat kavart, hogy vajon megjelenhet-e valaha a hűtlenség vagy a válás lehetősége a játékban...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/14

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     War Mongrels (iPhone/iPad)A War Mongrels (röviden WM) egy izometrikus nézetű valós idejű taktikai játék, amely a második világháború keleti frontján játszódik...

MA 09:10

A Tejútrendszer felfalta a Loki nevű galaxist – megvannak a maradványai

💫 Több mint tízmilliárd évvel ezelőtt a Tejútrendszer nem arra az égre hasonlított, amit ma ismerünk...

MA 09:02

A Föld ősi szupernóvatörmeléken száguld – bizonyíték az antarktiszi jégben

Földünk egy évezredek óta porladó csillagrobbanás anyagfelhőjén halad keresztül, amelynek radioaktív vasnyomait most mélyen az antarktiszi jégben találták meg a kutatók...

MA 08:56

Az Anthropic visszahozza az OpenClaw-t és a külső ügynököket – de komoly kikötésekkel

🔔 Többek között izgalmas bejelentés rázta meg az MI-fejlesztők világát: ismét lehetőség van az OpenClaw és más, harmadik féltől származó autonóm MI-ügynökök használatára az Anthropic népszerű Claude-előfizetéseinek keretében...

MA 08:46

A 395 ezer dollárnyi bitcoin visszatér: Claude kiszabadítja a gép fogságából

🔑 Majdnem 140 millió forint értékű bitcoin ragadt egy régi számítógépen, de egy váratlan fordulat mindent megváltoztatott...

MA 08:37

A legfejlettebb MI nemcsak töröl, át is ír – és észrevétlenül hibázik

💡 Ahogy a nagy nyelvi modellek egyre okosabbá válnak, egyre többen bízzák rájuk tudásalapú feladatok elvégzését: a gép átnézi, rendszerezi, szerkeszti a dokumentumokat, majd leteszi elénk a kész eredményt...

MA 08:29

A mindennapi kávé 35%-kal csökkentheti a demencia esélyét

Amerikai kutatók több mint 130 000 egészségügyi dolgozót követtek 43 éven át, hogy felmérjék a kávé és tea hosszú távú hatásait az agy egészségére...