2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 10:23

A trükk, amivel az Apple Watch tovább bírja egy napnál

Többek között az alvásmonitorozás miatt egyre többen alszanak Apple Watch-csal a csuklójukon...

MA 10:08

A Protobuf.js végzetes hibája, amiről mindenki megfeledkezik

A Protobuf.js, a Google Protocol Buffers JavaScript-megvalósítása, súlyos távoli kódfuttatási hiba miatt került a figyelem középpontjába...

MA 10:01

Az aszály történelmi rekordokat dönt az Egyesült Államokban

Az Egyesült Államok történetének egyik legsúlyosabb aszályát éli át. Jelenleg a délkeleti régió 97%-a és a nyugati terület kétharmada vízhiányos; ez az arány eddig soha nem volt ilyen magas a mérések kezdete óta...

MA 09:50

Az év DeFi-botránya: köddé vált 110 milliárd forint a Kelp DAO-ból

💸 Szinte példa nélküli méretű hack rázta meg a decentralizált pénzügyek világát: a Kelp DAO réteghídként működő LayerZero-protokollján keresztül egyetlen támadó 116 500 rsETH tokent – nagyjából 110 milliárd forintnyi (292 millió USD, kb...

MA 09:29

A London Marathon-rajthelyekkel csapják be a futókat

Különösen említést érdemel, hogy a 2026-os London Marathon közelgő rajtja igazi izgalmat vált ki a futók körében, ami miatt a csalók egyre nagyobb számban próbálnak meg pénzt kicsalni olyan jelentkezőkből, akik kimaradtak a sorsolásból...

MA 09:22

Az orvostudomány Oscarja a látást visszaadó génterápia úttörőié

Jean Bennett molekuláris biológus és Albert Maguire szemész szakorvos, akik egy boncolás során ismerkedtek meg, közös munkájuk eredményeként fejlesztették ki az első szemészeti génterápiát, amely képes helyreállítani a veleszületett vakságot...

MA 09:15

Az űripar lázban ég: megéri most beszállni a SpaceX-be?

Elon Musk űripari vállalkozása, a SpaceX tőzsdére lépésének híre felkavarta a befektetők világát...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 4/19

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia című túlélőjáték George Orwell 1984 című regényének borús világából merít ihletet...

MA 09:09

Az első beszédközpont születése: Broca és Tan sorsdöntő találkozása

1861 tavaszán egy párizsi kórházban különös boncolás indította útjára a modern idegtudomány egyik meghatározó felfedezését...

MA 09:01

Az alumíniumgyárból kriptobánya lett: az Alcoa áramot bitcoinra cserél

Az Észak–New York-i Massena East egykor hatalmas alumíniumkohó volt, most azonban új életre kelhet – igaz, már nem ércet, hanem biteket olvasztanak majd benne...

MA 08:56

Az autód sötét titkai: a régi fedélzeti kütyük nem felejtenek

Romain Marchand fejlesztőmérnök egy lengyel bontóból szerzett be egy használt telematikai vezérlőegységet, vagyis TCU-t, majd darabokra szedte...

MA 08:36

A Microsoftnál teljes a tanácstalanság az Xbox Game Pass jövőjéről

Tavaly októberben jelentős áremelés történt az Xbox Game Passnél, amikor a havi díjat 29,99 dollárról (kb...

MA 08:30

Az NSF rekordszámú PhD-ösztöndíjat ítélt oda

Tipikus eset, amikor mindenki lemond valamiről, majd a legváratlanabb pillanatban pozitív fordulat jön: az amerikai National Science Foundation (NSF) idén 2 599 fiatal kutatót támogatott, ami minden eddigi rekordot megdönt...

MA 08:01

A végső lépés: lekapcsolják a Voyager–1 utolsó műszerét

A NASA mérnökei kritikus döntést hoztak: április 17-én lekapcsolták a Voyager 1 egyik utolsó tudományos műszerét, az alacsony energiájú töltött részecskék detektorát (Low-Energy Charged Particles, LECP)...

MA 07:59

Az Amazon leszámol a rejtett alkalmazásokkal – vége a trükközésnek?

Az Amazon frissítette kínálatát a vadonatúj Fire TV Stick HD-vel, amely már a cég Vega OS nevű, saját fejlesztésű, Linux-alapú operációs rendszerével érkezik...

MA 07:43

A jövő optikája: egyetlen chip egész gépparkot vált ki

Optikai tervezésben régóta alapelv volt a „tökéletes rend”, azonban ausztrál kutatók most bebizonyították, hogy a zavar is lehet előnyös...

MA 07:37

Az új csodaszerek nyomában: a peptidek ígérete és buktatói

🧠 A peptidek világa az elmúlt években robbanásszerűen terjedt el a wellness- és fitneszmozgalmakban...

MA 07:29

Az élesebb ész titka: az extra szűz olívaolaj

🧪 Az egészséges bélflóra lehet a kulcsa az agy védelmének, és ebben meglepően fontos szerepet játszik az extra szűz olívaolaj...

MA 07:22

Az új Philips gamer monitor meghódítja Európát

🎮 A Philips bemutatta legújabb, letisztult, fehér dizájnú, 27 colos, dupla üzemmódú gaming monitorát, amely hamarosan Nyugat-Európában is elérhető lesz...

MA 07:08

Az Intel új processzorai felforgatják a játékszabályokat

Az Intel mostantól hazai gyártású Core Series 3-as processzorokat kínál, amelyeket Hillsboro és Chandler gyáraiban, 2 nanométeres technológiával készít...

MA 07:02

Az üstökös halála, a Potomac utolsó órái

Rendkívüli események sora rázta meg a tudományos világot az elmúlt héten: egy üstökös látványos pusztulását örökítették meg a Nap közelében, miközben az amerikai Potomac folyó került az ország legveszélyeztetettebb vízfolyásainak élére, főként az adatközpontok rohamos terjeszkedése miatt...

MA 06:50

Az új Neo Geo: HDMI-s nosztalgia régi kazettákkal, nem olcsó

Sokaknak gyerekként csak álom volt egy Neo Geo konzol a ’90-es években, de most végre eljött a visszavágás ideje: a legendás SNK-csoda modern verziója, az új Neo Geo AES+ hamarosan itt van!..

MA 06:43

Az ülőmunka nem halálos ítélet, ha mozogsz eleget

💪 Évről évre emberek milliói töltenek hosszú órákat irodai székben vagy képernyők előtt, sokan pedig hajlamosak azt gondolni, hogy a sok ülés elkerülhetetlenül rontja az egészséget...

MA 06:35

Az Apple okosórák ismét szabadon kaphatók: elmaradt a második tiltás

Amerikában most végre pont került az Apple és a Masimo nevű orvostechnológiai cég évek óta húzódó szabadalmi csatározására...

MA 06:09

A jegesmedvék utolsó esélye az Északi-sarkon?

🦋 Jellemző példa erre, hogy miközben évtizedek óta a klímaváltozás jelképének számítanak a jégtáblák szélébe kapaszkodó jegesmedvék, néhány populáció váratlanul jól alkalmazkodtak a változó környezethez...

MA 06:05

Történelmi események a mai napon (Április 19.)

Viharos nap a történelemben: kezdetét veszi az amerikai függetlenségi háború, elismerik az Egyesült Államokat, megszületik Belgium semlegessége, és pápát választanak...

MA 06:01

A Threads webes verziója végre él: megérkezett a privát üzenetküldés

📬 Térjünk a lényegre: nem vagyok egyedül abban, hogy eddig azt hittem, a Threads webes változatában már rég lehet privátban csevegni...

szombat 21:56

A jövő nyakörve: így változtatja meg a kedvencek gondozását

Az új, Ausztriában és Seattle-ben fejlesztett okos nyakörveknek köszönhetően sosem volt ilyen egyszerű odafigyelni kutyánk vagy macskánk egészségére – akkor is, ha nem tudnak szólni, mi bántja őket...

szombat 21:46

A nagy középkategóriás párbaj: iPhone 17e vs OnePlus 15R

Az iPhone 17e igazi közönségkedvenc lett, ami nem is csoda: végre egy olyan középkategóriás Apple-mobil, ami miatt nem érzi magát senki másodosztályúnak...