2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 08:23

A példátlan aszály szorongatja Floridát – meddig tart a válság?

Florida rendkívüli aszálytól szenved, amilyet az elmúlt 15 évben nem tapasztaltak...

MA 08:09

Az Uránusz és a Neptunusz mélyén bizarr anyagállapot rejtőzhet

💧 A Naprendszer távoli óriásbolygóinak belsejében a tudósok új, rendkívül furcsa anyagállapotra bukkantak...

MA 08:01

Az új Lotus kártevő lecsapott a venezuelai energiaszektorra

⚠ A venezuelai energia- és közműszolgáltatók ellen új, eddig nem dokumentált adatmegsemmisítő kártevőt, a Lotust vetették be 2025 végén...

MA 07:58

Az OpenAI új képgenerátora a valóság határait feszegeti

Néhány hónap telt csak el az OpenAI korábbi, nagy előrelépést jelentő képgeneráló-frissítése óta, máris itt a következő nagy dobás: a ChatGPT Images 2...

MA 07:50

A viharfény rejtélye: fák, melyektől felizzik a levegő

Ez a jelenség jól illusztrálható azzal, hogy amerikai kutatók először figyeltek meg természeti körülmények között gyenge, ibolyaszínben derengő fényjelenséget a fák lombkoronáján vihar idején...

MA 07:42

Az új Framework Laptop Pro: a laptop, ami végre időtálló

Öt év fejlesztés, hat (vagy inkább hét) alaplap és folyamatos frissítések – ezt tudja felmutatni a Framework Laptop 13 története...

MA 07:36

Az új PS2-emulátor, amit minden retrójátékosnak kötelező kipróbálni

🎮 Tipikus helyzet, amikor egy régi kedvenc konzol játékait szeretnéd újra átélni egy modern hordozható gépen, de a tökéletes élményhez rengeteg apró beállítás és trükk szükséges...

MA 07:29

A MI-vel felturbózott Firefox 271 hibát javított rekordidő alatt

Mozilla fejlesztői elképesztő eredményt értek el az Anthropic Claude Mythos nevű MI-jével: 271 sebezhetőséget fedeztek fel és javítottak a Firefox legújabb verziójában, méghozzá úgy, hogy az MI minden olyan hibát felismer, amelyet egyébként az emberek is megtalálnának – csak sokkal gyorsabban...

MA 07:22

A végső tartalékain a Voyager–1: közeleg a Big Bang-manőver

Közel öt évtizednyi űrutazás után a Voyager 1 űrszonda ismét leállított egy tudományos műszert, hogy energiát spóroljon...

MA 07:15

Az idő visszafordítható? A kvantumfizika meglepő válasza

Mi lenne, ha az idő megfordulna, és az események visszafelé játszódnának le a legalapvetőbb szinten?..

MA 07:08

Az MI miatti leépítési hullám söpör végig a Wall Streeten

A nagy amerikai bankok látványos profitemelkedést értek el az idei év első negyedévében: a JPMorgan Chase, a Citi, a Bank of America, a Goldman Sachs, a Morgan Stanley és a Wells Fargo együtt 47 milliárd dolláros (kb...

MA 07:01

Az Ofcom nekimegy a Telegramnak és a tini chatoldalaknak

💥 Az Egyesült Királyság független kommunikációs hatósága, az Ofcom átfogó vizsgálatot indított a Telegram ellen, miután bizonyítékokat kapott arról, hogy a platform gyermekek szexuális bántalmazását ábrázoló anyagok (CSAM) terjesztésére szolgálhat...

MA 06:58

Az Atlanti-áramlat összeomolhat: Európára dermesztő jövő vár

Az Atlanti-óceán egyik legfontosabb áramlatrendszere, az úgynevezett Atlanti meridionális áramlási rendszer (AMOC) a Föld éghajlatának védőernyőjeként működik – egy óriási szállítószalag, amely az északi félteke felé szállítja a melegebb, déli vizeket, miközben a hideg vizeket dél felé szállítja...

MA 06:50

Az OpenClaw MI-kapuja 28 ezer gépet tesz egyszerre sebezhetővé

Az OpenClaw nevű MI-ügynök rohamosan terjed a hétköznapi munkafolyamatokban, de a biztonsági frissítések és óvintézkedések aligha tartják a lépést vele...

MA 06:43

Az Einstein-portrét fényből rajzoló kristály forradalmasíthatja az optikát

Az XPANCEO Emerging Technologies Research Center kutatói, a Nobel-díjas Konsztantyin Novoszjolov vezetésével, elképesztő optikai tulajdonságokat fedeztek fel az arzén-triszulfid (As2S3) kristályos félvezetőben...

MA 06:37

Az eltűnt űr- és atomkutatók: valami sötét készül a háttérben?

Majdnem egy tucat, űr- és nukleáris védelmi kutatásokhoz kapcsolódó amerikai tudós tűnt el, vagy halt meg gyanús körülmények között 2022 óta...

MA 06:29

Az adathalászok lecsaptak: óriási adatlopás a francia okmányirodánál

🔒 Franciaország egyik legfontosabb kormányzati ügynöksége, a France Titres (Agence nationale des titres sécurisés, ANTS) érzékeny adatszivárgást szenvedett el, miután hackertámadást hajtottak végre, és állampolgári adatokat loptak el...

MA 06:22

A Mac gépek új réme: a ClickFix jelszavakat és kriptót lop

🔒 A friss, ClickFix nevű támadási hullám célkeresztjében az ázsiai pénzügyi szektor dolgozói állnak, akik macOS-gépeket használnak...

MA 06:15

A YouTube lecsap a celeb deepfake-ekre – eltünteti az álarcokat

🕵 A generatív mesterséges intelligencia fantasztikus dolgokra képes, de pofátlanul ellophatja az ismert emberek arcát és hangját is...

MA 06:05

Történelmi események a mai napon (Április 22.)

Ma több korszakos fordulópont találkozott: Adolf Hitler a Führerbunkerben beismerte a vereséget, a világ pedig megélte a helikopterek első harci bevetését és az első szóló, megállás nélküli föld körüli vitorlázást...

MA 06:01

Az újabb SD-WAN-sebezhetőség a hackerek célkeresztjében

Az amerikai kibervédelmi hivatal, a CISA négy napot adott az állami szervezeteknek rendszereik befoltozására egy újabb, a támadók által már aktívan kihasznált SD-WAN Manager sebezhetőség miatt...

kedd 21:46

Az Opendoor visszatér: MI-lendület és tőzsdei rali a lakáspiacon

💰 Az Opendoor Technologies részvénye 11%-ot emelkedett egyetlen nap alatt, ahogy a cég egy merőben új útra lépett: most már teljesen MI-alapú, integrált lakáspiaci platformként pozicionálja magát...

kedd 21:35

Az MI végre átírja az értékesítés szabályait?

Érdemes megvizsgálni, miért haladt el az MI már rég az IT-szakemberek mellett, miközben az értékesítésben még mindig adatszigetek, kézi CRM-bejegyzések és megérzésen alapuló riportok uralják a terepet...

kedd 21:23

Az FBI a titokzatos tudóseltűnések nyomában

Az FBI vizsgálatot indított legalább tíz tudós halálának és eltűnésének ügyében, akik kormányzati tudományos projektekhez, illetve érzékeny információkhoz férhettek hozzá...

kedd 21:01

Az otthoni Google Gemini végre ébresztőszó nélkül is ért téged

A Gemini for Home mostantól tényleg képes teljes beszélgetésekre, vagyis nem kell minden egyes alkalommal azzal kezdeni, hogy Hé, Google...

kedd 20:56

A parányi dinoszauruszkövületek két évtizeden át félrevezették a tudósokat

Csaknem két évtizeden át tartotta izgalomban és fejtörésben a kutatókat néhány különösen apró és szokatlan dinoszauruszcsontváz...

kedd 20:45

Az egyetem ára sokkol: 43 ezer dollárnyi diákhitel az elsőéveseknek

💸 Idén jelentősen nőhet a diploma megszerzése után rájuk háruló adósságterhe annak a közel egymillió fiatalnak, akik ősszel kezdik meg felsőfokú tanulmányaikat...

kedd 20:34

A kriptotőzsde az űrbe tör: érkeznek a SpaceX-tokenek

A Bitget tőzsde új lehetőséget nyit az átlagbefektetők előtt azzal, hogy elhozza a magáncégek – elsőként a SpaceX (SpaceX) – tőzsdei bevezetés előtti (pre-IPO) tokenjeit a Solana blokkláncon...

kedd 20:24

Az idő szorít: készülnek a NASA új holdruhái

Ez a jelenség jól illusztrálható azzal, hogy a NASA sikeres Artemis II-küldetése után minden szem azokra a technikai kihívásokra szegeződik, amelyek hátravanak az ember visszatéréséhez a Holdra...