2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 06:05

Történelmi események a mai napon (Június 16.)

Valentina Tereskova történelmi űrrepülése, a Ford és az IBM alapítása, valamint a spanyol-brit háborúhoz kötődő gibraltári ostrom egyaránt ezen a napon történt...

MA 06:01

A Kraken berobban: jönnek az örökös határidők az USA-ban

💥 Az amerikai kriptoszektor hatalmas változáson megy keresztül: végre megjelentek a szabályozott örökös határidős ügyletek...

hétfő 21:56

A nagy vita: kell-e megmosni a rizst főzés előtt?

🍚 A rizs több milliárd ember mindennapi tápláléka világszerte, elkészítése kapcsán azonban rengetegen vitáznak: meg kell-e mosni főzés előtt, vagy felesleges időpazarlás?..

hétfő 21:34

Az ADHD felismerése nem erősségünk – az MI-é annál inkább

A figyelemhiányos hiperaktivitás-zavar, vagyis az ADHD hivatalos diagnózisa sokak számára elérhetetlen: az időhiány, a költségek, a kevés elérhető szakorvos és az általános tájékozatlanság mind nehezítik az utat...

hétfő 21:23

A netet elárasztották a botok – mit jelent ez nekünk?

Alig néhány év alatt gyökeresen megváltozott az internet felhasználói összetétele. Már nem emberek, hanem automatizált rendszerek bonyolítják le a webes kérések többségét – derül ki a Cloudflare Radar mérőrendszerének statisztikáiból, amelyek szerint világszerte a forgalom 57,4%-át úgynevezett agentikus, vagyis parancsokra dolgozó MI-botok generálják, míg a valódi emberek csak 42,6%-ot képviselnek...

hétfő 21:12

Az Xbox leépít, a Microsoft szerint kevés pénz jön a játékokból

A Microsoft vezetősége szerint a videójátékos üzletág egyik legnagyobb nehézsége, hogy nem termel elég bevételt...

hétfő 21:01

A kínai hackerek feltörték a REDCap szervereket, orvosi kutatási adatokat loptak

🔒 Jó példa erre, hogy Észak-Amerika egyik orvosi kutatóintézetének gépeit kínai kötődésű hackerek támadták meg, és hónapokon át észrevétlenül lopták az érzékeny adatokat...

hétfő 20:34

Az amerikai szigor miatt turbófokozatba kapcsol az európai technológiai szuverenitás

A világ egyik legnagyobb MI-fejlesztője, az Anthropic váratlanul leállította két fejlett kiberbiztonsági modellje, a Mythos 5 és a Fable 5 elérhetőségét az egész világon, miután amerikai kormányzati előírás erre kötelezte...

hétfő 20:12

Az új támadás egykattintásos adatlopóvá tette a Microsoft 365 Copilotot

Felmerül a kérdés, hogy mennyire bízhatunk meg a legmodernebb vállalati megoldásokban, amikor egy újonnan felfedezett, SearchLeak névre keresztelt sebezhetőség-sorozat lehetővé tette, hogy támadók különleges URL-ek segítségével egyetlen kattintással szerezzenek hozzáférést levelekhez, jelszavakhoz vagy akár SharePoint- és OneDrive-fájlokhoz a Microsoft 365 Copilot Enterprise rendszeren keresztül...

hétfő 20:01

Az Apple nyerő húzása lehet az iOS 27 a régi iPhone-okra

Ilyen eset például, amikor az Apple az új iOS 27-et a 2019-ben bemutatott iPhone 11 sorozattól kezdődően teszi elérhetővé...

hétfő 19:56

Az FBI figyelmeztet: futárok gyűjtik be a kriptós csalások pénzét

💸 Megfigyelhető, hogy a kriptobefektetési csalások új hullámában a bűnözők már futárokat is bevetnek a pénz megszerzésére...

hétfő 19:45

Az afrikai holdkőzet egy ősi, holdfelszínt olvasztó ütközést sejtet

🌚 Egy Észak-Afrikában talált holdi meteorit új megvilágításba helyezi a Hold ősi múltját...

hétfő 19:33

A nagy áttekintés szerint az időseknek alig használ a kalcium és D-vitamin

🙂 Különösen igaz ez akkor, ha az egészségügyi ajánlásokat követjük, hiszen világszerte emberek milliói szednek kalcium- és D-vitamin-készítményeket abban a reményben, hogy ezzel csökkentik a csonttörések és az esések kockázatát...

hétfő 19:22

A NASA óriási óceáni melegfoltot észlelt, jöhet az El Niño

🌊 A NASA műholdjai a Dél-Amerika partjaihoz tartó hatalmas melegvíztömeget figyeltek meg, amely komoly eséllyel az El Niño kialakulását jelzi...

hétfő 19:12

Az AYANEO tenyérnyi Game Boy-mása újra ringbe száll

🎮 A zsebben is elférő AYANEO Pocket Micro az utóbbi évek egyik legjobb kézi konzolja lett, amely tökéletesen hozza a klasszikus Game Boy Advance hangulatot...

hétfő 19:01

Az emberes SpaceX Mars-küldetés? Ne számítsunk rá ebben az évtizedben

🚀 Érdemes megérteni, hogy a SpaceX, amely a múlt pénteken debütált a Nasdaqon, villámgyorsan 19%-ot emelkedett, ezzel átlépve a 2 billió dolláros (kb...

hétfő 18:56

Az Xboxon felbukkant a „Vedd meg most, fizess később”, kiakadtak a rajongók

💸 Érdemes megvizsgálni, hogy a videojátékokhoz és konzolokhoz kapcsolódó vásárlási lehetőségek hogyan változnak a növekvő árak fényében...

hétfő 18:45

Az utazók pórul járhatnak: megugorhatnak a T‑Mobile külföldi percdíjai

Ha külföldre utazol, általában két lehetőséged van: veszel egy helyi SIM-kártyát, vagy a megszokott szolgáltatód roamingját használod...

hétfő 18:35

Az MI-vel ne csak gyorsabbak, hanem jobbak is legyenek a munkatársak

Képzeld el, pályád elején vagy, és a főnököd megbíz egy kellemetlen feladattal: meg kell írnod egy e-mailt egy fontos ügyfélnek, amelyben megmagyarázod a projekt késését...

hétfő 18:24

Az óriásgát Tibetben: Kína a természetet próbálja megszelídíteni

🚦 Magasan, a 4500 méterrel a tengerszint felett fekvő Tibeti-fennsík évszázadok óta Ázsia víztornya...

hétfő 17:45

A válogatós cégek MI-tudást követelnek: bajban az informatikusok

A kaliforniai techszektorban dolgozók tömegei még mindig abban reménykednek, hogy a munkaerőpiac végre talpra áll, de valójában egyre nehezebb új állást találni...

hétfő 17:34

A KFC visszavág: csont nélküli csirke és új italok

Az ikonikus gyorsétteremlánc most új stratégiához nyúl: teljesen átalakítja kínálatát, hangsúlyt helyezve a csont nélküli csirkére, különleges szószokra és izgalmas, élményalapú vendéglátásra...

hétfő 17:23

A Tejútrendszer szívében hatalmas szupernóva lehetséges maradványaira bukkant a NASA

💫 26 ezer fényévnyi távolságból figyelte meg a NASA Chandra Röntgen Obszervatóriuma a Tejútrendszer egyik leglátványosabb jelenségét...

hétfő 17:01

Az egyetemisták tömegesen felejtenek el olvasni?

Egy irodalmat és íráskészséget oktató egyetemi tanár, Tyler Jagt meglepő tapasztalatairól számolt be: egyik diákja sem tudott végigolvasni egy húszoldalas, kötelező tanulmányt, amelyet ő maga még egy évtizede egyetemistaként gond nélkül elolvasott...

hétfő 16:23

Az MI-felügyelőkre vadásznak a cégek: berobban a brit munkaerőpiac

Ami először apróságnak tűnt, mára gyökeresen átalakítja a brit munkaerőpiacot: a mesterséges intelligencia iránti kereslet ugrásszerűen megnőtt az utóbbi évben...

hétfő 16:12

A rekord egynapos esetszámugrás az Ebola-járványban Kongóban, egy hónappal a kitörés után

😷 Kongóban az Ebola-járvány minden eddiginél gyorsabban terjed, miközben az egészségügyi hatóságok igyekeznek lépést tartani az egyre növekvő esetszámmal...

hétfő 16:01

Az Antarktisz alatt több száz rejtett földrengést fedeztek fel – szokatlan helyen

Senki sem várta volna, hogy az Antarktisz rejtett, rendszeres földrengésekkel lepi meg a tudósokat...

hétfő 15:56

A Google lebuktatta a következő Pixel Dropot: képernyőreakciók, fizetős extrák

Tipikus eset, amikor egy vállalat maga szivárogtatja ki a nagy újításai részleteit, így mire a hivatalos bejelentés megtörténik, már mindenki tudja, mire számíthat...

hétfő 15:45

A SpaceX óriási tőzsdei bevezetése mindent a feje tetejére állíthat

Különösen igaz ez akkor, ha a befektetők már hónapok óta várnak valami nagy visszatérésre a tőzsdén...