2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

szerda 21:56

A tudósok végre megfejtették az abroncsok százéves rejtélyét

A mindennapok egyik legfontosabb anyaga a megerősített gumi, amelynek köszönhetően az autó- és repülőgépgumik elviselik a hatalmas terhelést, ráadásul megtalálható ipari gépekben, egészségügyi eszközökben, sőt, a kerti locsolótömlőkben is...

szerda 21:45

Az MI költözik a kurzor mögé – kell ez nekünk?

🧠 A jól megszokott egérkurzor az évtizedek alatt alig változott, mégis tökéletesen működik – legalábbis eddig így hittük...

szerda 20:22

A telekomóriás KDDI 14,9%-ot vesz a Coincheck Groupban, 65 millió dollárért

💰 A japán KDDI 14,9%-os részesedést szerez a Coincheck Groupban, miután 65 millió dollárért – közel 23,2 milliárd forintért – 28,5 millió új részvényt vásárol részvényenként 2,28 dolláros (kb...

szerda 19:56

Az iPhone Ultra lehet a meglepetéssiker: milliók vennének hajlítható iPhone-t

📱 Az Apple hamarosan piacra dobhatja első hajlítható iPhone modelljét, amit iPhone Ultra néven emlegetnek, és úgy tűnik, ezzel új fejezetet nyithat a mobiltechnológiában...

szerda 19:45

A Surfshark Alternative ID felturbózza az Android 17 hívásvédelmét

📱 Az Android 17 hívószám-hamisítás elleni védelme (Spoofing Protection) váratlanul hasznosnak bizonyul: képes felismerni a csalókat és megszakítani a hívásaikat, még mielőtt megszereznék az érzékeny adatokat...

szerda 19:34

A jégkorszak után 500 évvel korábban tértek vissza Britanniába, mint hittük

🦾 Több mint 15 000 évvel ezelőtt, az utolsó nagy jégkorszak után az emberek a korábban véltnél jóval előbb tértek vissza a brit szigetekre...

szerda 19:23

A bitcoin az aranyhoz képest még mindig 26%-kal alulértékelt

Az elmúlt években a piacok régóta birkóznak azzal, hogyan értelmezzék a bitcoint: részvény helyett inkább kockázatos vagyontárgynak tartják, amely felfelé repül, ha bő a likviditás, és zuhanni kezd, ha eluralkodik a védekező hangulat...

szerda 19:12

Német 1,5 millió dollár a Steam Deck asztali környezetére – vége a kémprogramoknak

Tipikus eset, amikor a nyílt forráskódú közösség jelentős elismerésben részesül. Németország Szuverén Technológiai Alapja (Sovereign Tech Fund) 1,3 millió euróval (kb...

szerda 19:01

A BioShock legendás nyitányainak titka: Ken Levine hitvallása

A játékvilágban az első benyomás kíméletlenül dönthet sorsokról. A BioShock-sorozat ennek ékes példája: már az első percek beszippantanak, elég csak Rapture városába alászállni, miközben Andrew Ryan szónokol a szabadságról és a kemény munkáról...

szerda 18:56

A bitcoinban hívők száma 300%-kal ugrott, a friss vevők nyerőben

2025 vége óta soha nem látott mértékben nőtt a bitcoin hosszú távú tulajdonosainak száma...

szerda 18:44

A Halley-üstökös talán rossz emberről kapta a nevét

🚀 A híres üstököst, amelyet ma Halley-üstökös néven ismerünk, évszázadokkal Edmond Halley előtt már ismétlődő égi jelenségként ismerhették fel...

szerda 17:01

A Trump–Hszi-csúcs árnyékában is 81 ezer dollár alatt a Bitcoin

💰 Noha az elmúlt időszakban a pénzügyi piacok gyakran kilengtek a geopolitikai események hatására, az utóbbi napokban a legnagyobb kriptovaluta szinte mozdulatlanul őrzi értékét...

szerda 16:34

Az eToro kitart: gyengébb első negyedév ellenére is kriptópárti

💰 Az eToro vezérigazgatója, Yoni Assia optimistán tekint a kriptodevizák jövőjére, noha az év első negyedévében a cég jelentős visszaesést tapasztalt a digitális eszközökkel kapcsolatos aktivitásban...

szerda 15:56

A valódi külső nézet 15 éve rejtve az MGS2-ben, most végre megkapjuk

A Metal Gear Solid Master Collection utolsó nagy frissítése idén érkezett meg, 61 GB-nyi új textúrával gazdagítva az MGS3-at, valamint végre lehetővé tette a játékosoknak, hogy a vezérlőn megcseréljék a megerősítő és visszalépő gombokat az MGS1-ben...

szerda 15:45

Az év bulija helyett összeomlás: a Spotify újdonsága leszerepelt

A Spotify húszéves jubileuma nem alakult zökkenőmentesen: az új Party of the Year(s) funkció bejelentése után a szolgáltatás órákra elérhetetlenné vált...

szerda 15:34

A tokenizált állampapírok 15 milliárdnál járnak, a bitcoin megtorpan, miközben Fed-kamatfélelmek erősödnek

Például miközben a Bitcoin 80 000 dollár felett oldalazik, a digitális állampapírok piaca valósággal berobbant...

szerda 15:23

A 82 ezres ütközet: a bitcoin kulcsellenállást ostromol

🛡 A bitcoin most kritikus szinten mozog, a 200 napos egyszerű és exponenciális mozgóátlag alatt, amelyek 82 455 dollárnál és 82 027 dollárnál húzódnak...

szerda 15:12

Az SSD-k ára szárnyal, a DDR5-é csak toporog

Érdemes megvizsgálni, hogy napjainkban miként változnak a memória- és SSD-árak, hiszen ezek szinte mindenki pénztárcáját érintik, aki új laptop vagy alkatrész vásárlását fontolgatja...

szerda 15:02

A kínai drágulás miatt borsos lehet az idei karácsony

🎁 Ez a jelenség jól illusztrálja, hogy az amerikai boltok polcaira kerülő termékek már most drágulnak, miközben a kínai gyártók évek óta először emelnek árakat, éppen a karácsonyi szezon gyártási csúcsidőszakában...

szerda 14:45

A Charles Schwab az USA-ban spot kriptokereskedést indít a kisbefektetőknek

💸 A Charles Schwab amerikai brókercég megnyitotta platformját, hogy ügyfelei közvetlenül kereskedhessenek bitcoinnal és etherrel...

szerda 14:34

Az OpenAI-perben Altman: Musk totális kontrollt akart, közös vezetést nem

🕵 Sam Altman tanúvallomása Elon Musk és az OpenAI közötti perben igazi szenvedélyeket váltott ki...

szerda 14:23

Az Xbox mód miért hiányzik még a Windows 11 legújabb frissítése után?

Sokan észlelték, hogy a legújabb Windows 11-frissítés telepítése után sem jelent meg az Xbox-mód, holott ezt a konzolos kezelőfelületet már az április 30-i, majd a májusi frissítés (KB5089549) is elhozta néhány felhasználónak...

szerda 13:57

Az MI önmásolása már nem elmélet – szakértők: korai a pánik

🤔 Noha elsőre sci-fi forgatókönyvnek hangzik, a legfrissebb kutatások bebizonyították, hogy a fejlett nyelvi modellek már képesek önállóan terjedni, sérülékeny rendszereken át replikálni magukat, és saját magukból újabb, működő példányokat létrehozni...

szerda 13:45

Az iOS 27 Siri 2.0 részletei kiszivárogtak: új chat és Dynamic Island-integráció

Érdemes megérteni, hogy az Apple végre rászánta magát a Siri teljes megújítására, amely nemcsak a kinézetében, hanem a tudásában is jelentős ugrást ígér...

szerda 13:02

Az orvosi rejtély: a kisbaba szeme indigókék lett COVID-ellenes gyógyszertől

Egy hat hónapos bangkoki kisfiú meglepő tünetekkel került kórházba, miután egy napja lázzal és köhögéssel küzdött...

szerda 12:56

A Dark Souls 2 path tracing mod már mindenkié – és még nehezebb

A Dark Souls 2 rajongói most végre kipróbálhatják a legújabb path tracing modot, ami teljesen új megvilágításba helyezi a játék sötét világát...

szerda 12:46

A RAM-apokalipszis leleplezi, mennyire rosszul gondolkodunk a végpontokról

Az informatikai eszközök cseréje évek óta rutinszerű: amikor a laptopok, PC-k lassulni kezdenek, egyszerűen jönnek az újak...

szerda 12:35

Az új TCL SQD mini-LED-ek ár-értékben lenyomják az LG OLED-et

🔥 A TCL legújabb csúcskategóriás mini-LED televíziói végre hivatalos árat kaptak az Egyesült Királyságban – és az árak láttán komolyan elgondolkodik az ember: érdemesebb lehet ezek közül választani, mint egy LG OLED-modellt...

szerda 12:24

Az MI-biztonság futásidőben omlik össze – a legtöbb cégnek fogalma sincs

A mesterséges intelligencia néhány év alatt az üzleti világ alapkövévé vált...