2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

péntek 18:01

Az Android hívókártyái végre az okosórákra is megérkezhetnek

Az Android legújabb fejlesztéseivel már hamarosan teljes képernyős, személyre szabott hívókártyák jelenhetnek meg a Wear OS okosórákon...

péntek 17:59

Az OpenAI-maffia, az MI startupvilágának új nagyhatalma

👑 Egy lényeges szempont, hogy a Szilícium-völgynek új urai vannak: a mesterséges intelligencia területén az OpenAI korábbi kollégái sorra indítják saját, gyakran milliárdokat érő vállalkozásaikat...

péntek 17:39

Az új dél-koreai tőzsdei bevezetés kilőtte az AZTEC árfolyamát

📈 A dél-koreai Upbit és Bithumb tőzsdék egyidejűleg bevezették az AZTEC tokent helyi valutapárokkal, ami hirtelen árfolyam-emelkedést idézett elő a szűk likviditású piacon...

péntek 17:20

Az új Galaxy Buds 4: régi árak, friss dizájn, dráma nélkül

🎧 Megint kiszivárogtak a Galaxy Buds 4 és Buds 4 Pro árai, és nincs semmi botrány: a sima Buds 4 az Egyesült Államokban 179,99 dollárért, a Pro pedig 249,99 dollárért jelenik meg – ez nagyjából 180 000 és 250 000 forintnak felel meg, szóval semmi meglepetés, ugyanannyiért lehet majd kapni őket, mint az előző generációt...

péntek 16:58

A Xiaomi 17 Ultra letaszítja a trónról a Samsung Galaxy S26 Ultrát?

🚩 Úgy tűnik, hogy az év egyik legjobban várt telefonpremierje épp a barcelonai MWC 2026 előtt érkezik...

péntek 16:39

Az Emírségek MI-óriása nagyot robbantana Indiában

Abu-Dzabiban székelő G42 technológiai vállalat 8 exaflops teljesítményű új szuperszámítógépet telepít Indiában az amerikai Cerebras chipgyártóval együttműködve...

péntek 16:21

A bitcoin-drámák ellenére a kriptó még mindig olcsó

Például hiába emelkedett az elmúlt 24 órában a bitcoin árfolyama 2%-kal, továbbra is extrém félelem uralkodik a kriptovaluta-piacon...

péntek 13:59

Az űrkapszula-botrány: a NASA elismerte a Starliner fiaskóját

🚀 A Starliner űrhajó 2024-es küldetése hivatalosan is „A típusú” katasztrófaként került besorolásra, ami azt jelenti, hogy a NASA minden eddiginél komolyabban ismerte el: a küldetés súlyos hibával zárult...

péntek 13:40

Az óriásvírus, amely átírhatja az élet eredetéről alkotott képünket

Egy japán kutatócsoport egészen különleges felfedezést tett: egy új óriásvírust azonosítottak, amely akár az összetett élet keletkezésének titkait is feltárhatja...

péntek 13:21

Az új Gemini 3.1 Pro: finomhangolható észjárás, ütős előnyök

💡 Elsőként debütál a Google Gemini 3.1 Pro modell, amely forradalmian új szintet hoz a vállalati MI-fejlesztések világában...

péntek 12:02

Az MI az utolsó lépésen hasal el? Támadnak az aranycsövek

Ebből következően érdemes megérteni, hogy miért jelent problémát a vállalati MI-rendszerek számára az „utolsó mérföld”, vagyis a végső lépésben történő adatkezelés, és hogyan próbálja ezt feloldani egy új, „aranycső” (golden pipeline) nevű megközelítés...

péntek 11:58

Az Android nagytakarítása: 1,75 millió app tiltólistán egy év alatt

🚀 2025-ben a Google elképesztő mennyiségű, több mint 1,75 millió alkalmazás közzétételét akadályozta meg a Play Áruházban, mivel azok nem feleltek meg az előírásoknak...

péntek 11:39

Az Amazfit T-Rex Ultra 2: a túrázók álomokosórája, minden földi jóval

🛬 Továbbá az Amazfit bemutatta eddigi legnagyobb okosóráját, a T-Rex Ultra 2-t, amely kifejezetten szabadtéri kalandoroknak készült...

péntek 11:21

Az MI-alapú ügyfélélmény árnyoldala: 700 cég már ráfázott

Az ügyfélélmény (CX) platformok ma már elképesztő mennyiségű strukturálatlan adatot dolgoznak fel...

péntek 11:02

Az arany és a bitcoin szárnyal: Irán miatti félelem fűti a piacot

Erre utal többek között az, hogy a bitcoin ismét közelít a 68 000 dolláros (kb...

péntek 10:55

Az óriáshold, amely kettészakadt: így születhettek a Szaturnusz gyűrűi

🌓 A Szaturnusz legnagyobb holdja, a Titán, valójában két összeolvadt égitestből keletkezhetett, méghozzá egy kozmikus ütközés következtében, mintegy 400 millió évvel ezelőtt...

péntek 10:37

Az emberi test rejtett gyulladáskapcsolója: áttörés a krónikus betegségek ellen

A kutatók egy eddig rejtett biológiai folyamatot tártak fel, amely a szervezetben természetes módon leállítja a gyulladást, amikor arra már nincs szükség...

péntek 10:27

Az ember és a macska: ugyanaz a rák, ugyanazok a gének?

Felmerül a kérdés, mi köti össze legszorosabban a macskákat az emberekkel...

péntek 10:19

Az androidos kártevő, amely mesterséges intelligenciával tartja magát életben

A biztonsági kutatók olyan androidos kártevőt azonosítottak, amely először használ generatív MI-t a működése során...

péntek 10:01

A csodagyógyszer, amitől az amerikaiak rettegnek – de miért?

A sztatinokat az orvostudomány szinte csodagyógyszerként ünnepli, hiszen 10 000 szedőből 1 000-nél ténylegesen megelőzik a súlyos szív- és érrendszeri eseményeket...

péntek 09:46

Az űridőjárás rázza meg a Földet?

Napkitörések jócskán felforgathatják a Föld légkörét: nemcsak a sarki fényeket hozzák létre, hanem talán a földrengések kialakulására is hatással lehetnek...

péntek 09:38

Az Nvidia 11 ezermilliárd forintot pumpálna az OpenAI-ba

💸 Az MI-piac újabb brutális pénzmozgás előtt áll: az Nvidia akár 11 ezermilliárd forintot (30 milliárd USD) fektethet az OpenAI-ba, amely a startupot már 266 ezermilliárd forintra (730 milliárd USD) értékelné...

péntek 09:28

Az Apple ellen újabb per: ismét célkeresztben az iCloud

Érdemes megérteni, hogy egy nyugat-virginiai per most komoly nyomást helyez az Apple-re...

péntek 09:19

A bouba–kiki-hatás: még a csibék is ráéreznek

Annak megvizsgálására, hogy a bouba–kiki-hatás, amelyben bizonyos hangokat és formákat ösztönösen párosítunk egymással, mennyire ősi lehet az élővilágban, újszülött csibékkel végzett friss kísérletek készültek...

péntek 09:12

Az MI-ügynökök átveszik a kasszát – mire készüljenek a márkák?

A mesterséges intelligencia forradalmat indít a vásárlásban. Ma már egyre többen kérik meg MI-ügynököket arra, hogy találják meg, hasonlítsák össze, sőt vásárolják meg a különböző termékeket a nevükben...

péntek 09:02

Az autóipari óriásnál adatlopás történt, mégis csendben marad

🚗 A ShinyHunters nevű hírhedt hackercsoport ismét nagyot lépett: most az egyik legnagyobb online autópiac, a CarGurus 1,7 millió belső vállalati rekordját lopták el...

péntek 08:47

Az Nvidia az indiai MI-startupok trónjára tör

Az Nvidia elkezdte még korábbi fázisban megszólítani az indiai MI-startupokat, és friss együttműködéseket kötött annak érdekében, hogy már akkor kapcsolatba léphessen az alapítókkal, amikor a cégük még meg sem alakult...

péntek 08:38

Az Ősrobbanás őslevese: tényleg így indult a világegyetem?

Érdemes megvizsgálni, mi történt a világegyetem legelső ezredmásodpercében, amikor a tudósok szerint minden anyag egyfajta forró, ősi levesben úszott...

péntek 08:28

Az égből termel áramot a kínai repülő szélturbina

Kína egyedülálló légi szélturbinát tesztelt sikeresen, amely léghajóként emelkedik az égbe, hogy ott, a megbízhatóbban fújó szélből termeljen áramot...