2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 21:57

Az óceán mentőövei: okos hálók védik a tengeri teknősöket

Világszerte hatalmas hálók, hosszú horogsorok és apró csalik határozzák meg a halászatot, de ezzel együtt nem kívánt áldozatok is csapdába esnek: teknősök, delfinek, cápák és tengeri madarak kerülnek hálókba évről évre...

MA 21:45

Az Infinity Stealer hamis CAPTCHA-val fosztja ki a Mac gépeket

🔒 Egyre trükkösebb módszerekkel támadják a Mac-felhasználókat: az Infinity Stealer nevű új kártevő Python-alapú, és a Nuitka-fordítóval natív macOS-binárissá csomagolva jut el az áldozatokhoz...

MA 21:34

Az iPhone Lockdown módján még egy kémprogram sem jutott át

Az Apple szerint a Lockdown mód, vagyis a szuperbiztonságos üzemmód bevezetése óta egyetlen kémprogramnak sem sikerült iPhone-on feltörnie...

MA 21:23

Az új szénanyag forradalmat hozhat a szén-dioxid megkötésében

Különösen igaz ez akkor, ha a klímaváltozás elleni harcban minél olcsóbb, energiatakarékosabb megoldásokat keresünk...

MA 21:13

A bulik királya: a Soundcore Nebula X1 Pro mindent visz

Bár a házimozi- vagy buli­projektor kifejezés sok mindent takarhat, a Soundcore Nebula X1 Pro minden eddiginél jobban ötvözi a moziélményt és a partihangulatot egyetlen, kerekeken guruló, összecsukható monstrumdobozban...

MA 21:02

Az Airbnb-árak elszálltak: foci-vb lakáspanik söpör végig a városokon

🏘 Érdemes látni, hogy a 2026-os labdarúgó-világbajnokság körül Amerikában teljes lakásbérleti láz söpört végig, különösen a New Yorkot, New Jerseyt és Connecticutot magába foglaló régióban...

MA 20:56

Az ultrapontos nukleáris órák átírhatják az időmérés szabályait

A fizika világában forrongás van kialakulóban: soha nem látott pontosságot ígérnek az új nukleáris órák, amelyekben nem a megszokott elektronátmeneteket, hanem atommagátmeneteket használnak az idő mérésére...

MA 20:45

Az Apple Lockdown módja eddig minden kémprogramon kifogott

🔒 Többek között a Lockdown módnak (Lockdown Mode) köszönhetően az Apple-nek továbbra sincs tudomása arról, hogy bármelyik, e védelmet használó eszközt sikerrel feltörték volna kémprogrammal...

MA 20:24

A RoboSense végre nyereséges: berobbanó LiDAR és az MI-robotika kora

Első alkalommal termelt negyedéves nyereséget a RoboSense, miután digitális LiDAR-szállításai ugrásszerűen megnőttek a robotikai piacon...

MA 20:12

A nagy dobás: a Meta-vezérek akár 330 milliárdot kaszálhatnak

A Meta vezetősége előtt soha nem látott lehetőség nyílt: ha a cég 2031-re hatszorosára növeli értékét, minden érintett felsővezető akár 330 milliárd forintos (921 millió dolláros) részvénycsomagot is zsebre tehet...

MA 20:02

Az antianyag végre megmozdult: a világ legdrágább anyaga átment a teszten

A CERN-nél végre megtörtént, amire eddig senki sem vállalkozott: sikerült 92 antiprotont elszállítani teherautóval egy szupertrükkös, mágneses dobozban...

MA 19:57

Az a pénzügyi csapda, amely nők millióit sújtja – így kerülheted el

💰 A házasságban felborult bizalom, a váratlan szakítás és az anyagi bizonytalanság mindenkit megrázhat, de különösen veszélyezteti azokat a nőket, akik háttérbe szorítják saját pénzügyeiket...

MA 19:45

Az első nukleáris űrhajó helikopterekkel hódítja meg a Marsot

Az amerikai űrkutatás új mérföldkőhöz érkezik: a NASA 2028 végéig útnak indítja a Space Reactor-1 Freedom űrhajót, amely nukleáris energiával hajtva halad majd a Mars felé...

MA 19:34

Az irodai géppark titkai: itt az idő lecserélni a régi PC-ket?

💻 Lényeges szempont, hogy a munkahelyi számítógépek jelentős része elavult szoftvert futtat, ezzel folyamatosan veszélyezteti a vállalati biztonságot, és nehezíti a zavartalan munkavégzést...

MA 19:23

A mesterséges intelligenciára bíznád az adóbevallásod? Gondold meg kétszer!

Adóbevallást kitölteni annyira szórakoztató, mint amikor a körmöd alá szálka megy...

MA 18:01

Az Apple elkaszálja a Launchpad-alternatívák frissítéseit Macen

A Mac-felhasználók közül sokan fájlalják, hogy eltűnt a Launchpad, de eddig több alternatív alkalmazás segített pótolni a hiányt...

MA 17:56

Az áttörést hozó napcella: 130%-os hatékonysággal hódít

Első pillantásra úgy tűnt, hogy a napenergia-technológia hatékonyságának van egy természetes plafonja, amelyet lehetetlen átlépni...

MA 17:45

A titkos Anthropic MI-modell kiszivárgott – kínos égés

💡 Az Anthropic, a Claude nevű MI fejlesztője, világszinten példátlan erejű mesterséges intelligenciát tesztel, amiről a cég egyelőre mélyen hallgat...

MA 17:24

Az izomerő rejtett kulcsa: a bélbaktériumok

A kutatók egyre több bizonyítékot találnak arra, hogy nemcsak a sport és a táplálkozás, hanem a bennünk élő egyes bélbaktériumok is hozzájárulhatnak izmaink erejéhez...

MA 17:03

Az Oura-gyűrű leleplezi a rejtett betegségeket

Az egészségügyi viselhető eszközök piacán az Oura gyűrű szinte már fogalommá vált...

MA 16:57

Az élő emberi idegsejtek már a Végzetet is játsszák

Egy ausztrál biotechnológiai cég most jelentős mérföldkövet ért el: élő emberi neuronokat tartalmazó chippel sikerült elérni, hogy játszani tudjon a legendás A Végzettel (Doom) nevű videojátékkal...

MA 16:45

Az igazság: miért tűnik el az étvágy betegség idején?

💉 Fontos kérdés, hogy miért veszítjük el hirtelen az étvágyunkat, amikor betegek vagyunk...

MA 16:36

Az új HUAWEI FreeBuds Pro 5 nekimegy az Apple-nek és a Sonynak

Egy évvel a FreeBuds Pro 4 megjelenése után a HUAWEI most bemutatta legújabb zászlóshajó fülhallgatóját, a FreeBuds Pro 5-öt, amely első látásra letisztult AirPods-hasonmásnak tűnhet, de valójában számos izgalmas extrát tartogat azok számára, akik csúcskategóriás funkciókat keresnek elérhető áron...

MA 16:23

Az égi zebra titka: végre megfejtették a Rák-köd pulzárjának csíkjait

🌈 Több mint húsz éven át tartotta lázban a csillagászokat a Rák-köd pulzárjának különös, szabályosan ismétlődő fénycsíkjainak rejtélye...

MA 14:03

Az űripar forrong: a NASA új űrállomás-terve káoszt hoz

🚀 Fontos kérdés, miként alakul az amerikai űrkutatás jövője, most, hogy a NASA új irányt szabna a magánűrállomások fejlesztésének...

MA 13:45

Az űrhajós, aki elnémult – mit titkol a Hold-misszió?

🕴 A tapasztalt űrhajós, Michael Fincke drámai egészségügyi vészhelyzetet élt át januárban a Nemzetközi Űrállomáson, amikor hirtelen képtelenné vált megszólalni...

MA 13:23

Az MI lehet az XRP Ledger megmentője – a Ripple nagy dobása

🤖 Ami először apróságnak tűnt, ma már az egész kriptoiparágra kiható biztonsági kérdéssé nőtte ki magát: hogyan lehet egy több mint tízéves blokkláncot a modern igényekhez igazítani – főleg, miközben komoly intézményi szereplők készülnek rákapcsolni?..

MA 12:01

Az új csatatér: Zuckerberg beszáll Musk DOGE-hadjáratába?

A technológiai világ egyik legtarkább barát-ellenség viszonyát Elon Musk és Mark Zuckerberg alkotta az elmúlt években...

MA 11:33

A britek tényleg beindították a fúziós hajtóművet – Készülhetsz, Mars!

Na, nem mindennapi show-t csapott a brit Pulsar Fusion: a csapat végre plazmát lobbantott a kísérleti nukleáris fúziós rakétájukban, amivel óriási lépést tettek az űrutazás jövője felé...