2025. 03. 18., 19:05

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót

A Google új AI-ja egy dörzsölésre varázsol: amatőrből Photoshop varázslót
Megjelent egy új Google MI modell, amely képes szöveges utasítások alapján könnyedén képeket készíteni vagy szerkeszteni – mindezt egy csevegőrobot-beszélgetés részeként. Az eredmények ugyan nem tökéletesek, de valószínű, hogy a közeljövőben mindenki képes lesz ilyen módon manipulálni a képeket.

Nem csak vízjelek eltávolítására alkalmas

A múlt szerdán a Google elérhetővé tette a Gemini 2.0 Flash natív képgeneráló képességet. Az új kísérleti funkciót most már bárki használhatja a Google Chat GPT-ben. A korábban csak tesztelők számára elérhető, múlt december óta fejlesztett technológia egyetlen MI modellben egyesíti mind a szöveg-, mind a képfeldolgozási képességeket. Az új modell, a „Gemini 2.0 Flash (Képgenerálás) Kísérleti” kezdetben nem keltett nagy figyelmet, ám az elmúlt napokban egyre több visszhangot kapott, mivel például vízjelek eltávolítására is alkalmas – bár nem hibátlanul, és némi képminőség-romlás kíséretében.

A Gemini 2.0 Flash képes tárgyakat hozzáadni vagy eltávolítani, megváltoztatni a hátteret, a megvilágítást, a képszöget, valamint képeket nagyítani vagy kicsinyíteni. Emellett számos más átalakítást is végezhet – az eredmények sikere azonban nagymértékben függ a témától, a stílustól és az adott képtől.

Érdekes módon az OpenAI GPT-4 képes lenne natív képkimenetek generálására is (Greg Brockman, az OpenAI elnöke utalt erre tavaly a Twitteren), de a cég még nem tette elérhetővé a valódi többmodális képkimeneti képességet. Ennek oka valószínűleg az, hogy a valódi többmodális képkimenet rendkívül számításigényes. Minden egyes bevitt vagy generált kép tokenekből áll, amelyek adatként futnak át a képmodellen újra és újra minden egymást követő utasításkor. A szükséges számítási kapacitás és a képzési adatkészletek mérete miatt a képek kimeneti minősége jelenleg nem vetekszik a diffúziós modellekével.

Biztonsági kockázatok

Az OpenAI visszafogottságának másik oka a biztonsági kockázatokban keresendő: ahogyan a hangalapú többmodális modellek képesek egy rövid hangmintából valakinek a beszédét szintetizálni, a többmodális képkimeneti modellek hasonló módon képesek meggyőzően meghamisítani a vizuális médiát. Megfelelő képzési adatokkal és számítási erőforrásokkal a káros deepfake-ek és képmanipulációk gyártása is könnyebbé válhat.

A társalgó képszerkesztési támogatás lehetővé teszi a felhasználók számára, hogy természetes nyelvi párbeszéd révén, egymást követő utasításokat adva finomítsák a képeket. Mondhatod neki, mit szeretnél eltávolítani, hozzáadni vagy megváltoztatni, és ő megpróbálja elvégezni a kért módosításokat. Bár messze nem tökéletes, ez egy ígéretes lépés a natív képszerkesztési képességek fejlesztésében.


Kísérleti eredmények

A Gemini Flash 2.0-t egy sor nem hivatalos MI képszerkesztési tesztnek vetettük alá. Például eltüntettünk egy nyulat egy füves udvar képéről. Eltávolítottunk egy csirkét is egy rendetlen garázsból. A Gemini magától kitölti a hiányzó háttérélemet a legjobb tippje alapján. Itt már nincs szükség manuális klónecsetekre – vigyázz, Photoshop!

Ezen túlmenően megpróbáltunk szintetizált objektumokat is hozzáadni képekhez. Például egy UFO-t helyeztünk egy fotóra, amelyet a szerző készített egy repülőgép ablakából. Aztán megpróbáltunk hozzáadni egy Sasquatch-ot és egy kísértetet is. Bár az eredmények nem voltak valószerűek, figyelembe kell venni, hogy a modell képzéséhez viszonylag korlátozott képadatkészletet használtak.

Ezután egy videojáték-karaktert adtunk egy Atari 800 képernyője fotójához (például a Wizard of Wor játékból), amely talán a legrealisztikusabb eredményt produkálta. A Gemini hozzáadott CRT képernyővonalakat, amelyek megdöbbentően jól illeszkedtek a monitor jellemzőihez.

Vízjelek eltávolítása és egyéb kreatív lehetőségek

A Gemini képes torzítani egy képet különböző módon, például “kizoomolni” egy képből egy fiktív környezetbe, vagy egy régi EGA-palettás karaktertestbe helyezni azt. És igen, vízjeleket is eltávolíthatsz vele. Kipróbáltuk egy Getty Images vízjel eltávolítását, és bár sikerült, az eredeti képhez viszonyítva az eredmény elmaradt a részletesség és felbontás tekintetében. Ha azonban vizuálisan el tudod képzelni, hogyan nézne ki a kép vízjel nélkül, az MI modell is képes valamilyen szinten rekonstruálni azt.

Végül teszteltük a Gemini-t azzal, hogy egy barbár karakter melletti tévékészüléket generáltattunk. Eredetileg hiányzott a CRT tévé a képből, mi pedig kértünk egyet – és nem álltunk meg itt, még fel is gyújtottuk a tévét a kedvünk szerint.

Jövőbeli lehetőségek

A Gemini 2.0 Flash ugyan nem nyújt kifogástalan minőségű képeket, de a használatához semmilyen szerkesztési tudás nem szükséges, csak annyi, hogy begépeld a kéréseidet. Az Adobe Photoshop már most lehetőséget biztosít az MI-alapú képmanipulációra a DALL-E segítségével, de az élmény nem annyira természetes, mint a Gemini esetében. Az Adobe a jövőben talán integrál egy ennél beszédesebb, MI-alapú képszerkesztési eszközt is.

A többmodális kimenetek új lehetőségeket nyitnak meg. Például a Gemini 2.0 Flash alkalmas lehet interaktív grafikus játékokra vagy koherensen illusztrált történetek generálására, melyeknél az egyes képek fenntartják a karakterek és környezetük folytonosságát. Habár a technológia távol áll a tökéletestől, az ilyesmi új dimenziókat nyit az MI asszisztensek terén.

Kezdeti korlátok

Minden hiányossága ellenére a Gemini 2.0 Flash áttörést jelent a többmodális képkimenetek történetében, és megmutatja, mi válhat lehetségessé a technológia fejlődésével. Képzeljük el 10 év múlva azt a világot, ahol egy kifinomult MI egyetlen rendszerként képes szövegeket, képeket, hangot, videót, 3D grafikát és interaktív élményeket létrehozni – gyakorlatilag egy Star Trek-szerű holofedélzetet anyagreplikáció nélkül.

Persze még mindig gyerekcipőben járnak ezek a többmodális képkimenetek vagy szerkesztések. A Gemini 2.0 Flash egy kisebb MI modell, amely gyorsabban és olcsóbban futtatható, mivel nem használta fel az internet teljes adatkészletét. A Google a Gemini-t válogatott és részben szintetikus adatok alapján képezte ki, így a modell tudása korlátozott, és maga a Google is elismeri, hogy adatkészletük „széles, de nem teljes”.

Ez egy udvarias megfogalmazása annak, hogy a kimenet jelenleg nem tökéletes – de rengeteg lehetőség van a további fejlődésre. Ha a folyamat akár csak részben hasonlít a diffúzióalapú MI képgenerátorok, mint a Stable Diffusion vagy a Midjourney fejlődésére, akkor a többmodális képkimenet minősége hamarosan ugrásszerűen javulhat. Ideje felkészülni egy teljesen átalakult, folyamatosan formálódó médiarealitásra.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 11:46

Most izzik igazán az indiai adatközpontpiac

🔥 India vezető mobilszolgáltatója, a Bharti Airtel friss tőkét vont be adatközpontokat üzemeltető leányvállalatába, a Nxtra Data-ba...

MA 11:34

Az FCC rábólint a régi vonalak villámgyors kivezetésére

⚡ Az Egyesült Államok távközlési hatósága, az FCC új szabályokat vezet be, amelyek célja, hogy gyorsabban válthassanak a szolgáltatók korszerű, nagy sebességű hálózatokra...

MA 11:11

A Windows 11 appforradalma: a Microsoft végre a natív élményre fókuszál

A Microsoft most komolyan belevágott abba, hogy a Windows 11-re szánt új alkalmazásokat száz százalékban natívan fejlessze, vagyis tényleg a rendszerhez igazodva építse meg őket, nem pedig webes keretben futtassa...

MA 10:50

Az emberiség visszatér a Holdra: hamarosan startol az Artemis II

A NASA új fejezetet ír az űrkutatásban, hiszen hónapok előkészítő munkája után most végre elindult a visszaszámlálás a történelmi Artemis II Hold-misszióhoz...

MA 10:43

A látszólag ártalmatlan laborkesztyű a mikroműanyag-vadászok réme

A laborélet egy újabb csavart kap: kiderült, hogy még a legprofibb kutatók is rendre beleszaladnak egy bosszantó hibába, amikor a környezetből vett mintáikban mikroműanyagokra vadásznak...

MA 10:36

Az Eidos Montréalnál brutális leépítés: 124 embert elküldenek, a főnök is

🙁 Jó, jó, persze, csak épp közben újabb baljós hullám söpör végig a gamer világon: az Eidos Montréal 124 dolgozójától válik meg, még a főnök, David Anfossi is állás nélkül marad...

MA 10:32

Az olcsó fejhallgatók titkos ászai: prémium hang fillérekért

Sokan még ma is azt gondolják, hogy a jó fejhallgató bizony mélyen a pénztárcába nyúl, pedig az utóbbi években igencsak felzárkóztak a pénztárcabarát darabok...

MA 10:22

Az OkCupid titokban hárommillió felhasználói szelfit adott a Clarifainak

Na most kapaszkodj, mert az OkCupidnál a 2014-es év kicsit másképp zajlott, mint gondolnád!..

MA 10:10

Az olcsó MacBook visszatér: iPhone-chipre épül az új Neó

Az Apple legújabb belépő szintű laptopja, a MacBook Neo komoly meglepetést hoz a piacon: iPhone-ból átemelt A18 Pro chip dolgozik benne, miközben az élmény sokkal többet nyújt az alap MacBookoknál, pénztárcabarát áron...

MA 10:01

Az MI-tanácsadás sötét oldala: Tényleg rosszabb emberré tesz?

🕵 Miközben az MI egyre inkább beépül mindennapjainkba, munkahelyeinkre és online kommunikációnkba, egy új kutatás szerint jobb, ha személyes vagy érzelmi problémáinkra nem tőle várjuk a választ...

MA 09:57

A Sony nagy szünete: az MI-láz felfalja a memóriakártyákat

A Sony most parkolópályára tette a CFexpress- és SD-memóriakártyái megrendeléseinek felvételét, egy brutális NAND flash-hiány miatt...

MA 09:50

Az északi fény visszatér: látványos jelenség 15 amerikai államban

A tavaszi időszak ellenére az égbolt az utóbbi hetekben meglehetősen nyugodt maradt, csak pár szerényebb sarki fény jelent meg...

MA 09:36

Az Android már előre szól, hol van baj: itt az új segélyriasztás

🚨 Mostantól az Android rendszerszintű segélyriasztásai szintet lépnek: az új Google Play-szolgáltatások frissítésének (v26...

MA 09:29

Az MI a szövetségesed: így használd, hogy ne maradj le

Jerome Powell, az amerikai jegybank elnöke a Harvardon tett látogatásán szókimondó véleményt fogalmazott meg a Z generációnak...

MA 09:22

Az alvás titkos kapcsolója: több izom, kevesebb zsír, élesebb agy

😴 Felmerül a kérdés, hogy miért képes a mélyalvás annyira felpörgetni testünket és agyunkat, hogy nemcsak kipihentnek érezzük magunkat, hanem erősebbek, magasabbak, karcsúbbak, sőt akár élesebb gondolkodásúak is leszünk tőle...

MA 09:15

Az űr hőskora: Így indult útnak a két Voyager

Egy NASA-munkatárs egy kézikamerával járja be azokat a termeket, ahol a Voyager-program számítógépei teljesítettek szolgálatot 1977-ben...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 3/31

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Slayaway Camp (iPhone/iPad)A Slayaway Camp egy sötét humorú, 80-as évekbeli horrorfilmekre emlékeztető logikai játék...

MA 09:08

Az Instagram Plus új előfizetése titokzatos extrákkal csábít

💰 A Meta új előfizetéses szolgáltatást tesztel az Instagramon, amely exkluzív funkciókat kínál a felhasználóknak, például 24 óránál tovább látható sztorikat...

MA 09:02

A hétköznapi folyadékok is repednek, akár a szilárd anyagok

💧 A Drexel Egyetem kutatócsoportja alapjaiban forgatta fel a folyadékok fizikájával kapcsolatos eddigi elképzeléseket: egy hétköznapi folyadékot nyújtva olyan erős szakítóhatást fejtettek ki rá, amelynél úgy tört el, mint egy szilárd anyag...

MA 08:57

Az AirDrop végre megérkezik a Galaxy A-készülékekre?

🚀 A legújabb Samsung Galaxy S26-széria múlt héten már megkapta a várva várt AirDrop-támogatást a Quick Share szolgáltatáson keresztül, de úgy tűnik, hogy a funkció hamarosan elérhető lehet más készülékeken is...

MA 08:50

Az MI-adatszivárgás legújabb húzása: DNS-csempészés a ChatGPT-ben

OpenAI ismét reflektorfénybe került, miután egy súlyos biztonsági rést kellett befoltoznia a népszerű ChatGPT rendszerében...

MA 08:43

A Samsung új appja leszámol az utazási rosszulléttel

A fejlesztők gyakran kínálnak különféle trükköket az utazás közben fellépő rosszullét ellen, de a Samsung most egy egészen új megközelítéssel állt elő: a Galaxy-telefonokra letölthető Hearapy alkalmazás hanghullámokkal veszi fel a harcot a mozgás okozta panaszok ellen...

MA 08:36

Az egészségügyi óriásnál kitört az adatbotrány: páciensek adatai szivárogtak ki

💉 Egy nyolcórás hálózati leállással járó betörés során hackerek jutottak hozzá a CareCloud egyik kritikus rendszeréhez...

MA 08:29

A kvantumkorszak vártnál előbb csaphat le a Bitcoinra

Ami először apróságnak tűnt, most alapjaiban rengetheti meg a kriptovaluták védelmét: a Google kvantumszakértői szerint a Bitcoin és az Ethereum meglévő titkosítása már a vártnál jóval kevesebb kvantumkapacitással is legyőzhető...

MA 08:23

A kritikus nyersanyagok aranyárban: Kína fogságában a világ ellátása

💰 Az elmúlt hetekben három kevéssé ismert, ám nélkülözhetetlen nyersanyag ára szállt el világszerte: a volfrám, a kén és a hélium mind masszív drágulást produkált, néhol az olajhoz képest is nagyobb mértékben...

MA 08:15

Az Android Auto hibája eltünteti a térerőjelzőket – nyugi, van megoldás

Az utóbbi hetekben egyre több Android Auto-felhasználó vette észre, hogy eltűnt a térerőjelző a jármű műszerfaláról...

MA 08:08

Az Apple nagy dobása közeleg: érkezik az iPhone Fold?

Az Apple hamarosan nagyot léphet előre: a hajlítható iPhone teljesen új korszakot nyithat a mobilok világában...

MA 08:01

Az Artemis II zöld utat kapott: indulhat a Hold felé

A NASA történelmi jelentőségű küldetése, az Artemis II végre elindulhat: a 10 napos küldetés minden engedélyt megkapott egy átfogó repüléskészségi felülvizsgálat után, az időjárás-előrejelzés pedig biztató...

MA 07:57

Az amerikai nyugdíjvagyon is kriptóba áramolhat

💰 Az Egyesült Államok Munkaügyi Minisztériuma új szabályozást terjesztett elő, amely megnyithatja az utat a nyugdíj-megtakarítási programokban felhalmozott több ezermilliárd dollárnyi vagyon számára a kriptovaluták, a magántőke és az ingatlanbefektetések felé...