Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni

Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni
Az MI-fejlesztések hihetetlen sebességgel változtatják meg azt, ahogyan képeket feldolgozunk, válogatunk vagy szerkesztünk. Néhány éve még elképzelhetetlen lett volna, hogy valós időben, különleges hardver és bonyolult telepítés nélkül eltávolíthatjuk a háttért a fotókról. Ma már akár az utolsó pizsamás szelfiden is szinte varázsütésre tűnik el a zavaró háttér – mindezt egyetlen MI-modell segítségével.

Mi is az az MI-alapú képszegmentáció?

Az MI-alapú képszegmentáció lényege, hogy a kép minden egyes pixeléről eldönti, melyik kategóriába tartozik: például előtér (ami minket érdekel), vagy háttér (amit ki akarunk takarni, átszínezni, eltüntetni). Ez eltér a hagyományos objektumfelismeréstől, amely csak egy körülhatároló keretet rajzol például egy arc vagy kutya köré, de nem mondja meg, pontosan melyik pixel tartozik az adott objektumhoz.

A kiemelten fontos képrészlet – a szaknyelvben ezt hívják szaliencia detektálásnak – egy bináris maszkon keresztül jelenik meg: ahol a kép igazán lényeges (például a főszereplő), ott magas értéket (255), a háttérben alacsonyat (0) kapnak a pixelek. Nem hagyható figyelmen kívül, hogy néhány alkalmazás összetettebb – lehet többféle előtér-kategória is, például egy kutya vagy egy szék –, ilyen az úgynevezett többosztályos maszkolás.

A mindennapi életben ez lehetővé teszi, hogy egy webáruház egyszerű, fehér háttérre illessze a termékeket, vagy hogy a felhasználók kreatívan kivághassák magukat egy mémhez.

Kiemelkedő modellek a háttéreltávolításban

Négy, jelenleg csúcskategóriás modellt teszteltek:

– U2-Net: Több mint 21 ezer képet tartalmazó adathalmazon tanult, több szintű képelemzést végez.
– IS-Net: Az U2-Net továbbfejlesztett változata, kétlépcsős feldolgozással: előbb durva maszkolás, majd a határvonalak finomítása.
– BiRefNet: Kétirányú, többszörös precíziós áttekintéssel ellenőrzi magát, hogy a részletek és az egész kép összhangban legyenek.
– SAM (Segment Anything Model): A Meta által fejlesztett, általános célú modell, amely akár több kategóriát is képes leválasztani egy képről.

Az U2-Net és az IS-Net hasonló metódussal, de eltérő megközelítéssel dolgozik. A BiRefNet először a fontos régiókat körvonalazza, majd egy második körben az apró részleteket is kidolgozza, végül ellenőrzi, hogy a részletek illeszkednek-e az egész képhez. A SAM modelltől eltérően, amely más típusú felhasználásra erősebb, mivel működéséhez némi előzetes instrukció szükséges.

Mennyire pontosak ezek a modellek?

A pontosságot elismert mutatókkal mérik:

– Intersection over Union (IoU): Megnézi, mekkora az átfedés a becsült és a valós előtér pixelek között. 1 a tökéletes egyezés, 0 a teljes eltérés.
– Dice-köeficiens: Hasonló, de valamivel megengedőbb az IoU-nál, inkább az átfedést jutalmazza.
– Pixelpontosság: A helyesen azonosított pixelek aránya a teljes képhez viszonyítva – viszont nagy háttér esetén elfedheti a hibákat.

Ezért leginkább az IoU-t és a Dice-köeficienst vették alapul, mert a pixelpontosság félrevezető lehet: akár egy csak a háttérre koncentráló modell is kiugró pontszámot érhet el ezen a mutatón, még ha az előtér felismerése hiányos is.


Gyorsaság és pontosság kéz a kézben?

A méréshez kétféle GPU-t használtak: egy 23 GB-osat (átlagos fogyasztói hardver), illetve egy 94 GB-osat (nagy MI-műveletekhez). A kisebb GPU-n a könnyű modellek bizonyultak a leggyorsabbnak: az U2-Net (176 MB) és az IS-Net (179 MB) rendre 307 és 351 milliszekundumos átlagos feldolgozási időt értek el. A nagyobb, bonyolultabb BiRefNet (973 MB) csak 821 milliszekundum alatt végzett, de a nagyobb GPU-n már utolérte a többi modellt.

Fontos, hogy a tesztekhez két adathalmazt használtak: egy “Humans” (Emberek, 7000 kép) és egy vegyes, komplexebb (DIS5K) készletet. A modellek pontosság és sebesség terén is jobban teljesítettek az egyszerűbb, embereket ábrázoló képekkel. A bonyolultabb, zsúfolt képeken (DIS5K) gyakoribbak voltak a hibák, és a feldolgozás is lassabb lett.

A specializált modellek kissé pontosabbak, de a mindennapi gyakorlatban egy univerzális, gyors modell előnyösebb. A SAM modell viszont automatikus, “prompt nélküli” feladatoknál túl lassúnak és kevésbé pontosnak bizonyult.

A BiRefNet minden változatával az élmezőnyhöz tartozott, átlagosan 0,87-es IoU és 0,92-es Dice-köeficiens értéket ért el, míg a fókuszált U2-Net az “emberek” készleten kiemelkedő (IoU 0,89; Dice 0,94), viszont a vegyes képeken gyenge (IoU 0,39; Dice 0,52) eredményt produkált.

Tipikus hibák: mi okoz nehézséget a gyakorlatban?

A modellek gyakran az apró részletek felismerésében (például egy kerék küllői), vagy éppen a lényeg kiemelésében hibáznak. Előfordult, hogy az U2-Net vagy az IS-Net a póló logóját kiemelte, de magát a pólót már nem. A BiRefNet viszont minden esetben jól felismerte az objektum egészét, mivel folyamatosan összeveti a globális és lokális információkat.

Így használható az automata háttéreltávolítás

A Cloudflare Images API már támogatja a képek automatikus háttéréltávolítását, akár tárhelyen, akár máshol tárolt fotókról legyen szó. A segment paraméterrel nemcsak az előtér emelhető ki: a háttér átlátszóvá is tehető, vagy kitölthető fehérrel. Egy adott URL-en keresztül például lekérhető egy arcra fókuszált, háttér nélküli kép, ahol a transzparens területeket fehér (#FFFFFF) szín váltja fel; mindez nagyjából 1100–1150 forintos MI-munka költségével.

Az Images API akár programozott munkafolyamatokba is integrálható: például egy egyszerű képszerkesztőben különböző képeket rétegezhetünk egymásra, a kivágott elemeket pedig használhatjuk mémekhez, matricákhoz.

A háttéréltávolítás funkció újabb lépést jelent az interaktív, kreatív MI-eszközök fejlesztésében, és minden jel arra mutat, hogy a jövőben még kifinomultabb, gyorsabb és pontosabb megoldások várhatóak – egyre egyszerűbb használattal.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted jó ötlet, ha az MI automatikusan eldönti, mi a lényeges egy képen?
  • Te bízol abban, hogy mindig helyesen működik egy ilyen háttéreltávolító?
  • Ha hibásan maszkírozna le egy képet, te javítanád kézzel vagy rábíznád újra az MI-re?



Legfrissebb posztok

szerda 15:59

Most már flörtölnek a mesterséges intelligenciák, és pénzt is termelnek

😉 Az OpenAI vezérigazgatója, Sam Altman nemrégiben bejelentette, hogy a ChatGPT hamarosan képes lesz felnőtt felhasználók számára erotikus tartalmakat is létrehozni, miután a vállalat szerinte már orvosolta a mesterséges intelligenciával folytatott beszélgetések okozta mentális egészségi kockázatokat...



MA 15:00

Az éghajlat csak fokozódik: Rekordszintű a szén-dioxid 2024-ben

2024-ben soha nem látott magasságba emelkedett a légköri szén-dioxid szintje, újabb komoly figyelmeztetést adva a globális felmelegedésre...

MA 14:58

Az új Linux-őrület: Menekülés a Windows 10-ről

A Windows 10 végleges búcsúja után tömegek keresnek új otthont számítógépüknek...

MA 14:30

Meglepő, hogyan alakítja át álmaink a memóriánkat

Az éjszakai alvás nem csupán pihenés, hanem szinte laboratóriumi munka a memóriánknak: az egyes alvásfázisok szerint átrendeződnek az emlékek, így néhány részlet elhalványul, míg mások általános tudássá állnak össze...



APP
MA 09:11

APPok, Amik Ingyenesek MA, 10/19

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

szombat 23:59

Az Apple lenyúlta a Forma–1-et az amerikai nézőknek

Az Apple 750 millió dollárt, vagyis átszámítva mintegy 275 milliárd forintot fizetett azért, hogy a következő öt évben kizárólag az Apple TV közvetíthesse a Forma–1-es futamokat az Egyesült Államokban...



szombat 23:30

Az MI-vel készült óravázlatok unalmasak és elavultak

Az MI, mint az oktatás forradalmasításának egyik ígéretes eszköze, gyorsan elnyerte a tanárok figyelmét...



szombat 23:01

Az OpenAI leállította a Martin Luther King deepfake videókat

🚫 Az OpenAI felfüggesztette a Martin Luther King Jr.-ról mesterséges intelligenciával készült videók létrehozását Sora nevű alkalmazásában, miután több tiszteletlen klip is megjelent a platformon...

szombat 22:59

Az ázsiai fizika legendája: Yang Chen Ning 103 évesen elhunyt

A modern fizika egyik legnagyobb alakja, Yang Chen Ning 103 éves korában hunyt el Pekingben...

szombat 22:30

Az új Windows-frissítés mindenkit kiborított – de itt a javítás

🙁 Az utóbbi Windows-biztonsági frissítések súlyos hibát okoztak: sem a Windows 11-en, sem a Windows Server 2025 rendszeren nem lehetett HTTP/2 kapcsolattal elérni a localhost (127...

szombat 22:01

Az olvadó permafroszt újra felkorbácsolja a klímaaggodalmakat

🌨 A sarkvidéki örökfagy világa most új veszélyforrást rejt: a globális felmelegedés több tízezer éves baktériumokat éleszt fel...

szombat 21:59

Az MI-alapú térképezés átalakítja a földhasználat nyomon követését

A pontos földtakaró-térképezés nélkülözhetetlen a biodiverzitás védelméhez, a klímaváltozáshoz való alkalmazkodáshoz és a fenntartható földhasználathoz...

szombat 21:29

Az Europol véget vetett egy nemzetközi SIM-kártyás bűnbanda tevékenységének

Az európai rendőrök a SIMCARTEL fedőnevű akcióban felszámolták azt az illegális SIM-box szolgáltatást, amely több mint 3200 csalásnak adott zöld utat, és legalább 1,7 milliárd forint kárt okozott...

szombat 21:04

Újabb tech-leépítési hullám jön, tízezrek kerülnek utcára 2025-ben

💀 2025-ben sem kímél a techszektorban végigsöprő leépítési hullám. Tavaly 549 cégnél történt tömeges elbocsátás, idén pedig már több mint 22 ezren veszítették el az állásukat; csak februárban 16 084 főt érintettek a leépítések...



szombat 20:59

Az Antarktisz a Grönlandéhoz hasonló jégolvadással fenyeget

🌨 Az 1990-es években Grönland és az Északi-sark már látványosan olvadni kezdett az emberi eredetű klímaváltozás miatt, miközben az Antarktisz összehasonlíthatatlanul stabilabbnak tűnt...



szombat 18:29

Az eddigi legsúlyosabb ASP.NET Core sérülékenység javítása

⚠ A hét elején a Microsoft orvosolta az ASP.NET Core keretrendszer eddigi legmagasabb besorolást kapott biztonsági hibáját...

szombat 18:01

Az 5000 éves koponyamaszkok titka: mit rejt Liangzhu?

😎 Különös emberi csontmaradványokra, köztük koponyacsészékre és csontmaszkokra bukkantak kínai régészek az 5000 éves Liangzhu-kultúra területén...



szombat 17:59

Az MI-alapú óravázlatoktól nem lesznek lelkesebbek a diákok

A tanárok egyre gyakrabban vetik be a mesterséges intelligenciát, főként olyan feladatokra, mint az óravázlatok elkészítése vagy a tanítási előkészületek...



szombat 17:30

Az új Netflix-dokumentumfilm letarolja a streaminget

A A tökéletes szomszéd (The Perfect Neighbor) című új dokumentumfilm már elérhető a Netflixen, és egészen más, mint amit eddig láthattunk a műfajban...