2025. 09. 04., 07:56

Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni

Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni
Az MI-fejlesztések hihetetlen sebességgel változtatják meg azt, ahogyan képeket feldolgozunk, válogatunk vagy szerkesztünk. Néhány éve még elképzelhetetlen lett volna, hogy valós időben, különleges hardver és bonyolult telepítés nélkül eltávolíthatjuk a háttért a fotókról. Ma már akár az utolsó pizsamás szelfiden is szinte varázsütésre tűnik el a zavaró háttér – mindezt egyetlen MI-modell segítségével.

Mi is az az MI-alapú képszegmentáció?

Az MI-alapú képszegmentáció lényege, hogy a kép minden egyes pixeléről eldönti, melyik kategóriába tartozik: például előtér (ami minket érdekel), vagy háttér (amit ki akarunk takarni, átszínezni, eltüntetni). Ez eltér a hagyományos objektumfelismeréstől, amely csak egy körülhatároló keretet rajzol például egy arc vagy kutya köré, de nem mondja meg, pontosan melyik pixel tartozik az adott objektumhoz.

A kiemelten fontos képrészlet – a szaknyelvben ezt hívják szaliencia detektálásnak – egy bináris maszkon keresztül jelenik meg: ahol a kép igazán lényeges (például a főszereplő), ott magas értéket (255), a háttérben alacsonyat (0) kapnak a pixelek. Nem hagyható figyelmen kívül, hogy néhány alkalmazás összetettebb – lehet többféle előtér-kategória is, például egy kutya vagy egy szék –, ilyen az úgynevezett többosztályos maszkolás.

A mindennapi életben ez lehetővé teszi, hogy egy webáruház egyszerű, fehér háttérre illessze a termékeket, vagy hogy a felhasználók kreatívan kivághassák magukat egy mémhez.

Kiemelkedő modellek a háttéreltávolításban

Négy, jelenleg csúcskategóriás modellt teszteltek:

– U2-Net: Több mint 21 ezer képet tartalmazó adathalmazon tanult, több szintű képelemzést végez.
– IS-Net: Az U2-Net továbbfejlesztett változata, kétlépcsős feldolgozással: előbb durva maszkolás, majd a határvonalak finomítása.
– BiRefNet: Kétirányú, többszörös precíziós áttekintéssel ellenőrzi magát, hogy a részletek és az egész kép összhangban legyenek.
– SAM (Segment Anything Model): A Meta által fejlesztett, általános célú modell, amely akár több kategóriát is képes leválasztani egy képről.

Az U2-Net és az IS-Net hasonló metódussal, de eltérő megközelítéssel dolgozik. A BiRefNet először a fontos régiókat körvonalazza, majd egy második körben az apró részleteket is kidolgozza, végül ellenőrzi, hogy a részletek illeszkednek-e az egész képhez. A SAM modelltől eltérően, amely más típusú felhasználásra erősebb, mivel működéséhez némi előzetes instrukció szükséges.

Mennyire pontosak ezek a modellek?

A pontosságot elismert mutatókkal mérik:

– Intersection over Union (IoU): Megnézi, mekkora az átfedés a becsült és a valós előtér pixelek között. 1 a tökéletes egyezés, 0 a teljes eltérés.
– Dice-köeficiens: Hasonló, de valamivel megengedőbb az IoU-nál, inkább az átfedést jutalmazza.
– Pixelpontosság: A helyesen azonosított pixelek aránya a teljes képhez viszonyítva – viszont nagy háttér esetén elfedheti a hibákat.

Ezért leginkább az IoU-t és a Dice-köeficienst vették alapul, mert a pixelpontosság félrevezető lehet: akár egy csak a háttérre koncentráló modell is kiugró pontszámot érhet el ezen a mutatón, még ha az előtér felismerése hiányos is.


Gyorsaság és pontosság kéz a kézben?

A méréshez kétféle GPU-t használtak: egy 23 GB-osat (átlagos fogyasztói hardver), illetve egy 94 GB-osat (nagy MI-műveletekhez). A kisebb GPU-n a könnyű modellek bizonyultak a leggyorsabbnak: az U2-Net (176 MB) és az IS-Net (179 MB) rendre 307 és 351 milliszekundumos átlagos feldolgozási időt értek el. A nagyobb, bonyolultabb BiRefNet (973 MB) csak 821 milliszekundum alatt végzett, de a nagyobb GPU-n már utolérte a többi modellt.

Fontos, hogy a tesztekhez két adathalmazt használtak: egy “Humans” (Emberek, 7000 kép) és egy vegyes, komplexebb (DIS5K) készletet. A modellek pontosság és sebesség terén is jobban teljesítettek az egyszerűbb, embereket ábrázoló képekkel. A bonyolultabb, zsúfolt képeken (DIS5K) gyakoribbak voltak a hibák, és a feldolgozás is lassabb lett.

A specializált modellek kissé pontosabbak, de a mindennapi gyakorlatban egy univerzális, gyors modell előnyösebb. A SAM modell viszont automatikus, “prompt nélküli” feladatoknál túl lassúnak és kevésbé pontosnak bizonyult.

A BiRefNet minden változatával az élmezőnyhöz tartozott, átlagosan 0,87-es IoU és 0,92-es Dice-köeficiens értéket ért el, míg a fókuszált U2-Net az “emberek” készleten kiemelkedő (IoU 0,89; Dice 0,94), viszont a vegyes képeken gyenge (IoU 0,39; Dice 0,52) eredményt produkált.

Tipikus hibák: mi okoz nehézséget a gyakorlatban?

A modellek gyakran az apró részletek felismerésében (például egy kerék küllői), vagy éppen a lényeg kiemelésében hibáznak. Előfordult, hogy az U2-Net vagy az IS-Net a póló logóját kiemelte, de magát a pólót már nem. A BiRefNet viszont minden esetben jól felismerte az objektum egészét, mivel folyamatosan összeveti a globális és lokális információkat.

Így használható az automata háttéreltávolítás

A Cloudflare Images API már támogatja a képek automatikus háttéréltávolítását, akár tárhelyen, akár máshol tárolt fotókról legyen szó. A segment paraméterrel nemcsak az előtér emelhető ki: a háttér átlátszóvá is tehető, vagy kitölthető fehérrel. Egy adott URL-en keresztül például lekérhető egy arcra fókuszált, háttér nélküli kép, ahol a transzparens területeket fehér (#FFFFFF) szín váltja fel; mindez nagyjából 1100–1150 forintos MI-munka költségével.

Az Images API akár programozott munkafolyamatokba is integrálható: például egy egyszerű képszerkesztőben különböző képeket rétegezhetünk egymásra, a kivágott elemeket pedig használhatjuk mémekhez, matricákhoz.

A háttéréltávolítás funkció újabb lépést jelent az interaktív, kreatív MI-eszközök fejlesztésében, és minden jel arra mutat, hogy a jövőben még kifinomultabb, gyorsabb és pontosabb megoldások várhatóak – egyre egyszerűbb használattal.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted jó ötlet, ha az MI automatikusan eldönti, mi a lényeges egy képen?
  • Te bízol abban, hogy mindig helyesen működik egy ilyen háttéreltávolító?
  • Ha hibásan maszkírozna le egy képet, te javítanád kézzel vagy rábíznád újra az MI-re?


Legfrissebb posztok

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/21

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Inkflow Plus Visual Notebook (iPhone/iPad)Az Inkflow egy alkalmazás, amely a vizuális gondolkodást támogatja...

MA 06:05

Történelmi események a mai napon (Június 21.)

Viharos nap a történelemben: hadjáratok, csaták és forradalmak formálták a világot, miközben bírósági döntések és politikai fordulatok új korszakokat nyitottak...

APP
szombat 09:11

APPok, Amik Ingyenesek MA, 6/20

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Lively Letters – Phonics (iPhone/iPad) CrestWall – 4K Wallpapers (iPhone/iPad) ImgRef (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) Monthly Dystopia (iPhone/iPad) War Mongrels (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) Planetary Hours + Widget (iPhone/iPad) ContactVault Pro (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) FormatX: Video Audio Converter...

APP
péntek 09:11

APPok, Amik Ingyenesek MA, 6/19

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     FormatX: Video Audio Converter (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) War Mongrels (iPhone/iPad) CrestWall – 4K Wallpapers (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Lively Letters – Phonics (iPhone/iPad) ImgRef (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) ContactVault Pro (iPhone/iPad) Planetary Hours + Widget (iPhone/iPad) Monthly Dystopia...

APP
csütörtök 09:11

APPok, Amik Ingyenesek MA, 6/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad) FormatX: Video Audio Converter (iPhone/iPad) CrestWall – 4K Wallpapers (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Lively Letters – Phonics (iPhone/iPad) Monthly Dystopia (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) War Mongrels (iPhone/iPad) ContactVault Pro (iPhone/iPad) Planetary Hours + Widget (iPhone/iPad) Risp:...

APP
szerda 09:11

APPok, Amik Ingyenesek MA, 6/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Planetary Hours + Widget (iPhone/iPad) Risp: Budget & Savings (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) Monthly Dystopia (iPhone/iPad) War Mongrels (iPhone/iPad) ContactVault Pro (iPhone/iPad) FormatX: Video Audio Converter (iPhone/iPad) ImgRef (iPhone/iPad) Inkflow Plus Visual Notebook (iPhone/iPad) CrestWall – 4K Wallpapers...

kedd 19:34

A Wharton szerint később ürülhet ki a TB-kassza

A pennsylvaniai Wharton Egyetem új kutatása szerint a társadalombiztosítás nyugdíjalapja a vártnál később apadhat el...

kedd 19:23

A Star Wars-legenda Mark Hamill kulcsszerepben a Twisted Metalban

🤓 Mark Hamill, akit a Csillagok háborúja (Star Wars) világából Luke Skywalkerként őrzünk emlékezetünkben, csatlakozik a Csavart fém (Twisted Metal) sorozat harmadik évadához...

kedd 19:12

A Firefox 152 megújul: jön a JPEG XL, új beállítások

A Firefox böngésző legfrissebb, 152-es verziója több fontos fejlesztést hoz. A leglátványosabb változás a teljesen átalakított beállítási felület, amely átláthatóbbá és egyszerűbben kezelhetővé teszi a böngésző személyre szabását...

kedd 19:02

Az első nukleáris óra elindult – jön az ötödik kölcsönhatás?

⚡ Tipikus eset, amikor egy évtizedeken át lehetetlennek hitt ötlet hirtelen valósággá válik...

kedd 18:57

Az új Pókember-film sztárjai: a Galaxy Z Flip 7 és Fold 7

🚀 A Samsung legújabb büszkeségei, a Galaxy Z Flip 7 és a Galaxy Z Fold 7 komoly szerepet kaptak a Pókember: Vadonatúj nap (Spider-Man: Brand New Day) című filmben...

kedd 18:45

Az ultramély kutatás: Sakana AI 100 oldalas jelentést készít 8 óra alatt

🔬 Tokióban egy új MI-alapú vállalkozás, a Sakana AI dobta piacra a Marlint, első kereskedelmi termékét, amely forradalmasíthatja a vállalati kutatási jelentéseket...

kedd 18:24

Az új Ebola-járvány mekkora veszélyt jelent?

A Kongói Demokratikus Köztársaságot sújtó új Ebola-járvány már a harmadik legnagyobbnak számít a világon...

kedd 18:02

A CISA figyelmeztet: újabb cPanel-bővítmény-hibát aktívan kihasználnak

Az amerikai kiberbiztonsági hivatal, a CISA háromnapos határidőt adott az állami szerveknek, hogy frissítsék a LiteSpeed cPanel felhasználói bővítményét, miután ismertté vált egy aktívan kihasznált sérülékenység, amellyel a szervereket támadják...

kedd 17:11

A Hold-méretű, száguldó ütköző, amely felforgatta a Vénusz forgását

Ami először apróságnak tűnt, mára a Vénusz egyik legnagyobb rejtélyévé vált: a bolygó rendkívül lassú, ráadásul ellentétes irányú tengely körüli forgása...

kedd 17:01

A zsarolóbandák a Microsoft Teams reléivel álcázzák forgalmukat

Érdemes megvizsgálni, milyen kifinomult módszereket alkalmaznak a bűnözők, amikor eltüntetik rosszindulatú forgalmukat a védekezésre berendezkedett rendszerek elől...

kedd 16:55

Az okos medál, ami jelzi, meddig napozhatsz leégés nélkül

A legtöbb viselhető kütyü a lépéseidet, a pulzusodat vagy a véroxigénszintedet méri, de most érkezett egy olyan eszköz, ami teljesen másra fókuszál: a bőröd egészségére és a napsugárzás követésére...

kedd 16:45

Hány elemi részecske létezik valójában?

😰 Fontos kérdés, hogy hányféle elemi részecske létezik valójában. A fizikában ez nem is olyan egyszerű, mint amilyennek elsőre tűnhet...

kedd 16:12

A Threads már havi félmilliárd felhasználónál jár

Felmerül a kérdés, hogy mi állhat a Meta új szöveges közösségi hálójának hatalmas népszerűsége mögött...

kedd 15:56

A nő, aki Elon Musk mellett óriássá tette a SpaceXet

🚀 Gwynne Shotwell nevét a nagyközönség ritkán hallja, pedig nélküle elképzelhetetlen volna a SpaceX hihetetlen felemelkedése...

kedd 15:45

Az Nvidia 25 milliárd dolláros kötvénykibocsátással turbózza az MI-versenyt

Megemlíthető, hogy az Nvidia, a világ egyik vezető chipgyártója, öt év után először ismét jelentős kötvénykibocsátásra készül: több mint 25 milliárd dollár (kb...

kedd 15:25

A Samsung S95H OLED: lenyűgöző, de nem a várt Frame TV

Minden évben hatalmas felhajtás övezi a legújabb televíziókat, és mostanra a Samsung S95H OLED igazi különlegességnek számít ebben a mezőnyben...

kedd 15:01

A SprySOCKS új Windows-változata kormányzati rendszereket támad világszerte

A SprySOCKS néven ismert kártékony szoftver elsőként Linux rendszereken tűnt fel, de a közelmúltban megjelentek Windows-változatai is, amelyek kormányzati szervezeteket céloznak több országban, köztük Tajvanban, Thaiföldön, Pakisztánban és Hondurasban...

kedd 14:44

A Gmail AI-összegzései már mindenkinél futnak – így kapcsolod ki

Többek között már nem kell magadnak elolvasnod az e-maileket: a Gemini ezentúl átnézi őket helyetted – akár akarod, akár nem...

kedd 13:57

A 2026-os Razer Blade 18 letarolja a mezőnyt – ha meg tudod fizetni

🚀 A Razer Blade 18 (2026) ismét új szintre emeli, mit jelent egy valódi gamer laptop...