Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni

Nézd meg, mire képesek a mesterséges intelligencia háttéreltávolító modelljei, meg fogsz lepődni
Az MI-fejlesztések hihetetlen sebességgel változtatják meg azt, ahogyan képeket feldolgozunk, válogatunk vagy szerkesztünk. Néhány éve még elképzelhetetlen lett volna, hogy valós időben, különleges hardver és bonyolult telepítés nélkül eltávolíthatjuk a háttért a fotókról. Ma már akár az utolsó pizsamás szelfiden is szinte varázsütésre tűnik el a zavaró háttér – mindezt egyetlen MI-modell segítségével.

Mi is az az MI-alapú képszegmentáció?

Az MI-alapú képszegmentáció lényege, hogy a kép minden egyes pixeléről eldönti, melyik kategóriába tartozik: például előtér (ami minket érdekel), vagy háttér (amit ki akarunk takarni, átszínezni, eltüntetni). Ez eltér a hagyományos objektumfelismeréstől, amely csak egy körülhatároló keretet rajzol például egy arc vagy kutya köré, de nem mondja meg, pontosan melyik pixel tartozik az adott objektumhoz.

A kiemelten fontos képrészlet – a szaknyelvben ezt hívják szaliencia detektálásnak – egy bináris maszkon keresztül jelenik meg: ahol a kép igazán lényeges (például a főszereplő), ott magas értéket (255), a háttérben alacsonyat (0) kapnak a pixelek. Nem hagyható figyelmen kívül, hogy néhány alkalmazás összetettebb – lehet többféle előtér-kategória is, például egy kutya vagy egy szék –, ilyen az úgynevezett többosztályos maszkolás.

A mindennapi életben ez lehetővé teszi, hogy egy webáruház egyszerű, fehér háttérre illessze a termékeket, vagy hogy a felhasználók kreatívan kivághassák magukat egy mémhez.

Kiemelkedő modellek a háttéreltávolításban

Négy, jelenleg csúcskategóriás modellt teszteltek:

– U2-Net: Több mint 21 ezer képet tartalmazó adathalmazon tanult, több szintű képelemzést végez.
– IS-Net: Az U2-Net továbbfejlesztett változata, kétlépcsős feldolgozással: előbb durva maszkolás, majd a határvonalak finomítása.
– BiRefNet: Kétirányú, többszörös precíziós áttekintéssel ellenőrzi magát, hogy a részletek és az egész kép összhangban legyenek.
– SAM (Segment Anything Model): A Meta által fejlesztett, általános célú modell, amely akár több kategóriát is képes leválasztani egy képről.

Az U2-Net és az IS-Net hasonló metódussal, de eltérő megközelítéssel dolgozik. A BiRefNet először a fontos régiókat körvonalazza, majd egy második körben az apró részleteket is kidolgozza, végül ellenőrzi, hogy a részletek illeszkednek-e az egész képhez. A SAM modelltől eltérően, amely más típusú felhasználásra erősebb, mivel működéséhez némi előzetes instrukció szükséges.

Mennyire pontosak ezek a modellek?

A pontosságot elismert mutatókkal mérik:

– Intersection over Union (IoU): Megnézi, mekkora az átfedés a becsült és a valós előtér pixelek között. 1 a tökéletes egyezés, 0 a teljes eltérés.
– Dice-köeficiens: Hasonló, de valamivel megengedőbb az IoU-nál, inkább az átfedést jutalmazza.
– Pixelpontosság: A helyesen azonosított pixelek aránya a teljes képhez viszonyítva – viszont nagy háttér esetén elfedheti a hibákat.

Ezért leginkább az IoU-t és a Dice-köeficienst vették alapul, mert a pixelpontosság félrevezető lehet: akár egy csak a háttérre koncentráló modell is kiugró pontszámot érhet el ezen a mutatón, még ha az előtér felismerése hiányos is.


Gyorsaság és pontosság kéz a kézben?

A méréshez kétféle GPU-t használtak: egy 23 GB-osat (átlagos fogyasztói hardver), illetve egy 94 GB-osat (nagy MI-műveletekhez). A kisebb GPU-n a könnyű modellek bizonyultak a leggyorsabbnak: az U2-Net (176 MB) és az IS-Net (179 MB) rendre 307 és 351 milliszekundumos átlagos feldolgozási időt értek el. A nagyobb, bonyolultabb BiRefNet (973 MB) csak 821 milliszekundum alatt végzett, de a nagyobb GPU-n már utolérte a többi modellt.

Fontos, hogy a tesztekhez két adathalmazt használtak: egy “Humans” (Emberek, 7000 kép) és egy vegyes, komplexebb (DIS5K) készletet. A modellek pontosság és sebesség terén is jobban teljesítettek az egyszerűbb, embereket ábrázoló képekkel. A bonyolultabb, zsúfolt képeken (DIS5K) gyakoribbak voltak a hibák, és a feldolgozás is lassabb lett.

A specializált modellek kissé pontosabbak, de a mindennapi gyakorlatban egy univerzális, gyors modell előnyösebb. A SAM modell viszont automatikus, “prompt nélküli” feladatoknál túl lassúnak és kevésbé pontosnak bizonyult.

A BiRefNet minden változatával az élmezőnyhöz tartozott, átlagosan 0,87-es IoU és 0,92-es Dice-köeficiens értéket ért el, míg a fókuszált U2-Net az “emberek” készleten kiemelkedő (IoU 0,89; Dice 0,94), viszont a vegyes képeken gyenge (IoU 0,39; Dice 0,52) eredményt produkált.

Tipikus hibák: mi okoz nehézséget a gyakorlatban?

A modellek gyakran az apró részletek felismerésében (például egy kerék küllői), vagy éppen a lényeg kiemelésében hibáznak. Előfordult, hogy az U2-Net vagy az IS-Net a póló logóját kiemelte, de magát a pólót már nem. A BiRefNet viszont minden esetben jól felismerte az objektum egészét, mivel folyamatosan összeveti a globális és lokális információkat.

Így használható az automata háttéreltávolítás

A Cloudflare Images API már támogatja a képek automatikus háttéréltávolítását, akár tárhelyen, akár máshol tárolt fotókról legyen szó. A segment paraméterrel nemcsak az előtér emelhető ki: a háttér átlátszóvá is tehető, vagy kitölthető fehérrel. Egy adott URL-en keresztül például lekérhető egy arcra fókuszált, háttér nélküli kép, ahol a transzparens területeket fehér (#FFFFFF) szín váltja fel; mindez nagyjából 1100–1150 forintos MI-munka költségével.

Az Images API akár programozott munkafolyamatokba is integrálható: például egy egyszerű képszerkesztőben különböző képeket rétegezhetünk egymásra, a kivágott elemeket pedig használhatjuk mémekhez, matricákhoz.

A háttéréltávolítás funkció újabb lépést jelent az interaktív, kreatív MI-eszközök fejlesztésében, és minden jel arra mutat, hogy a jövőben még kifinomultabb, gyorsabb és pontosabb megoldások várhatóak – egyre egyszerűbb használattal.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted jó ötlet, ha az MI automatikusan eldönti, mi a lényeges egy képen?
  • Te bízol abban, hogy mindig helyesen működik egy ilyen háttéreltávolító?
  • Ha hibásan maszkírozna le egy képet, te javítanád kézzel vagy rábíznád újra az MI-re?


Legfrissebb posztok

MA 20:02

Az Indus-völgyi civilizációt évtizedes aszályok döntötték romba

Az Indus-völgyi civilizáció, az egyik legkorábbi városi társadalom, fokozatos eltűnését évszázadokon át tartó aszályok okozták...

MA 19:50

A véres Csendes éj visszatér: Mikulás lemészárolja a nácikat

🥳 1984-ben a Csendes éj, halálos éj (Silent Night, Deadly Night) című karácsonyi slasher-film jóval nagyobb botrányt kavart, mint amekkora sikert aratott...

MA 19:34

A bélrendszer titkos fegyvere az elhízás és a cukorbetegség ellen

A Harvard Egyetem kutatócsoportja merőben új összefüggéseket talált az elhízás és a 2-es típusú cukorbetegség kialakulásával kapcsolatban: a bélbaktériumok által termelt anyagcsere-termékek alapjaiban befolyásolják, hogy a test hogyan kezeli az energiát...

MA 19:17

A ServiceNow történetének legnagyobb fogása lehet az Armis

💰 A ServiceNow szoftvercég 2 500 milliárd forintos (7 milliárd dolláros) ügyletben tárgyal az Armis nevű kiberbiztonsági startup felvásárlásáról...

MA 19:02

A Végítélet-gleccser megremeg: közeleg a jégapokalipszis?

Antarktisz délnyugati peremén, a Thwaites-gleccser, más néven a Végítélet-gleccser, környezetében eddig soha nem látott mértékben jelentkeznek jégből eredő földrengések...

MA 18:50

Az ultrarövid lézerek forradalma: molekulák titkos kézfogása leleplezve

🔬 Egy lényeges szempont, hogy az élő sejteken belül a folyadékok szerkezete hihetetlenül összetett...

MA 18:33

A sejtek összetapadásának ősi titkai: a talin színre lép

🧠 Az állati sejtek – így az emberi sejtek is – különösen erősen képesek hozzátapadni a környezetükhöz, ami lehetővé teszi, hogy bonyolultabb szövetek és szervek alakuljanak ki...

MA 18:18

Az MI szándékosan elrontja a képeit – és beválik

Az MI-alapú képgenerátorok meglepő irányt vettek: egyre valósághűbb hamisítványokat készítenek, méghozzá úgy, hogy szándékosan rontanak a képminőségen...

MA 17:50

A lélek jégtánca: halálos verseny a Déli-sarkért

❄ Különösen igaz ez akkor, ha a világ utolsó ismeretlen kontinensét akarja valaki meghódítani...

MA 17:35

Az önálló Hayley Williams: új fejezet, határtalan szabadság

🎶 Augusztusban Hayley Williams, a Paramore frontembere váratlanul 17 új dalt dobott piacra, ezzel valósággal felrobbantva a popzenei palettát...

MA 17:17

Az új Pop!_OS és COSMIC forradalmasítja a Linux-élményt

Az amerikai System76 kiadta a COSMIC asztali környezet első stabil verzióját, amelyet kifejezetten Linux-rendszerekhez fejlesztett...

MA 17:01

Az élet csodaszép: három időtálló pénzügyi tanulság ma is

😊 Karácsonykor sokan nosztalgiával nézik újra a klasszikus Az élet csodaszép (It’s a Wonderful Life) című filmet...

MA 16:50

Az amerikai diákhitel csapdája: fizetsz, de miért is?

💰 Sok egyetemista és volt diák az Egyesült Államokban jóval többet fizet vissza diákhitelére, mint amennyit feltétlenül szükséges lenne – pusztán azért, mert nem ismerik a számukra elérhető könnyítési programokat...

MA 16:34

Az élő fosszília: feltárult a vámpírtintahal genetikai kódja

🐙 Különösen igaz ez akkor, ha a mélytenger rejtélyes élőlényeiről van szó, amelyek évmilliók óta alig változtak – ilyen a vámpírtintahal (Vampyroteuthis infernalis) is...

MA 16:17

A Time az MI-építészeket választotta az Év Embereinek

A Time magazin idei címlapján az MI korszakának kulcsszereplői, az úgynevezett MI-építészek szerepelnek, akik sorsfordító módon formálják át a világot...

MA 16:02

Az AMD Redstone-frissítés miért dühítette fel a PC-s játékosokat?

💢 A héten végre megérkezett az AMD régóta várt Redstone frissítése, amely négy különböző technológiát kínál, de láthatóan sok PC-s játékos fejében okozott zavart...

MA 15:49

Az új mini SSD megváltás – vagy újabb zsákutca?

📥 A Biwin új Mini SSD formátuma most először vált elérhetővé a nagyközönség számára a rendkívül kicsi CL100 NVMe-kártyával...

MA 15:17

A brutális pénzpiaci kamatoknak hamarosan végük?

Az amerikai jegybank 2024-ben háromszor, majd 2025-ben ismét háromszor csökkentette a kamatot, így a betéti kamatok – köztük a pénzpiaci számlák (MMA) kamatai is – csökkenni kezdtek...

MA 15:02

A nagy lakáshitel-fordulat: így profitálhatsz a zuhanó kamatokból

🏡 December közepén tovább csökkennek az ingatlanfedezetű hitelkeretek (HELOC) kamatai, a bankok pedig sorra alakítják át ajánlataikat az új, 6,75%-os prime rate-hez igazítva...