2025. 09. 19., 14:53

Így varázsol képet és hangot a netre az mesterséges intelligencia

Így varázsol képet és hangot a netre az mesterséges intelligencia
A Workers AI platform már indulásakor azzal az ambícióval jött létre, hogy a MI-modellek egyre gyorsabbak és kisebbek legyenek. Speciális GPU-kkal felszerelt adatközpont-hálózatuk lehetővé teszi, hogy a világ bármely pontján villámgyors legyen a gépi tanulási inferencia. Ez a fejlesztés a kreatív MI-alkalmazások piacát célozza, mint például a késleltetés nélküli képgenerálás vagy a valós idejű hangalapú asszisztensek.

Új modellek, új lehetőségek: Leonardo és Deepgram

Külön figyelmet érdemel, hogy a Cloudflare most tovább bővíti MI modellkínálatát olyan zárt forrású partnerfejlesztésekkel, amelyek szorosan illeszkednek ezekhez az igényekhez. A Leonardo.Ai és a Deepgram együttműködésének köszönhetően a legújabb generációs képgenerálás és hangfeldolgozás is elérhető a Workers AI platformján, a Cloudflare infrastruktúráján futtatva. Ezek a modellek kiemelkedő sebesség-teljesítmény arányt kínálnak, így a fejlesztők a legtöbbet hozhatják ki képekből és hangból.

Ezek az újdonságok túlmutatnak az egyszerű MI-inferencia szolgáltatáson: a fejlesztők komplett alkalmazásokat is összeállíthatnak. Egy egyedi képgeneráló weboldal logikája futtatható a Workersön, a képeket a Workers AI generálja, a tárolásról az R2 gondoskodik, a kiszolgálást és átalakítást pedig a Cloudflare Images végzi. Valós idejű hangalapú ügynökök is létrehozhatók, ahol a WebRTC/WebSocket technológiák, beszéd- és szövegfeldolgozó modellek, valamint az orchestration szolgáltatás összehangoltan működnek.

Leonardo: lélegzetelállító képgenerálás pillanatok alatt

A Leonardo.Ai egy olyan MI-alapú médialabor, amely saját generatív modelljeit fejleszti és kínálja ügyfeleinek. Most két nagyágyújuk, a @cf/leonardo/phoenix-1.0 és a @cf/leonardo/lucid-origin is bekerült a Workers AI portfóliójába.

A Phoenix modellt teljes egészében a Leonardo fejlesztette, erőssége a jól olvasható feliratok és a pontos szövegértelmezés. Egy szabványos, 1024×1024 pixeles képet 25 lépésben mindössze 4,89 másodperc alatt állít elő – ez a sebesség a játékfejlesztéstől a személyre szabott honlap-illusztrációkig számos felhasználást tesz lehetővé. A Lucid Origin modell sem marad el: ez realisztikus, fotószerű képek generálásában brillírozik, ugyanezekkel a paraméterekkel 4,38 másodperc alatt készül el egy kép.

A képalkotást könnyedén integrálhatják a fejlesztők saját alkalmazásaikba, legyen szó karakterek generálásáról, egyedi vizuális megoldásokról vagy kreatív projektek széles választékáról.

Deepgram: a beszéd, ami érti az embert

A Deepgram olyan hangalapú MI-cég, amely saját audio modelljeivel emeli új szintre a természetes emberi beszéddel működő digitális asszisztenseket. A hangalapú vezérlés számos előnnyel bír: a beszéd tempója, hangsúlya, árnyalatai rengeteg információt hordoznak, amelyek mind kiaknázhatók az intelligens eszközök fejlesztésében.

A Workers AI-n most elérhető Deepgram modellek, mint a @cf/deepgram/nova-3 (beszédből szöveg) és a @cf/deepgram/aura-1 (szövegből beszéd), valós időben, rendkívül gyorsan dolgozzák fel a hangot. Ráadásul az új Aura-2 modell is hamarosan érkezik. Külön említésre méltó, hogy az mp3 fájlok mostantól közvetlenül, extra átalakítás nélkül is feldolgozhatók. WebSocket támogatás is elérhető, így stabil, kétirányú kapcsolat tartható fenn a szerverrel, ami különösen fontos a folyamatos beszélgetések feldolgozása során.

A fejlesztők a következő folyamat mentén dolgozhatnak: hangrögzítés bármilyen WebRTC forrásból, továbbítás WebSocketen keresztül az MI-pipeline-hoz, átirat készítése Deepgram modellekkel, a szöveg feldolgozása a kiválasztott nagy nyelvi modellel (LLM), majd az egész rendszer koordinálását a Realtime Agents szolgáltatás biztosítja.


Összegzés: fejlesztői Kánaán közeleg

Összességében elmondható, hogy a Cloudflare MI platformja most minden korábbinál komplexebb lehetőségeket kínál a fejlesztőknek: gyors, valósághű képgenerálás, intelligens hangfeldolgozás, fejlett tárolási és kiszolgálási infrastruktúra egyetlen helyen. Akár vizuális, akár hangalapú MI-alkalmazást szeretnél, vagy mindkettőt kombinálnád, mostantól minden adott ahhoz, hogy globális szinten álmodhasd meg és valósíthasd meg az ötleteidet. Az árakról, további részletekről és az induláshoz szükséges lépésekről részletes információ található a fejlesztői dokumentációban.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted minden fejlesztőnek etikus ilyen MI-rendszereket használni?
  • Te mit tennél, ha neked kellene eldönteni, hogy ilyen hang- és képgeneráló eszközök bekerüljenek-e egy alkalmazásba?


Legfrissebb posztok

MA 17:02

A Rhythm Heaven Groove fél ütemmel kullog a vetélytársak mögött

Ha valaki több mint egy évtizede játszott a Rhythm Heavennel, valószínűleg sosem felejtette el azt a különös, szürreális világot, ahol dadogó pankrátorok és furcsa madarak ugrálnak egy lélekmelengető popdallamra...

MA 16:31

Az antwerpeni társasháztűzben legalább hatan meghaltak

🔥 Legalább hatan életüket vesztették, amikor tűz ütött ki egy tízemeletes társasházban Antwerpen Linkeroever városrészében...

MA 16:01

A brit üvegszálfronton új csavar: gyorsítottan kebeleznék be a Netomniát

A brit távközlési piac gigantikus átalakulása zajlik: az ország versenyhatósága kiemelt vizsgálatot indított annak kapcsán, hogy a Netomnia anyavállalatát, a Substantialt a Liberty Global, a Telefonica és az InfraVia konzorciuma felvásárolja...

MA 15:31

Az étteremláncok titkos háborúja az új márkák bekebelezéséért

Egy márka felvásárlása mindig izgalmas hír, de az igazi próbatétel csak akkor kezdődik, amikor a háttérben elindul a két vállalkozás összefésülése...

MA 15:01

A Meta limitet szab az okosszemüvegek Conversation Focusának

👑 A Meta okosszemüvegei új korlátozást kaptak: már csak havi három órán át használható ingyen a Conversation Focus nevű funkció...

MA 14:31

Az amerikai kormány újra zöld utat ad Anthropic Mythos és Fable MI‑modelljeinek

Az Egyesült Államok Kereskedelmi Minisztériuma feloldotta az exporttilalmat az Anthropic két fejlett MI-modellje, a Mythos 5 és a Fable 5 esetében...

MA 10:25

Az amerikai kormány zöld utat ad a legerősebb Claude-oknak

Az Anthropic szerdától újra elérhetővé teszi a csúcskategóriás Claude Fable 5-öt, miután a Kereskedelmi Minisztérium feloldotta az exportkorlátozásokat...

MA 10:01

A Meta-leépítések után is cáfolja az MI miatti állásfélelmeket Zuckerberg

A technológiai iparban egyre nagyobb félelem övezi azt, hogy az MI széles körű elterjedése mennyi munkahely megszűnéséhez vezethet...

MA 09:25

A rejtélyesen eltűnő chatek: felháborodtak a Claude Code-felhasználók

Érdemes megvizsgálni, hogy a Claude Code felhasználói egyre gyakrabban panaszkodnak arra, hogy egyik napról a másikra eltűnnek a beszélgetési előzményeik...

MA 09:14

A Pokémon GO júliusa: új raidfőnökök, kiemelt órák, GO Fest-őrület

Júliusban a Pokémon GO rajongóira izgalmas hónap vár, hiszen a mobileszközökön futó játék tizedik évfordulóját ünnepli, miközben a Forever Forward szezon tovább pörög...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 7/1

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     ImgRef (iPhone/iPad)Az App Store szerkesztői által kiemelten ajánlott alkalmazás lenyűgöző, 98%-os ötcsillagos értékeléssel büszkélkedhet...

MA 09:01

Az MI rejtett szívkockázati jelre bukkant a százéves EKG-ban

❤ A hirtelen szívhalál évente rengeteg áldozatot követel, jóllehet a beültethető defibrillátorok már évtizedek óta képesek lennének megelőzni a tragédiák jelentős részét...

MA 08:37

A NASA négy új robotküldetéssel tör utat a holdbázisnak

🚀 Megemlíthető, hogy az amerikai űrügynökség egyre nagyobb lendülettel dolgozik azon, hogy hosszú távú emberi jelenlétet teremtsen a Holdon...

MA 08:25

Az MI-lökéshullám felpörgeti a Dell bevételeit, de messze nem aranybánya

Michael Dell idén egészen elképesztő sikereket ér el: cége meghatározó beszállító lett az adatközpont-fejlesztésekben, többek között a CoreWeave és az xAI számára szállít Nvidia-alapú szervereket, rackeket, hűtőrendszereket, valamint támogatást, miközben együttműködik a Microsofttal, a Google-lel és az OpenAI-jal is nagy teljesítményű MI-rendszerek építésében...

MA 08:13

A 6 milliós Pokémon-kártyalopásért több mint tíz év börtönt kapott

💰 Egy észak-karolinai férfi több mint tíz év börtönt kapott, miután beismerte, hogy januárban Pokémon-kártyákat és pénzt lopott egy helyi videójátékbolt alkalmazottjától Wilmingtonban...

MA 08:01

A Szamóca-hold ma este: az év legalacsonyabb, apró teliholdja

🍇 Idén június 29-én érdemes az eget figyelni: ekkor látható a júniusi telihold, más néven az Eperhold (Strawberry Moon), ami az év legalacsonyabban járó és egyik legkisebb teliholdja lesz...

MA 07:48

Az Android 17 új zárképernyő-trükkje bárkit elbuktat betöréskor

Az Android 17 jelentős szigorításokat vezet be a zárolóképernyőn, amellyel gyakorlatilag ellehetetleníti a PIN vagy jelszó feltörését...

MA 07:36

A kínai Lineshine szuperszámítógép világrekorder: közel 2 kvadrillió művelet/mp

A kínai LineShine szuperszámítógép most először szerezte meg a világelsőséget a számítási sebesség terén...

MA 07:25

Az amerikai agrárminisztérium 180 millió legyet enged szabadon – íme, miért

A mexikói Metapában egy vadonatúj, 2043 négyzetméteres üzemben indult el az Egyesült Államok mezőgazdasági minisztériumának (USDA) legújabb programja: steril legyek tömeges előállítása...

MA 07:13

A Microsoft felpörgeti kvantumbiztos ütemtervét, nőnek a kockázatok

⚡ A Microsoft az eddigieknél sokkal gyorsabban készül átállni a kvantumbiztos védelemre, mert a kvantumszámítógépek fejlődése minden korábbinál nagyobb fenyegetést jelent a jelenlegi titkosítási szabványokra...

MA 06:49

Az MI‑böngészők új réme: a BioShocking-adatlopás

Felmerül a kérdés, hogy mennyire bízhatunk meg a mesterséges intelligenciával hajtott böngészőkben, ha egy új támadás képes kijátszani a biztonsági korlátokat...

MA 06:37

A Samsung szó szerint átformálja a hajlítható telefonjait?

Ahogy beköszönt a nyár, egyre hangosabbak a pletykák a Samsung legújabb összehajtható telefonjairól...

MA 06:06

Történelmi események a mai napon (Július 1.)

Ma háborúk fordulópontjai, birodalmak átrendeződései és új korszakokat nyitó tudományos, társadalmi mérföldkövek találkoznak...

MA 06:01

Az okosabb botvédelem mostantól megóvja a Teams-megbeszéléseket

🔒 A Microsoft fejlesztéseinek köszönhetően mostantól jóval biztonságosabbak lesznek a Teams-megbeszélések, hiszen egy új szabályozás lehetővé teszi, hogy a felhasználók blokkolják az engedély nélküli, harmadik féltől származó botok csatlakozását...

kedd 18:32

A Cleveland-i Fed elnöke szerint MI fűti az inflációt – jöhet újabb kamatemelés

A mesterséges intelligencia infrastruktúrája iránti fékezhetetlen igény egyre nagyobb mértékben fűti az inflációt – figyelmeztetett Beth Hammack, a clevelandi Szövetségi Tartalékbank elnöke...

kedd 18:01

A Samsung Messages júliusban leáll: ezt az 5 dolgot tedd meg azonnal!

⚠ A Samsung Messages alkalmazás hamarosan végleg eltűnik az amerikai felhasználók mobiljáról, így akinek fontosak a régi üzenetei, vagy továbbra is csevegni szeretne, érdemes minél előbb lépnie...

kedd 17:02

Az új CRISPR az epigenomot célozza, átírja a gének kapcsolóit

🔨 Felmerül a kérdés, hogy mi lenne, ha a betegségeket nem csupán a DNS szerkesztésével, hanem a gének működésének speciális beállításával lehetne kezelni?..

kedd 16:31

A Tata Electronicsnál múlt héten kiszivárogtak érzékeny iPhone-beszállítói adatok

Az elmúlt héten hatalmas adatlopás történt az indiai Tata Electronicsnál, ahol közel 630 GB-nyi bizalmas információ került illetéktelen kezekbe...

kedd 16:01

A YouTube-on már nézhető a Peacock – épp a vb-re!

A Peacock Premium Plus már elérhető a YouTube Primetime Channels szolgáltatáson keresztül, így mostantól közvetlenül a YouTube alkalmazásban is előfizethetsz rá, és nézheted az összes tartalmat – legyen szó mobilról, tabletről vagy okostévéről...