Így varázsol képet és hangot a netre az mesterséges intelligencia

Így varázsol képet és hangot a netre az mesterséges intelligencia
A Workers AI platform már indulásakor azzal az ambícióval jött létre, hogy a MI-modellek egyre gyorsabbak és kisebbek legyenek. Speciális GPU-kkal felszerelt adatközpont-hálózatuk lehetővé teszi, hogy a világ bármely pontján villámgyors legyen a gépi tanulási inferencia. Ez a fejlesztés a kreatív MI-alkalmazások piacát célozza, mint például a késleltetés nélküli képgenerálás vagy a valós idejű hangalapú asszisztensek.

Új modellek, új lehetőségek: Leonardo és Deepgram

Külön figyelmet érdemel, hogy a Cloudflare most tovább bővíti MI modellkínálatát olyan zárt forrású partnerfejlesztésekkel, amelyek szorosan illeszkednek ezekhez az igényekhez. A Leonardo.Ai és a Deepgram együttműködésének köszönhetően a legújabb generációs képgenerálás és hangfeldolgozás is elérhető a Workers AI platformján, a Cloudflare infrastruktúráján futtatva. Ezek a modellek kiemelkedő sebesség-teljesítmény arányt kínálnak, így a fejlesztők a legtöbbet hozhatják ki képekből és hangból.

Ezek az újdonságok túlmutatnak az egyszerű MI-inferencia szolgáltatáson: a fejlesztők komplett alkalmazásokat is összeállíthatnak. Egy egyedi képgeneráló weboldal logikája futtatható a Workersön, a képeket a Workers AI generálja, a tárolásról az R2 gondoskodik, a kiszolgálást és átalakítást pedig a Cloudflare Images végzi. Valós idejű hangalapú ügynökök is létrehozhatók, ahol a WebRTC/WebSocket technológiák, beszéd- és szövegfeldolgozó modellek, valamint az orchestration szolgáltatás összehangoltan működnek.

Leonardo: lélegzetelállító képgenerálás pillanatok alatt

A Leonardo.Ai egy olyan MI-alapú médialabor, amely saját generatív modelljeit fejleszti és kínálja ügyfeleinek. Most két nagyágyújuk, a @cf/leonardo/phoenix-1.0 és a @cf/leonardo/lucid-origin is bekerült a Workers AI portfóliójába.

A Phoenix modellt teljes egészében a Leonardo fejlesztette, erőssége a jól olvasható feliratok és a pontos szövegértelmezés. Egy szabványos, 1024×1024 pixeles képet 25 lépésben mindössze 4,89 másodperc alatt állít elő – ez a sebesség a játékfejlesztéstől a személyre szabott honlap-illusztrációkig számos felhasználást tesz lehetővé. A Lucid Origin modell sem marad el: ez realisztikus, fotószerű képek generálásában brillírozik, ugyanezekkel a paraméterekkel 4,38 másodperc alatt készül el egy kép.

A képalkotást könnyedén integrálhatják a fejlesztők saját alkalmazásaikba, legyen szó karakterek generálásáról, egyedi vizuális megoldásokról vagy kreatív projektek széles választékáról.

Deepgram: a beszéd, ami érti az embert

A Deepgram olyan hangalapú MI-cég, amely saját audio modelljeivel emeli új szintre a természetes emberi beszéddel működő digitális asszisztenseket. A hangalapú vezérlés számos előnnyel bír: a beszéd tempója, hangsúlya, árnyalatai rengeteg információt hordoznak, amelyek mind kiaknázhatók az intelligens eszközök fejlesztésében.

A Workers AI-n most elérhető Deepgram modellek, mint a @cf/deepgram/nova-3 (beszédből szöveg) és a @cf/deepgram/aura-1 (szövegből beszéd), valós időben, rendkívül gyorsan dolgozzák fel a hangot. Ráadásul az új Aura-2 modell is hamarosan érkezik. Külön említésre méltó, hogy az mp3 fájlok mostantól közvetlenül, extra átalakítás nélkül is feldolgozhatók. WebSocket támogatás is elérhető, így stabil, kétirányú kapcsolat tartható fenn a szerverrel, ami különösen fontos a folyamatos beszélgetések feldolgozása során.

A fejlesztők a következő folyamat mentén dolgozhatnak: hangrögzítés bármilyen WebRTC forrásból, továbbítás WebSocketen keresztül az MI-pipeline-hoz, átirat készítése Deepgram modellekkel, a szöveg feldolgozása a kiválasztott nagy nyelvi modellel (LLM), majd az egész rendszer koordinálását a Realtime Agents szolgáltatás biztosítja.


Összegzés: fejlesztői Kánaán közeleg

Összességében elmondható, hogy a Cloudflare MI platformja most minden korábbinál komplexebb lehetőségeket kínál a fejlesztőknek: gyors, valósághű képgenerálás, intelligens hangfeldolgozás, fejlett tárolási és kiszolgálási infrastruktúra egyetlen helyen. Akár vizuális, akár hangalapú MI-alkalmazást szeretnél, vagy mindkettőt kombinálnád, mostantól minden adott ahhoz, hogy globális szinten álmodhasd meg és valósíthasd meg az ötleteidet. Az árakról, további részletekről és az induláshoz szükséges lépésekről részletes információ található a fejlesztői dokumentációban.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted minden fejlesztőnek etikus ilyen MI-rendszereket használni?
  • Te mit tennél, ha neked kellene eldönteni, hogy ilyen hang- és képgeneráló eszközök bekerüljenek-e egy alkalmazásba?


Legfrissebb posztok

MA 10:43

A Waymo önvezető autói megbénították a forgalmat San Franciscóban

Szombaton hatalmas áramszünet bénította meg San Franciscót, csúcsidőben mintegy 130 000 fogyasztót érintve...

MA 10:36

A nagy befutó: Bitcoin vagy Shiba Inu?

💰 A kriptovaluta világában a Bitcoin és a Shiba Inu az elmúlt évek legnagyobb sztárjai közé tartoznak; mindketten milliomosokat teremtettek a legelső befektetők közül...

MA 10:29

A James Webb leleplezte az univerzum káoszát: galaxisok ütköznek

Káprázatos új fényképet tettek közzé a James Webb űrteleszkóp és a Chandra röntgenobszervatórium: a képen két, egymásba gabalyodó spirálgalaxist látunk, amint épp ütköznek...

MA 10:24

Az asztali erő hátizsákban: itt a Dell Pro Max 18 Plus

A Dell Pro Max 18 Plus egy igazi monstrum a mobil munkaállomások között – a gép ereje fejlesztők, mérnökök, projektmenedzserek és MI-architektusok minden igényét kielégíti...

MA 10:15

Itt az ingyenes, nyílt DHI-képek új korszaka

Több mint ezer Docker Hardened Image (DHI) vált mostantól ingyenesen elérhetővé, ráadásul teljesen nyílt forráskódúvá, az Apache-2...

MA 10:08

Az álhirdetések éve: 300 milliárd forintnyi kár a kamu telefonszámok miatt

2025 első kilenc hónapjában több mint 396 ezer amerikai vált a vállalatnak álcázott csalás áldozatává, ami 18%-os növekedést jelent az előző évhez képest...

MA 10:02

Az utolsó levél: véget ér a dán posta kora

Érdemes megvizsgálni: Dánia több mint 400 éven át működő postaszolgálata idén december 30-án végleg befejezi a levélkézbesítést...

MA 09:58

A kínai MI-lázból az átlagember teljesen kimarad

A kínai technológiai tőzsdei bevezetésekben idén egészen elképesztő árfolyamemelkedéseket láthatunk. Bár a MetaX Integrated Circuits chipgyártó részvényeinek sanghaji debütálása is nagy vihart kavart, a Moore Threads társaság papírjai ennél is nagyobbat szóltak, amikor első kereskedési napjukon több mint 400 százalékot erősödtek...

MA 09:50

Az áttörés, amely forradalmasítja a Parkinson-kór kezelését

🧠 Egy friss kutatás alapjaiban változtatja meg, hogyan tekintünk a dopamin szerepére a mozgás irányításában és a Parkinson-kór kezelésében...

MA 09:36

A nagy döntés: VOO vagy QQQ – melyik a jobb?

📈 A tőzsdén kereskedett alapok (ETF-ek) közül a Vanguard S&P 500 ETF (VOO) és az Invesco QQQ Trust (QQQ) a legnépszerűbbek közé tartoznak, de eltérő befektetési stratégiát követnek...

MA 09:23

Az önvezető taxik leálltak San Franciscóban – most visszatérnek

🚗 Szombat este hatalmas áramszünet bénította meg San Francisco forgalmát, ami miatt Waymo robotaxik vesztegeltek az utakon...

MA 09:16

Meddig repíti az MI-hullám az S&P 500 bikapiacát?

Az elmúlt években az S&P 500 fantasztikus teljesítményt mutatott: két egymást követő évben is több mint 20 százalékos növekedést ért el, és minden jel arra mutat, hogy 2025-ben is újabb emelkedés következik...

MA 09:08

Az igazi Északi-sark: nem ott, ahol gondolnád

Hóvihar vagy sűrű köd sem zavarja meg a Télapót, amikor visszatér az ajándékozás után az Északi-sarkra – de még neki is tudnia kell, pontosan hová tart...

MA 09:02

A nagy sajtforradalom: Védik az agyunkat a zsíros sajtok?

Egy több mint huszonötezer ember részvételével zajlott, több mint negyedszázadon át tartó kutatás úttörő megállapításra jutott: a teljes tejből készült sajtok és tejszín rendszeres fogyasztása összefüggést mutat az alacsonyabb demenciakockázattal...

MA 08:58

A Google-temető újabb lakója: a Dark Web Report

A Google hamarosan megszünteti a Dark Web Report nevű e‑mail-értesítési szolgáltatását, amely 2023 óta figyelmeztette a felhasználókat, ha személyes adatuk megjelent a sötét weben...

MA 08:50

Az áthelyezés néha többet árt, mint használ

📦 Nagyvállalatokban gyakori, hogy munkavállalókat helyeznek át részlegek vagy pozíciók között, de ennek a lépésnek a hatása sokkal összetettebb, mint azt elsőre gondolnánk...

MA 08:37

Az excitonok megszelídítése: új korszak a kvantumeszközökben

⚡ A legújabb áttörés a 2D anyagok világában: a kutatók már képesek manipulálni az úgynevezett excitonok – azaz összekapcsolt elektron–lyuk párok – áramlását átmenetifém-dikalkogenid rétegekből épített moiré szuperrácsokban...

MA 08:29

Az éghajlat melegedése könnyen jégkorszakba csaphat át

❄ Az emberekben gyakran él az a kép, hogy a globális felmelegedés lassú és folyamatos hőmérséklet-növekedést jelent, de valójában a Föld klímarendszere hajlamos lehet a hirtelen túllendülésre...

MA 08:22

Az új CO2-akkumulátorok átírhatják a zöldenergia szabálykönyvét

Júliusban a Google és az olasz Energy Dome bejelentette, hogy új, szén-dioxidos akkumulátorral oldaná meg a megújuló energia hosszú távú tárolását...