Így varázsol képet és hangot a netre az mesterséges intelligencia

Így varázsol képet és hangot a netre az mesterséges intelligencia
A Workers AI platform már indulásakor azzal az ambícióval jött létre, hogy a MI-modellek egyre gyorsabbak és kisebbek legyenek. Speciális GPU-kkal felszerelt adatközpont-hálózatuk lehetővé teszi, hogy a világ bármely pontján villámgyors legyen a gépi tanulási inferencia. Ez a fejlesztés a kreatív MI-alkalmazások piacát célozza, mint például a késleltetés nélküli képgenerálás vagy a valós idejű hangalapú asszisztensek.

Új modellek, új lehetőségek: Leonardo és Deepgram

Külön figyelmet érdemel, hogy a Cloudflare most tovább bővíti MI modellkínálatát olyan zárt forrású partnerfejlesztésekkel, amelyek szorosan illeszkednek ezekhez az igényekhez. A Leonardo.Ai és a Deepgram együttműködésének köszönhetően a legújabb generációs képgenerálás és hangfeldolgozás is elérhető a Workers AI platformján, a Cloudflare infrastruktúráján futtatva. Ezek a modellek kiemelkedő sebesség-teljesítmény arányt kínálnak, így a fejlesztők a legtöbbet hozhatják ki képekből és hangból.

Ezek az újdonságok túlmutatnak az egyszerű MI-inferencia szolgáltatáson: a fejlesztők komplett alkalmazásokat is összeállíthatnak. Egy egyedi képgeneráló weboldal logikája futtatható a Workersön, a képeket a Workers AI generálja, a tárolásról az R2 gondoskodik, a kiszolgálást és átalakítást pedig a Cloudflare Images végzi. Valós idejű hangalapú ügynökök is létrehozhatók, ahol a WebRTC/WebSocket technológiák, beszéd- és szövegfeldolgozó modellek, valamint az orchestration szolgáltatás összehangoltan működnek.

Leonardo: lélegzetelállító képgenerálás pillanatok alatt

A Leonardo.Ai egy olyan MI-alapú médialabor, amely saját generatív modelljeit fejleszti és kínálja ügyfeleinek. Most két nagyágyújuk, a @cf/leonardo/phoenix-1.0 és a @cf/leonardo/lucid-origin is bekerült a Workers AI portfóliójába.

A Phoenix modellt teljes egészében a Leonardo fejlesztette, erőssége a jól olvasható feliratok és a pontos szövegértelmezés. Egy szabványos, 1024×1024 pixeles képet 25 lépésben mindössze 4,89 másodperc alatt állít elő – ez a sebesség a játékfejlesztéstől a személyre szabott honlap-illusztrációkig számos felhasználást tesz lehetővé. A Lucid Origin modell sem marad el: ez realisztikus, fotószerű képek generálásában brillírozik, ugyanezekkel a paraméterekkel 4,38 másodperc alatt készül el egy kép.

A képalkotást könnyedén integrálhatják a fejlesztők saját alkalmazásaikba, legyen szó karakterek generálásáról, egyedi vizuális megoldásokról vagy kreatív projektek széles választékáról.

Deepgram: a beszéd, ami érti az embert

A Deepgram olyan hangalapú MI-cég, amely saját audio modelljeivel emeli új szintre a természetes emberi beszéddel működő digitális asszisztenseket. A hangalapú vezérlés számos előnnyel bír: a beszéd tempója, hangsúlya, árnyalatai rengeteg információt hordoznak, amelyek mind kiaknázhatók az intelligens eszközök fejlesztésében.

A Workers AI-n most elérhető Deepgram modellek, mint a @cf/deepgram/nova-3 (beszédből szöveg) és a @cf/deepgram/aura-1 (szövegből beszéd), valós időben, rendkívül gyorsan dolgozzák fel a hangot. Ráadásul az új Aura-2 modell is hamarosan érkezik. Külön említésre méltó, hogy az mp3 fájlok mostantól közvetlenül, extra átalakítás nélkül is feldolgozhatók. WebSocket támogatás is elérhető, így stabil, kétirányú kapcsolat tartható fenn a szerverrel, ami különösen fontos a folyamatos beszélgetések feldolgozása során.

A fejlesztők a következő folyamat mentén dolgozhatnak: hangrögzítés bármilyen WebRTC forrásból, továbbítás WebSocketen keresztül az MI-pipeline-hoz, átirat készítése Deepgram modellekkel, a szöveg feldolgozása a kiválasztott nagy nyelvi modellel (LLM), majd az egész rendszer koordinálását a Realtime Agents szolgáltatás biztosítja.


Összegzés: fejlesztői Kánaán közeleg

Összességében elmondható, hogy a Cloudflare MI platformja most minden korábbinál komplexebb lehetőségeket kínál a fejlesztőknek: gyors, valósághű képgenerálás, intelligens hangfeldolgozás, fejlett tárolási és kiszolgálási infrastruktúra egyetlen helyen. Akár vizuális, akár hangalapú MI-alkalmazást szeretnél, vagy mindkettőt kombinálnád, mostantól minden adott ahhoz, hogy globális szinten álmodhasd meg és valósíthasd meg az ötleteidet. Az árakról, további részletekről és az induláshoz szükséges lépésekről részletes információ található a fejlesztői dokumentációban.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted minden fejlesztőnek etikus ilyen MI-rendszereket használni?
  • Te mit tennél, ha neked kellene eldönteni, hogy ilyen hang- és képgeneráló eszközök bekerüljenek-e egy alkalmazásba?



Legfrissebb posztok

hétfő 11:02

Legmenőbb angol szlengek 2025-re

mastige Londonban született reklámszó. Amikor azt akarod mondani, hogy egy termék egyszerre presztízs és tömegcucc — például egy olyan elektronikai kütyü, amit ugyan drágának tartanak, mégis rengetegen megveszik...



MA 12:40

Az ingyen áram ideje: Ausztráliában mindenki kap három óra napenergiát

Ausztráliában 2026-tól naponta legalább három órán át ingyen juthatnak áramhoz az emberek Új-Dél-Walesben, Délkelet-Queenslandben és Dél-Ausztráliában – még akkor is, ha nincs napelemük...

MA 12:31

Az Apple új frissítése: Üvegsima vezérlés és okosabb ébresztő

📱 Megérkezett az Apple legújabb, 26.1-es frissítése szinte minden rendszerre, többek közt iOS-re, iPadOS-re, macOS-re, watchOS-re, tvOS-re, visionOS-re és a HomePodra...

MA 12:21

Az MI ismét túllőtt a célon: Kamu vádak egy szenátor ellen

A Google kénytelen volt eltávolítani egy fejlesztőknek szánt MI-modellt a Studio platformjáról, miután a rendszer valótlan nemi erőszakváddal illette Marsha Blackburn amerikai szenátort...



MA 12:11

Az amerikai tőzsde álomvilága: jön a kijózanodás?

💰 Az elmúlt év elképesztő tőzsdei szárnyalása után a befektetőknek érdemes felkészülniük egy jelentősebb visszaesésre – figyelmeztet a Goldman Sachs és a Morgan Stanley...

MA 12:01

Az OpenAI gigászi MI-megállapodása az Amazonnal

🤝 Az OpenAI hét évre szóló, 14 400 milliárd forint (38 milliárd dollár) értékű szerződést írt alá az Amazon Web Services-szel, hogy felhőszolgáltatásaikat használja a CsevegőGPT (ChatGPT), a Sora (Sora) és más termékek működtetéséhez...

MA 11:52

Idén is vadászhatunk az Apple, a Shark és a Lego akcióira Black Friday alatt

🔥 A Black Friday mára az év egyik legizgalmasabb időszaka lett azok számára, akik a legjobb technológiát szeretnék beszerezni...

MA 11:43

Az MI-ügynökök új korszakába lépünk, vajon ki lesz az új Gemkapocs

🧠 A Microsoft egykori virtuális asszisztense, Clippy sokak emlékezetében meglehetősen kínos figura...



MA 11:32

A hálószobai fények észrevétlenül árthatnak a szívednek

Egy bostoni kutatás úttörő módon mutatott rá arra, hogy az éjszakai mesterséges fény – vagyis fényszennyezés – nem csupán a jó alvást zavarja meg, hanem közvetlenül károsíthatja a szív- és érrendszerünket is...

MA 11:21

Az új űrállomás, elindult a magánűrkorszak

A Vast nevű űripari startup letette névjegyét az űrkutatásban, miután sikeresen pályára állította Haven Demo nevű űreszközét, ezzel bizonyítva saját űrállomás-terveinek életképességét...



MA 11:11

Újabb Google-baki: a Gemma MI-t is le kellett állítani

🔴 A Google fejlesztőknek szánt Gemma MI-modelljét villámgyorsan eltávolították az AI Studio felületéről, miután Marsha Blackburn amerikai szenátor súlyos vádakat fogalmazott meg a rendszerrel szemben...

MA 11:01

Az MI-őrület: elsöprő költések, lassú haszon?

🧠 A vállalatok soha nem látott összegeket fektetnek a mesterséges intelligenciába, miközben a bevételek egyelőre messze elmaradnak a várakozásoktól...

MA 10:57

Az MI-t is bevetik: új backdoor a Microsoft ellen

A Microsoft biztonsági szakértői egy új, különösen innovatív backdoort fedeztek fel, amely a SesameOp nevet kapta, és az OpenAI Assistants API-ját használja titkos kommunikációs csatornaként...

MA 10:50

Az új hackerek távolról lopják el a szállítmányokat

A globális szállítmányozás új fenyegetéssel szembesül: kiberbűnözők kifejezetten teherforgalmi vállalatokat és fuvarozókat támadnak rosszindulatú e-mailekkel és hamis linkekkel, hogy távoli elérésű felügyeleti szoftvereket (RMM) telepítsenek, majd így eltérítsék és ellopják a rakományokat...



MA 10:43

Az OpenAI 14 000 milliárdos MI-üzletet kötött az Amazonnal

Az OpenAI és az Amazon Web Services monumentális, hét évre szóló szerződést kötött, amely több százezer Nvidia grafikus processzort biztosít az MI-modellek fejlesztéséhez...

MA 10:29

Az újabb Trump–Musk összeborulás: most Cuomo a befutó?

😎 Donald Trump egy nappal a New York-i polgármester-választás előtt arra szólította fel a város lakóit, hogy Andrew Cuomo-ra szavazzanak az esélyes demokrata jelölt, Zohran Mamdani helyett...

MA 10:22

Az MIT botladozása: 80% MI-s zsarolóvírus? Ugyan már!

Az MIT Sloan egyik nemrégiben megjelent munkapapírja azt állította, hogy a zsarolóvírus-támadások 80 százalékát már MI hajtja végre...



MA 10:15

Az OpenAI és az AWS egymásra licitáltak az NVIDIA-val

Az OpenAI és az AWS több évre szóló, 14 ezer milliárd forint (38 milliárd dollár) értékű megállapodást kötöttek, amelynek középpontjában kizárólag az NVIDIA grafikus processzorai állnak...

MA 10:07

Amerikai szenátor miatt tüntette el a Google a Gemma MI-t

A Google hirtelen eltávolította a Gemma nevű nyílt MI-modelljét az AI Studio felületéről, miután Marsha Blackburn republikánus szenátor panaszt tett...