Így varázsol képet és hangot a netre az mesterséges intelligencia

Így varázsol képet és hangot a netre az mesterséges intelligencia
A Workers AI platform már indulásakor azzal az ambícióval jött létre, hogy a MI-modellek egyre gyorsabbak és kisebbek legyenek. Speciális GPU-kkal felszerelt adatközpont-hálózatuk lehetővé teszi, hogy a világ bármely pontján villámgyors legyen a gépi tanulási inferencia. Ez a fejlesztés a kreatív MI-alkalmazások piacát célozza, mint például a késleltetés nélküli képgenerálás vagy a valós idejű hangalapú asszisztensek.

Új modellek, új lehetőségek: Leonardo és Deepgram

Külön figyelmet érdemel, hogy a Cloudflare most tovább bővíti MI modellkínálatát olyan zárt forrású partnerfejlesztésekkel, amelyek szorosan illeszkednek ezekhez az igényekhez. A Leonardo.Ai és a Deepgram együttműködésének köszönhetően a legújabb generációs képgenerálás és hangfeldolgozás is elérhető a Workers AI platformján, a Cloudflare infrastruktúráján futtatva. Ezek a modellek kiemelkedő sebesség-teljesítmény arányt kínálnak, így a fejlesztők a legtöbbet hozhatják ki képekből és hangból.

Ezek az újdonságok túlmutatnak az egyszerű MI-inferencia szolgáltatáson: a fejlesztők komplett alkalmazásokat is összeállíthatnak. Egy egyedi képgeneráló weboldal logikája futtatható a Workersön, a képeket a Workers AI generálja, a tárolásról az R2 gondoskodik, a kiszolgálást és átalakítást pedig a Cloudflare Images végzi. Valós idejű hangalapú ügynökök is létrehozhatók, ahol a WebRTC/WebSocket technológiák, beszéd- és szövegfeldolgozó modellek, valamint az orchestration szolgáltatás összehangoltan működnek.

Leonardo: lélegzetelállító képgenerálás pillanatok alatt

A Leonardo.Ai egy olyan MI-alapú médialabor, amely saját generatív modelljeit fejleszti és kínálja ügyfeleinek. Most két nagyágyújuk, a @cf/leonardo/phoenix-1.0 és a @cf/leonardo/lucid-origin is bekerült a Workers AI portfóliójába.

A Phoenix modellt teljes egészében a Leonardo fejlesztette, erőssége a jól olvasható feliratok és a pontos szövegértelmezés. Egy szabványos, 1024×1024 pixeles képet 25 lépésben mindössze 4,89 másodperc alatt állít elő – ez a sebesség a játékfejlesztéstől a személyre szabott honlap-illusztrációkig számos felhasználást tesz lehetővé. A Lucid Origin modell sem marad el: ez realisztikus, fotószerű képek generálásában brillírozik, ugyanezekkel a paraméterekkel 4,38 másodperc alatt készül el egy kép.

A képalkotást könnyedén integrálhatják a fejlesztők saját alkalmazásaikba, legyen szó karakterek generálásáról, egyedi vizuális megoldásokról vagy kreatív projektek széles választékáról.

Deepgram: a beszéd, ami érti az embert

A Deepgram olyan hangalapú MI-cég, amely saját audio modelljeivel emeli új szintre a természetes emberi beszéddel működő digitális asszisztenseket. A hangalapú vezérlés számos előnnyel bír: a beszéd tempója, hangsúlya, árnyalatai rengeteg információt hordoznak, amelyek mind kiaknázhatók az intelligens eszközök fejlesztésében.

A Workers AI-n most elérhető Deepgram modellek, mint a @cf/deepgram/nova-3 (beszédből szöveg) és a @cf/deepgram/aura-1 (szövegből beszéd), valós időben, rendkívül gyorsan dolgozzák fel a hangot. Ráadásul az új Aura-2 modell is hamarosan érkezik. Külön említésre méltó, hogy az mp3 fájlok mostantól közvetlenül, extra átalakítás nélkül is feldolgozhatók. WebSocket támogatás is elérhető, így stabil, kétirányú kapcsolat tartható fenn a szerverrel, ami különösen fontos a folyamatos beszélgetések feldolgozása során.

A fejlesztők a következő folyamat mentén dolgozhatnak: hangrögzítés bármilyen WebRTC forrásból, továbbítás WebSocketen keresztül az MI-pipeline-hoz, átirat készítése Deepgram modellekkel, a szöveg feldolgozása a kiválasztott nagy nyelvi modellel (LLM), majd az egész rendszer koordinálását a Realtime Agents szolgáltatás biztosítja.


Összegzés: fejlesztői Kánaán közeleg

Összességében elmondható, hogy a Cloudflare MI platformja most minden korábbinál komplexebb lehetőségeket kínál a fejlesztőknek: gyors, valósághű képgenerálás, intelligens hangfeldolgozás, fejlett tárolási és kiszolgálási infrastruktúra egyetlen helyen. Akár vizuális, akár hangalapú MI-alkalmazást szeretnél, vagy mindkettőt kombinálnád, mostantól minden adott ahhoz, hogy globális szinten álmodhasd meg és valósíthasd meg az ötleteidet. Az árakról, további részletekről és az induláshoz szükséges lépésekről részletes információ található a fejlesztői dokumentációban.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted minden fejlesztőnek etikus ilyen MI-rendszereket használni?
  • Te mit tennél, ha neked kellene eldönteni, hogy ilyen hang- és képgeneráló eszközök bekerüljenek-e egy alkalmazásba?



Legfrissebb posztok

Ahogy a nap újra felébred, hosszú zűrzavar jön az űrben

MA 15:27

Ahogy a nap újra felébred, hosszú zűrzavar jön az űrben

A Nap aktivitása az utóbbi időben jelentősen nőtt, és a kutatók arra figyelmeztetnek, hogy az elkövetkező évtizedekben további extrém űridőjárás várható. Ez élesen ellentmond a korábbi feltételezéseknek, amelyek...

Az ősi gyík, aki megelőzte a dinoszauruszokat

MA 14:26

Az ősi gyík, aki megelőzte a dinoszauruszokat

Egy parányi, új ősgyík maradványaira bukkantak Devon partjainál, Dél-Angliában. Ez az állat 242 millió évvel ezelőtt élt, a középső triász korban. Az Agriodontosaurus helsbypetrae nevű apró ragadozó teljes...

Medicaid megtakarítás, az emberek élete árán

MA 14:02

Medicaid megtakarítás, az emberek élete árán

😖 Az amerikai egészségügyi rendszer egyik visszatérő vitája, hogy miként lehetne csökkenteni a Medicaid, vagyis az állami egészségügyi támogatás költségeit. Időről időre felmerül az a téves elképzelés, hogy ha...

Az infarktus lehet, hogy fertőző – ezt senki sem látta előre

MA 13:51

Az infarktus lehet, hogy fertőző – ezt senki sem látta előre

😱 Világszerte elfogadott nézet volt eddig, hogy a szívroham kizárólag a rossz koleszterinnek és az életmódnak köszönhető. Most finn és brit kutatók olyan meglepő eredményt közöltek, amely átírhatja a...

Az univerzum egyik legizgalmasabb galaxisát figyelte meg a Hubble

MA 13:26

Az univerzum egyik legizgalmasabb galaxisát figyelte meg a Hubble

🚀 A Hubble űrtávcső lélegzetelállító felvételt készített az NGC 7456 spirálgalaxisról, amely több mint 51 millió fényévnyire található a Daru (Grus) csillagképben. Első pillantásra átlagosnak tűnhet, de a képen...

Meglepő ok, amiért először füstöltek múmiákat Ázsiában

MA 13:02

Meglepő ok, amiért először füstöltek múmiákat Ázsiában

Jelentőséggel bír, hogy a világ legősibb, szándékosan mumifikált emberi maradványai nem Egyiptomból vagy Peruból származnak. Délkelet-Ázsia mezőgazdaság előtti népei már mintegy 10 000 éve ismerték és alkalmazták a halottak...

Az MI-összefoglalók és a keresők háborúja

MA 12:51

Az MI-összefoglalók és a keresők háborúja

🤖 A Google új fejlesztése, az MI-alapú összefoglalók forradalmasítják a keresési találatokat, de nem mindenki örül ennek. Egy friss kereset szerint a Rolling Stone tulajdonosai beperelték a céget, mert...

Így készíthetsz lenyűgöző képeket az éjszakai égboltról

MA 12:27

Így készíthetsz lenyűgöző képeket az éjszakai égboltról

Az asztrofotózás világában a sötét égbolt és a csillagok izgalmas lehetőségeket nyújtanak – de csak azok számára, akik tudják, hogyan hangolják tökéletesre a fényképezőgépüket. Nem elég egy jó...

Az MI kódellenőr startup, amely két év alatt félmilliárdot ér

MA 12:01

Az MI kódellenőr startup, amely két év alatt félmilliárdot ér

🚀 Harjot Gill, a FluxNinja egykori alapítója, a kódgeneráló MI-alkalmazások terjedését figyelve észrevette, hogy ezek rengeteg hibás, utólag javítandó kódot eredményeznek. Ezt a problémát felismerve 2023 elején elindította a...