Így varázsol képet és hangot a netre az mesterséges intelligencia

Így varázsol képet és hangot a netre az mesterséges intelligencia
A Workers AI platform már indulásakor azzal az ambícióval jött létre, hogy a MI-modellek egyre gyorsabbak és kisebbek legyenek. Speciális GPU-kkal felszerelt adatközpont-hálózatuk lehetővé teszi, hogy a világ bármely pontján villámgyors legyen a gépi tanulási inferencia. Ez a fejlesztés a kreatív MI-alkalmazások piacát célozza, mint például a késleltetés nélküli képgenerálás vagy a valós idejű hangalapú asszisztensek.

Új modellek, új lehetőségek: Leonardo és Deepgram

Külön figyelmet érdemel, hogy a Cloudflare most tovább bővíti MI modellkínálatát olyan zárt forrású partnerfejlesztésekkel, amelyek szorosan illeszkednek ezekhez az igényekhez. A Leonardo.Ai és a Deepgram együttműködésének köszönhetően a legújabb generációs képgenerálás és hangfeldolgozás is elérhető a Workers AI platformján, a Cloudflare infrastruktúráján futtatva. Ezek a modellek kiemelkedő sebesség-teljesítmény arányt kínálnak, így a fejlesztők a legtöbbet hozhatják ki képekből és hangból.

Ezek az újdonságok túlmutatnak az egyszerű MI-inferencia szolgáltatáson: a fejlesztők komplett alkalmazásokat is összeállíthatnak. Egy egyedi képgeneráló weboldal logikája futtatható a Workersön, a képeket a Workers AI generálja, a tárolásról az R2 gondoskodik, a kiszolgálást és átalakítást pedig a Cloudflare Images végzi. Valós idejű hangalapú ügynökök is létrehozhatók, ahol a WebRTC/WebSocket technológiák, beszéd- és szövegfeldolgozó modellek, valamint az orchestration szolgáltatás összehangoltan működnek.

Leonardo: lélegzetelállító képgenerálás pillanatok alatt

A Leonardo.Ai egy olyan MI-alapú médialabor, amely saját generatív modelljeit fejleszti és kínálja ügyfeleinek. Most két nagyágyújuk, a @cf/leonardo/phoenix-1.0 és a @cf/leonardo/lucid-origin is bekerült a Workers AI portfóliójába.

A Phoenix modellt teljes egészében a Leonardo fejlesztette, erőssége a jól olvasható feliratok és a pontos szövegértelmezés. Egy szabványos, 1024×1024 pixeles képet 25 lépésben mindössze 4,89 másodperc alatt állít elő – ez a sebesség a játékfejlesztéstől a személyre szabott honlap-illusztrációkig számos felhasználást tesz lehetővé. A Lucid Origin modell sem marad el: ez realisztikus, fotószerű képek generálásában brillírozik, ugyanezekkel a paraméterekkel 4,38 másodperc alatt készül el egy kép.

A képalkotást könnyedén integrálhatják a fejlesztők saját alkalmazásaikba, legyen szó karakterek generálásáról, egyedi vizuális megoldásokról vagy kreatív projektek széles választékáról.

Deepgram: a beszéd, ami érti az embert

A Deepgram olyan hangalapú MI-cég, amely saját audio modelljeivel emeli új szintre a természetes emberi beszéddel működő digitális asszisztenseket. A hangalapú vezérlés számos előnnyel bír: a beszéd tempója, hangsúlya, árnyalatai rengeteg információt hordoznak, amelyek mind kiaknázhatók az intelligens eszközök fejlesztésében.

A Workers AI-n most elérhető Deepgram modellek, mint a @cf/deepgram/nova-3 (beszédből szöveg) és a @cf/deepgram/aura-1 (szövegből beszéd), valós időben, rendkívül gyorsan dolgozzák fel a hangot. Ráadásul az új Aura-2 modell is hamarosan érkezik. Külön említésre méltó, hogy az mp3 fájlok mostantól közvetlenül, extra átalakítás nélkül is feldolgozhatók. WebSocket támogatás is elérhető, így stabil, kétirányú kapcsolat tartható fenn a szerverrel, ami különösen fontos a folyamatos beszélgetések feldolgozása során.

A fejlesztők a következő folyamat mentén dolgozhatnak: hangrögzítés bármilyen WebRTC forrásból, továbbítás WebSocketen keresztül az MI-pipeline-hoz, átirat készítése Deepgram modellekkel, a szöveg feldolgozása a kiválasztott nagy nyelvi modellel (LLM), majd az egész rendszer koordinálását a Realtime Agents szolgáltatás biztosítja.


Összegzés: fejlesztői Kánaán közeleg

Összességében elmondható, hogy a Cloudflare MI platformja most minden korábbinál komplexebb lehetőségeket kínál a fejlesztőknek: gyors, valósághű képgenerálás, intelligens hangfeldolgozás, fejlett tárolási és kiszolgálási infrastruktúra egyetlen helyen. Akár vizuális, akár hangalapú MI-alkalmazást szeretnél, vagy mindkettőt kombinálnád, mostantól minden adott ahhoz, hogy globális szinten álmodhasd meg és valósíthasd meg az ötleteidet. Az árakról, további részletekről és az induláshoz szükséges lépésekről részletes információ található a fejlesztői dokumentációban.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted minden fejlesztőnek etikus ilyen MI-rendszereket használni?
  • Te mit tennél, ha neked kellene eldönteni, hogy ilyen hang- és képgeneráló eszközök bekerüljenek-e egy alkalmazásba?


Legfrissebb posztok

MA 09:02

A nagy sajtforradalom: Védik az agyunkat a zsíros sajtok?

Egy több mint huszonötezer ember részvételével zajlott, több mint negyedszázadon át tartó kutatás úttörő megállapításra jutott: a teljes tejből készült sajtok és tejszín rendszeres fogyasztása összefüggést mutat az alacsonyabb demenciakockázattal...

MA 08:58

A Google-temető újabb lakója: a Dark Web Report

A Google hamarosan megszünteti a Dark Web Report nevű e‑mail-értesítési szolgáltatását, amely 2023 óta figyelmeztette a felhasználókat, ha személyes adatuk megjelent a sötét weben...

MA 08:50

Az áthelyezés néha többet árt, mint használ

📦 Nagyvállalatokban gyakori, hogy munkavállalókat helyeznek át részlegek vagy pozíciók között, de ennek a lépésnek a hatása sokkal összetettebb, mint azt elsőre gondolnánk...

MA 08:37

Az excitonok megszelídítése: új korszak a kvantumeszközökben

⚡ A legújabb áttörés a 2D anyagok világában: a kutatók már képesek manipulálni az úgynevezett excitonok – azaz összekapcsolt elektron–lyuk párok – áramlását átmenetifém-dikalkogenid rétegekből épített moiré szuperrácsokban...

MA 08:29

Az éghajlat melegedése könnyen jégkorszakba csaphat át

❄ Az emberekben gyakran él az a kép, hogy a globális felmelegedés lassú és folyamatos hőmérséklet-növekedést jelent, de valójában a Föld klímarendszere hajlamos lehet a hirtelen túllendülésre...

MA 08:22

Az új CO2-akkumulátorok átírhatják a zöldenergia szabálykönyvét

Júliusban a Google és az olasz Energy Dome bejelentette, hogy új, szén-dioxidos akkumulátorral oldaná meg a megújuló energia hosszú távú tárolását...

MA 08:15

A mesterséges intelligencia rendet vág a káoszban

🤓 Ilyen eset például, amikor a természet vagy a modern technológia folyamatai első pillantásra kaotikusnak tűnnek, de a legújabb mesterséges intelligencia (MI) segíthet megtalálni a mögöttük rejlő egyszerű szabályokat...

MA 08:02

Az MI sem megváltás: sorra dőlnek be a hardveróriások

Az elmúlt hét az eddigi legsötétebb időszakot hozta el több ismert hardvergyártó számára: az iRobot, a Luminar és a Rad Power Bikes mind csődöt jelentett...

MA 07:57

Az ősi dinoszaurusztojások feltárják az idő legmélyebb titkait

🦖 Egy legújabb felfedezés szerint a dinoszaurusztojások héja valódi időkapszulaként működik, pontos képet adva arról, mikor éltek ezek a fantasztikus teremtmények...

MA 07:51

Az épített világ titokban magányossá tesz minket

🛏 Az amerikai városok és elővárosok kialakítása komoly hatással van a mentális egészségre...

MA 07:17

A valódi csoki luxus lesz – már idén jön a mű

🍫 Az idei ünnepi szezonban könnyen előfordulhat, hogy a csokiba csomagolt meglepetésekben nem sok igazi kakaót találsz...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 12/22

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Blood Oxygen SPO2 App (iPhone/iPad)Az Oxygen Saturation – SpO₂ Tracker figyeli a vér oxigénszintjét, és okos értesítésekkel jelez rendellenesség esetén...

MA 07:08

Az adatláz forró pontjain rossz helyre épülnek az adatközpontok

Szinte az összes nagy adatközpont kedvezőtlen klímában működik világszerte – derült ki egy friss kutatásból...

MA 07:02

Egy szupernóva gyújtotta be az életet a Földön?

Kevés dolog foglalkoztatja jobban a tudományt, mint az, hogyan jöttek létre a Földhöz hasonló bolygók az univerzumban...

MA 06:58

Az MI végre a dolgozók kezébe kerül?

🤵 Az MI bevezetése napjainkban egyre gyorsabb tempóban zajlik a munkahelyeken, ám ennek következtében sokan kiszorulnak, és óriási a zűrzavar...

MA 06:50

Az Ubiquiti CloudKey Gen2 Plus: tényleg mindenes központ?

💡 Az Ubiquiti CloudKey Gen2 Plus egy kompakt vezérlőeszköz, amelyet kifejezetten arra fejlesztettek ki, hogy helyi hálózaton keresztül menedzseld az összes Ubiquiti eszközödet, így nem kell külön-külön belépned a switch, az access point vagy az NVR felületére...

MA 06:43

Az egymillió dolláros nyugdíj álma gyorsabban szertefoszlik, mint hinnéd

💸 Tíz–húsz éve még óriási összegnek számított egymillió dollár (azaz kb. 367 millió forint), ma azonban sokak számára már nem elég egy gondtalan nyugdíjhoz...

MA 06:37

Az elkülönítő zárka csak olaj a tűzre

🔥 A fegyelmi elkülönítés, vagyis a magánzárka Québec tartomány börtöneiben még mindig elterjedt gyakorlat, amikor valaki megszegi a szabályokat – akár 24, 48 vagy 72 órára is elzárhatják...

MA 06:29

A GuliKit új modja végre száműzi a stick driftet a ROG Ally-ról

😃 A GuliKit bemutatta legújabb fejlesztését, amellyel mindössze 7 300 forintért (kb...