Így varázsol képet és hangot a netre az mesterséges intelligencia

Így varázsol képet és hangot a netre az mesterséges intelligencia
A Workers AI platform már indulásakor azzal az ambícióval jött létre, hogy a MI-modellek egyre gyorsabbak és kisebbek legyenek. Speciális GPU-kkal felszerelt adatközpont-hálózatuk lehetővé teszi, hogy a világ bármely pontján villámgyors legyen a gépi tanulási inferencia. Ez a fejlesztés a kreatív MI-alkalmazások piacát célozza, mint például a késleltetés nélküli képgenerálás vagy a valós idejű hangalapú asszisztensek.

Új modellek, új lehetőségek: Leonardo és Deepgram

Külön figyelmet érdemel, hogy a Cloudflare most tovább bővíti MI modellkínálatát olyan zárt forrású partnerfejlesztésekkel, amelyek szorosan illeszkednek ezekhez az igényekhez. A Leonardo.Ai és a Deepgram együttműködésének köszönhetően a legújabb generációs képgenerálás és hangfeldolgozás is elérhető a Workers AI platformján, a Cloudflare infrastruktúráján futtatva. Ezek a modellek kiemelkedő sebesség-teljesítmény arányt kínálnak, így a fejlesztők a legtöbbet hozhatják ki képekből és hangból.

Ezek az újdonságok túlmutatnak az egyszerű MI-inferencia szolgáltatáson: a fejlesztők komplett alkalmazásokat is összeállíthatnak. Egy egyedi képgeneráló weboldal logikája futtatható a Workersön, a képeket a Workers AI generálja, a tárolásról az R2 gondoskodik, a kiszolgálást és átalakítást pedig a Cloudflare Images végzi. Valós idejű hangalapú ügynökök is létrehozhatók, ahol a WebRTC/WebSocket technológiák, beszéd- és szövegfeldolgozó modellek, valamint az orchestration szolgáltatás összehangoltan működnek.

Leonardo: lélegzetelállító képgenerálás pillanatok alatt

A Leonardo.Ai egy olyan MI-alapú médialabor, amely saját generatív modelljeit fejleszti és kínálja ügyfeleinek. Most két nagyágyújuk, a @cf/leonardo/phoenix-1.0 és a @cf/leonardo/lucid-origin is bekerült a Workers AI portfóliójába.

A Phoenix modellt teljes egészében a Leonardo fejlesztette, erőssége a jól olvasható feliratok és a pontos szövegértelmezés. Egy szabványos, 1024×1024 pixeles képet 25 lépésben mindössze 4,89 másodperc alatt állít elő – ez a sebesség a játékfejlesztéstől a személyre szabott honlap-illusztrációkig számos felhasználást tesz lehetővé. A Lucid Origin modell sem marad el: ez realisztikus, fotószerű képek generálásában brillírozik, ugyanezekkel a paraméterekkel 4,38 másodperc alatt készül el egy kép.

A képalkotást könnyedén integrálhatják a fejlesztők saját alkalmazásaikba, legyen szó karakterek generálásáról, egyedi vizuális megoldásokról vagy kreatív projektek széles választékáról.

Deepgram: a beszéd, ami érti az embert

A Deepgram olyan hangalapú MI-cég, amely saját audio modelljeivel emeli új szintre a természetes emberi beszéddel működő digitális asszisztenseket. A hangalapú vezérlés számos előnnyel bír: a beszéd tempója, hangsúlya, árnyalatai rengeteg információt hordoznak, amelyek mind kiaknázhatók az intelligens eszközök fejlesztésében.

A Workers AI-n most elérhető Deepgram modellek, mint a @cf/deepgram/nova-3 (beszédből szöveg) és a @cf/deepgram/aura-1 (szövegből beszéd), valós időben, rendkívül gyorsan dolgozzák fel a hangot. Ráadásul az új Aura-2 modell is hamarosan érkezik. Külön említésre méltó, hogy az mp3 fájlok mostantól közvetlenül, extra átalakítás nélkül is feldolgozhatók. WebSocket támogatás is elérhető, így stabil, kétirányú kapcsolat tartható fenn a szerverrel, ami különösen fontos a folyamatos beszélgetések feldolgozása során.

A fejlesztők a következő folyamat mentén dolgozhatnak: hangrögzítés bármilyen WebRTC forrásból, továbbítás WebSocketen keresztül az MI-pipeline-hoz, átirat készítése Deepgram modellekkel, a szöveg feldolgozása a kiválasztott nagy nyelvi modellel (LLM), majd az egész rendszer koordinálását a Realtime Agents szolgáltatás biztosítja.


Összegzés: fejlesztői Kánaán közeleg

Összességében elmondható, hogy a Cloudflare MI platformja most minden korábbinál komplexebb lehetőségeket kínál a fejlesztőknek: gyors, valósághű képgenerálás, intelligens hangfeldolgozás, fejlett tárolási és kiszolgálási infrastruktúra egyetlen helyen. Akár vizuális, akár hangalapú MI-alkalmazást szeretnél, vagy mindkettőt kombinálnád, mostantól minden adott ahhoz, hogy globális szinten álmodhasd meg és valósíthasd meg az ötleteidet. Az árakról, további részletekről és az induláshoz szükséges lépésekről részletes információ található a fejlesztői dokumentációban.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted minden fejlesztőnek etikus ilyen MI-rendszereket használni?
  • Te mit tennél, ha neked kellene eldönteni, hogy ilyen hang- és képgeneráló eszközök bekerüljenek-e egy alkalmazásba?



Legfrissebb posztok

hétfő 11:02

Legmenőbb angol szlengek 2025-re

mastige Londonban született reklámszó. Amikor azt akarod mondani, hogy egy termék egyszerre presztízs és tömegcucc — például egy olyan elektronikai kütyü, amit ugyan drágának tartanak, mégis rengetegen megveszik...



MA 07:29

Az MI-modellek alig értik a saját működésüket

🤔 A nyelvi modellek önreflexiója továbbra is gyenge lábakon áll. Az Anthropic legújabb kutatása szerint ezek a nagy nyelvi modellek (LLM-ek) csak ritkán képesek felismerni és leírni saját belső folyamataikat, annak ellenére, hogy olykor mutatnak némi önismereti jelet...



MA 07:22

Az OpenAI az Amazonhoz költözik, de továbbra is Microsoft-függő

Az OpenAI hét évre szóló, közel 14 000 milliárd forintos (38 milliárd dolláros) megállapodást kötött az Amazon Web Services-szel (AWS), hogy biztosítsa növekvő MI-számítási kapacitásait...



MA 07:15

Az ellopott rendőrségi fiókok miatt lyukasak a Flock kamerái?

🔒 Az amerikai törvényhozók szerint komoly veszélynek vannak kitéve azok az autórendszám-felismerő kamerák, amelyeket a Flock Safety üzemeltet országszerte, miután kiderült, hogy a cég nem kötelezi ügyfeleit a többfaktoros hitelesítés (MFA) használatára...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 11/4

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     伙力火车票 (iPhone/iPad)A 高铁管家 egy kínai utazási app, amely először kínált valós idejű vonatinformációkat...

MA 07:08

Az elnök nem is tudja, kit mentett fel

🙄 Donald Trump, volt amerikai elnök a közelmúltban kegyelmet adott a Binance kriptotőzsde alapítójának és volt vezérigazgatójának, Changpeng Zhaónak (C...

MA 07:01

Az ál-Solidity bővítmény csapdába csalja a fejlesztőket

A fejlesztők újabb veszélyforrással néznek szembe: a SleepyDuck nevű távoli elérésű trójai a népszerű Solidity-kiterjesztés hamis változataként jelent meg az Open VSX nyílt forráskódú bővítménytárban...



MA 06:57

Az összefonódott atomok erősebbé teszik a fénykibocsátást

💡 A fizikusok új kutatásban kimutatták, hogy az atomok közti közvetlen kölcsönhatás képes jelentősen felerősíteni a szuperradianciát, vagyis az atomok tömeges, tökéletesen hangolt fénykibocsátását...



MA 06:53

Az iPhone üveghatásának szabályozása végre a te kezedbe kerülhet

Az iOS 26.1 már letölthető, és izgalmas újdonságokat hoz az iPhone-tulajdonosoknak...



MA 06:40

Profi orrfuvola: fújd az orroddal a show-t!

A Bocarina Professional fekete orrfuvola minden zenészkedvű kíváncsinak kiváló választás. Ez az orral fújható különleges hangszer egyedülálló módon, minimális gyakorlással is élvezetes zenei élményt nyújt...

hétfő 20:55

Az Xpeng lenyomja a nagyokat olcsó villanyautóival

A kínai Xpeng történelmi növekedést mutat az elektromos autók piacán: egymás után második hónapban szállított le több mint 40 000 autót, ezzel a szegmens robbanásszerű tömegpiaci stratégiájának egyik legnagyobb nyertesévé vált...



hétfő 20:46

Az élet mulandóságát hirdette egy pompeji mozaik

Egyedülálló mozaikot fedeztek fel Pompejiben, amely még a Vezúv kitörése előtt készült, és emlékezteti a szemlélőt: mindannyian halandók vagyunk...

hétfő 20:37

Az első engedélyezett BMW: itt a kéz nélküli autópályás vezetés

A BMW első autógyártóként kapta meg a friss ENSZ 171-es szabályozás szerinti jóváhagyást, amellyel Motorway Assistant nevű rendszerét már több országban is bevezethetik...

hétfő 20:28

Valóban nekünk szólnak az MI-böngészők?

A böngészők világa forradalmi változásokon megy keresztül, az MI-integráció egyre nagyobb teret hódít...

hétfő 20:19

Az Apple legolcsóbb okosórája most fillérekbe kerül

Az Apple Watch SE 3 most először lett igazán olcsó: az Amazonon 199,99 dollárért, vagyis nagyjából 73 000 forintért lehet megvásárolni, ami körülbelül 18 000 forintos árcsökkenést jelent...

hétfő 20:01

Az OpenAI már évi 4 700 milliárd forint körül jár?

Sam Altman, az OpenAI vezérigazgatója szerint a cég jóval 13 milliárd dollár, vagyis nagyjából 4 700 milliárd forint éves bevétellel büszkélkedhet – és nála most már tényleg elég a folytonos faggatózásból, hogy miből fizetik ki az elképesztő költségeket...

hétfő 19:46

Az élet szikráját az ifjú Nap dühöngése adhatta

A fiatal Naphoz hasonló csillagok óriási energiájú kitörései döntő szerepet játszhattak abban, hogy a Földön megjelenjen az élet...



hétfő 19:37

Az idegesítő Windows-hiba végre eltűnt: leáll, ha leállítod

Sok felhasználó dühöngött már azon, hogy a „Frissítés és leállítás” opció valójában nem állította le a gépet, hanem újraindította...

hétfő 19:28

Az új Redmagic gamer mobil tényleg folyadékhűtéssel jön

🔥 A Redmagic 11 Pro szakít a hagyományokkal: ez az első olyan okostelefon (a kínai modelleken kívül), amely valódi folyadékhűtéssel érkezik...