2025. 09. 19., 14:53

Így varázsol képet és hangot a netre az mesterséges intelligencia

Így varázsol képet és hangot a netre az mesterséges intelligencia
A Workers AI platform már indulásakor azzal az ambícióval jött létre, hogy a MI-modellek egyre gyorsabbak és kisebbek legyenek. Speciális GPU-kkal felszerelt adatközpont-hálózatuk lehetővé teszi, hogy a világ bármely pontján villámgyors legyen a gépi tanulási inferencia. Ez a fejlesztés a kreatív MI-alkalmazások piacát célozza, mint például a késleltetés nélküli képgenerálás vagy a valós idejű hangalapú asszisztensek.

Új modellek, új lehetőségek: Leonardo és Deepgram

Külön figyelmet érdemel, hogy a Cloudflare most tovább bővíti MI modellkínálatát olyan zárt forrású partnerfejlesztésekkel, amelyek szorosan illeszkednek ezekhez az igényekhez. A Leonardo.Ai és a Deepgram együttműködésének köszönhetően a legújabb generációs képgenerálás és hangfeldolgozás is elérhető a Workers AI platformján, a Cloudflare infrastruktúráján futtatva. Ezek a modellek kiemelkedő sebesség-teljesítmény arányt kínálnak, így a fejlesztők a legtöbbet hozhatják ki képekből és hangból.

Ezek az újdonságok túlmutatnak az egyszerű MI-inferencia szolgáltatáson: a fejlesztők komplett alkalmazásokat is összeállíthatnak. Egy egyedi képgeneráló weboldal logikája futtatható a Workersön, a képeket a Workers AI generálja, a tárolásról az R2 gondoskodik, a kiszolgálást és átalakítást pedig a Cloudflare Images végzi. Valós idejű hangalapú ügynökök is létrehozhatók, ahol a WebRTC/WebSocket technológiák, beszéd- és szövegfeldolgozó modellek, valamint az orchestration szolgáltatás összehangoltan működnek.

Leonardo: lélegzetelállító képgenerálás pillanatok alatt

A Leonardo.Ai egy olyan MI-alapú médialabor, amely saját generatív modelljeit fejleszti és kínálja ügyfeleinek. Most két nagyágyújuk, a @cf/leonardo/phoenix-1.0 és a @cf/leonardo/lucid-origin is bekerült a Workers AI portfóliójába.

A Phoenix modellt teljes egészében a Leonardo fejlesztette, erőssége a jól olvasható feliratok és a pontos szövegértelmezés. Egy szabványos, 1024×1024 pixeles képet 25 lépésben mindössze 4,89 másodperc alatt állít elő – ez a sebesség a játékfejlesztéstől a személyre szabott honlap-illusztrációkig számos felhasználást tesz lehetővé. A Lucid Origin modell sem marad el: ez realisztikus, fotószerű képek generálásában brillírozik, ugyanezekkel a paraméterekkel 4,38 másodperc alatt készül el egy kép.

A képalkotást könnyedén integrálhatják a fejlesztők saját alkalmazásaikba, legyen szó karakterek generálásáról, egyedi vizuális megoldásokról vagy kreatív projektek széles választékáról.

Deepgram: a beszéd, ami érti az embert

A Deepgram olyan hangalapú MI-cég, amely saját audio modelljeivel emeli új szintre a természetes emberi beszéddel működő digitális asszisztenseket. A hangalapú vezérlés számos előnnyel bír: a beszéd tempója, hangsúlya, árnyalatai rengeteg információt hordoznak, amelyek mind kiaknázhatók az intelligens eszközök fejlesztésében.

A Workers AI-n most elérhető Deepgram modellek, mint a @cf/deepgram/nova-3 (beszédből szöveg) és a @cf/deepgram/aura-1 (szövegből beszéd), valós időben, rendkívül gyorsan dolgozzák fel a hangot. Ráadásul az új Aura-2 modell is hamarosan érkezik. Külön említésre méltó, hogy az mp3 fájlok mostantól közvetlenül, extra átalakítás nélkül is feldolgozhatók. WebSocket támogatás is elérhető, így stabil, kétirányú kapcsolat tartható fenn a szerverrel, ami különösen fontos a folyamatos beszélgetések feldolgozása során.

A fejlesztők a következő folyamat mentén dolgozhatnak: hangrögzítés bármilyen WebRTC forrásból, továbbítás WebSocketen keresztül az MI-pipeline-hoz, átirat készítése Deepgram modellekkel, a szöveg feldolgozása a kiválasztott nagy nyelvi modellel (LLM), majd az egész rendszer koordinálását a Realtime Agents szolgáltatás biztosítja.


Összegzés: fejlesztői Kánaán közeleg

Összességében elmondható, hogy a Cloudflare MI platformja most minden korábbinál komplexebb lehetőségeket kínál a fejlesztőknek: gyors, valósághű képgenerálás, intelligens hangfeldolgozás, fejlett tárolási és kiszolgálási infrastruktúra egyetlen helyen. Akár vizuális, akár hangalapú MI-alkalmazást szeretnél, vagy mindkettőt kombinálnád, mostantól minden adott ahhoz, hogy globális szinten álmodhasd meg és valósíthasd meg az ötleteidet. Az árakról, további részletekről és az induláshoz szükséges lépésekről részletes információ található a fejlesztői dokumentációban.

2025, adminboss, blog.cloudflare.com alapján

  • Te szerinted minden fejlesztőnek etikus ilyen MI-rendszereket használni?
  • Te mit tennél, ha neked kellene eldönteni, hogy ilyen hang- és képgeneráló eszközök bekerüljenek-e egy alkalmazásba?


Legfrissebb posztok

MA 07:57

Az új tömegspektrométer egyszerre milliárdnyi molekula titkát fedi fel

🔬 Az elmúlt évtizedekben a tömegspektrometria alapvető eszközzé vált a tudományos kutatásban, ám a technika egyik legnagyobb korlátja, hogy a legtöbb jelenleg használt műszer egyszerre csak néhány molekulát képes elemezni...

MA 07:50

Az MI‑ellátási lánc új réme: hamis papírral is támadnak

🛑 A szoftverellátási lánc sebezhetőségei eddig főként kártevők és zsarolóvírusok révén kerültek be a köztudatba, azonban most egy lényegesen egyszerűbb módszer is elérhetővé vált a támadóknak: rosszindulatú vagy hamisított API-dokumentációval is megvezethetők az MI-alapú kódoló ügynökök...

MA 07:36

Az amerikai tél halálos ára: évente 40 ezer infarktus

Az USA-ban a zimankós hónapok alatt ugrásszerűen megnő a szív- és érrendszeri halálozások száma...

MA 07:22

Az MI-s Bubble-alkalmazások új húzása: tömeges Microsoft-fióklopás

A bűnözők legújabb trükkje, hogy a Bubble nevű, no-code, MI-alapú alkalmazáskészítő platformot használják Microsoft-fiókok elleni adathalász támadásokhoz...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 3/26

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

MA 07:08

A Reddit az emberekért küzd: jön az emberazonosítás

👤 A Reddit új lépést tett a gyanús aktivitás kiszűrésére: hamarosan arra kötelezi azokat a fiókokat, amelyek automatizált vagy egyébként gépies viselkedést mutatnak, hogy igazolják, valóban ember kezeli őket...

MA 07:01

A mesterséges intelligencia már a GitHub védőernyője alatt működik

A GitHub mostantól mesterséges intelligenciát vet be hibák és sebezhetőségek felderítésére, ezzel jóval szélesebb biztonsági lefedettséget ígér...

MA 06:50

A rejtélyes új-zélandi barlang felfedi a múlt titkait

🗿 Egy váratlanul gazdag lelet került elő egy észak-új-zélandi barlang mélyéből: mintegy egymillió éves fosszíliák, amelyek között tucatnyi madárfaj és négy különböző béka is szerepel...

MA 06:44

A Google forradalmasítja az MI-memóriát: fele ár, nyolcszoros tempó

A nagy nyelvi modellek fejlődése hatalmas dokumentumok és összetett beszélgetések feldolgozására teszi képessé az MI-t, de ezzel együtt egy komoly hardveres akadály, a kulcs–érték (KV) gyorsítótár szűk keresztmetszete is egyre nyilvánvalóbbá válik...

MA 06:36

A Lyria 3 Pro megérkezett: háromperces dalokat ír helyetted

🎵 Zenei ötletekből mostantól kész dalok születhetnek mindössze néhány pillanat alatt. A Gemini alkalmazás fizetős előfizetői számára most elérhető a Lyria 3 Pro, amely már háromperces zeneszámok generálására is képes...

MA 06:29

Az erősebb földi mágneses pajzs a Holdat is megóvná?

Fontos kérdés, hogy pontosan meddig terjed ki Földünk védelmező ereje az űrben...

MA 06:21

Az új Szaturnusz-fotók minden várakozást felülmúlnak

A legújabb felvételeken két korszak zászlóshajói, a James Webb- és a Hubble-űrteleszkóp egyszerre fürkészik a Szaturnusz légkörét...

MA 06:15

Az okos robotbírók lerombolják a baseball-mítoszt – tetszik vagy sem

⚽ Számíthatsz rá, hogy a 2026-os Major League Baseball-szezon jócskán hoz majd újdonságokat...

MA 06:05

Történelmi események a mai napon (Március 26.)

Mi történt ezen a napon a történelemben? Viharos hatalomváltások, forradalmi csaták és világrengető döntések formálták ezt a napot a történelemben...

szerda 21:56

Az Apple II most MS-DOS-t futtat – kapaszkodj!

💻 Képzeld el az Apple II-t, amelyben valaki nem törődött bele az idő vasfogának munkájába, és összebarkácsolta a lehetetlent: új életet lehelt az AD8088 koprocesszor-kártyába, így az öreg gép MS-DOS 2...

szerda 21:45

A rejtőzködő fehér törpe leplezte le a csillag titkát

Nincs még egy olyan szabad szemmel is látható csillag, mint a Cassiopeia csillagképben ragyogó Gamma Cassiopeiae, amely csaknem ötven éve zavarba ejti a kutatókat...

szerda 21:34

A Pinterest forradalma: végre az inspiráció a főszerepben

A Pinterest vezére, Bill Ready most nekiment annak a mélyen gyökerező hisztériának, amelyet a legtöbb közösségi oldal szinte az anyatejjel szívja magába...

szerda 21:26

Az Apple bekeményít: szigorúbb korhatárellenőrzés, új szabályok érkeznek

Különösen igaz, ha iPhone-t használsz az Egyesült Királyságban: a legújabb iOS-frissítéssel milliókat kérnek arra, hogy igazolják, betöltötték a 18...

szerda 21:01

A Meta újabb leépítései keményen sújtják a dolgozókat

A Meta ismét több száz dolgozót bocsátott el, ezúttal főként a Reality Labs részlegből, amely a cég VR- és metaverzum-projektjeit irányítja...

szerda 20:57

A vörös bolygó rubinokat és zafírokat rejthet – az élet nyomait?

A Mars felszíne apró, drágakőhöz hasonló kristályokat rejt, többek között rubinokat és talán még zafírokat is...

szerda 20:47

A metaverzum sírba szállt – bukás vagy nagy visszatérés?

Az elmúlt évek egyik legnagyobb technológiai ígérete, a metaverzum fejlesztése és a körülötte kialakult felhajtás mára szinte teljesen elhalt...

szerda 20:35

Az űr következő nagy dobása: NASA-holdbázis és nukleáris űrhajó érkeznek

🚀 Érdemes megvizsgálni, hogy a NASA soha nem látott ambíciókkal és elképesztő tempóban készül átalakítani a következő évtized űrkutatását...

szerda 20:23

Az antianyag kamionra szállt – az év tudományos kalandja

🚗 A CERN kutatói először vitték ki az antianyagot a laboratóriumból, és ezzel egy kamionnyi, pontosan 92 antiproton szállítására alkalmas csúcstechnológiás csapdát gördítettek végig a kutatóközpont területén...

szerda 20:13

Az alvilág új kedvence: az MI-fiók

Az utóbbi időben a mesterséges intelligencia (MI) eszközök gyorsan beépültek a mindennapokba, legyen szó tartalomgyártásról, szoftverfejlesztésről vagy éppen üzleti folyamatokról...

szerda 20:01

Az OpenAI Sora-fiaskója miatt bukott a Disney milliárdos üzlete

A Disney váratlanul visszavonult az OpenAI-jal kötött tervezett, 1 milliárd dolláros (kb...

szerda 19:56

Az elektromos motorokat tényleg ijesztően könnyű feltörni?

⚠ Az elektromos motorokat gyártó Zero Motorcycles azt hirdette, hogy járműveik feltörhetetlenek – végül kiderült, hogy óriásit tévedtek...

szerda 19:45

Az Android rakétára kapcsolt: ő lett a mobilnet királya

Elképesztő tempót diktál mostanában az Android, ha mobilos böngészésről van szó...

szerda 19:34

Az új Citrix-sebezhetőségek: frissítés nélkül célponttá válsz

Két súlyos sérülékenységre derült fény a NetScaler ADC és NetScaler Gateway eszközökben...

szerda 19:23

Az első nagy per a közösségi média ellen: bajban a techóriások

A Los Angeles-i esküdtszék történelmi döntést hozott: a Meta és a YouTube jelentősen felelősek egy fiatalkorú közösségi média-függőségéért...