2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

péntek 21:56

A Hims & Hers ügyféladatai hackertámadásban szivárogtak ki

Az amerikai Hims & Hers telemedicinás cég nemrég feltárt kibertámadást szenvedett el, amelynek során támadók illetéktelenül hozzáfértek az ügyfélszolgálatának rendszeréhez, és bizalmas személyes információkat loptak el...

péntek 21:01

A piton titka: tényleg fogyaszt a kígyóvér-diéta?

Oké, kapaszkodj, mert a pitonok tényleg mindent visznek! Ezek a brutál nagy hüllők nemcsak hogy egészben lenyelik a zsákmányt, hanem utána hónapokig, sőt akár évekig is kibírják étel nélkül – és közben sem gyengülnek le, sőt, csúcsformában maradnak...

péntek 20:56

Az AO3 végre nagykorú: a fanfiction álma kilép a bétából

🎉 Tudod, amikor egy álom elindul, aztán kicsit sem siet sehová? Na, pont ilyen volt az Archive of Our Own, azaz AO3...

péntek 20:45

Az OpenAI nagy dobása: felvásárolta a TBPN-t

🚀 Az OpenAI váratlan lépést tett: felvásárolta a TBPN (Technology Business Programming Network) technológiai talk show-t, amely rövid idő alatt népszerűvé vált a Szilícium-völgyben...

péntek 20:23

A filléres ChromeOS Flex-kulcsokat percek alatt elkapkodták

Néhány nap alatt minden készlet elfogyott a Back Market és a Google legújabb, előretelepített ChromeOS Flex rendszert tartalmazó USB-kulcsaiból, pedig ezek az eszközök alig 1100 Ft-ba kerültek...

péntek 20:12

Az FCC nekimegy a routereknek – veszélyben a szabad szoftver?

🚥 Az utóbbi időkben szárnyra kapott hírek szerint az FCC, vagyis az amerikai hírközlési hatóság alaposan belepiszkált a routerek világába...

péntek 20:01

Az Everest mentési botránya: lehúzták a külföldieket a hegy lábánál

Most őszintén: észrevetted már, mennyi pénzt vonzanak az extrém kalandok? Az Everest idén sem úszta meg a botrányt: a nepáli hatóságok szerint egy hatalmas, 7 milliárd forintos (20 millió dolláros) mentési biztosítási csalást göngyölítettek fel, amibe túravezetők, egy mentőcég és fővárosi kórházak is alaposan belebonyolódtak...

péntek 19:46

Az Oh-My-God részecske: tényleg ez a kozmosz legnagyobb rejtélye?

😮 A Föld folyamatosan kozmikus sugarak záporában úszik, amelyek hol a Napból, hol más galaxisokból származnak...

péntek 19:01

Az amerikai adatközpontok fele leállt – hajtóvadászat transzformátorokért

Fontos kérdés, hogy miért torpantak meg az amerikai adatközpont-fejlesztések, miközben mindenki fejlesztési lázban ég...

péntek 18:57

Az új CorelDRAW Graphics Suite: MI-vel turbózza a kreativitást

A CorelDRAW Graphics Suite 2026 merész lépésekkel újít: a legmodernebb MI-alapú eszközöket integrálja díjnyertes kreatív szoftvercsomagjába, miközben továbbra is teljes értékű, egyszeri vásárlási lehetőséget kínál – ritka madár ez manapság...

péntek 18:46

Az elektromos autók nagy elszámolása: ki nyer, ki bukik Amerikában?

🚗 Többek között az egekbe szökő üzemanyagárak és a hathónapos visszaesési hullám rendesen megtépázta az elektromos autók amerikai térnyerését...

péntek 18:34

A csapvízben úszó műanyag: tényleg mindent elborít a vegyipar?

Csak hogy tiszta legyen: már a poharadban is ott úszik a rengeteg apró műanyag és gyógyszermaradvány, az amerikai környezetvédelmi hatóság pedig végre lépett...

péntek 18:24

Az iPhone-ból butafon: így szabadulj meg a képernyőfüggéstől!

Felmerül a kérdés, hogy mennyire befolyásolja mindennapjainkat az okostelefon-használat. Sokan tapasztalják, hogy bármelyik szabad percben automatikusan a készülék után nyúlnak, hogy görgessenek egyet X-en, Instagramon vagy Threadsön...

péntek 17:36

Az Alienware 18 Area-51, a gamer laptopok végső túlzása

Az Alienware 18 Area-51 már a neve alapján is sokat sejtet, de aki először meglátja, annak garantáltan leesik az álla...

péntek 17:13

Az univerzum új kezdetképe: vége a Nagy Bumm pillanatának?

💫 Az univerzum születése eddig egyetlen, végtelenül sűrű, pontszerű állapotként élt a köztudatban, ahol a fizika törvényei egyszerűen nem működnek...

péntek 17:01

Az Artemis II elrajtolt: az emberiség újra úton a világűrbe

A NASA Artemis II küldetése sikeresen kilépett a Föld körüli pályáról, és négy űrhajós indulhatott el a Hold körüli kalandra...

péntek 16:56

Az Apple CarPlay lekörözi az Android Autót: jön a Google Meet

🚗 Az Apple CarPlay újabb győzelmet aratott az Android Auto-val szemben, hiszen mostantól támogatja a Google Meet alkalmazást is autózás közben...

péntek 16:45

Az informatikus, aki 3284 gépet zárt le váltságdíjért

Egy volt informatikai mérnök beismerte, hogy zsarolási kísérletként több ezer Windows-eszközt zárolt munkahelyén, egy New Jersey-i központú ipari vállalatnál...

péntek 16:34

Az Amazon majdnem letiltotta A Fiúk 4. évadzáróját

🔫 Egy lényeges szempont, hogy A fiúk (The Boys) nemcsak szuperhős-szatíra, hanem kegyetlen tükör is az amerikai politikáról és társadalomról...

péntek 16:25

Az óriáspolipok szerelmi titkai: hormonok és furcsa praktikák

🐙 Három szív, kék vér, intelligens karok és végtelen rejtély – a polipok a Föld egyik legfurcsább lényei közé tartoznak...

péntek 16:12

Az IBM nagy dobása: a kvantumszámítógép, amely rekordideig működik

⚙ Ebből következően érdemes megérteni, hogy a kvantumszámítógépek világa ismét mérföldkőhöz érkezett...

péntek 16:02

Az ősi méhek nyomában: csontfészkek egy karibi barlang mélyén

A Karib-térségben, Hispaniola szigetén rendhagyó történet bontakozott ki több ezer évvel ezelőtt, ahol egy bagoly, egy hutia nevű rágcsáló és egy földbevájó méh találkozott egy barlangban...

péntek 15:56

Az új Windows-frissítés mindenkit utolér – nincs menekvés

A Microsoft mostantól automatikus frissítéssel kényszeríti ki a Windows 11 25H2 verziójának telepítését minden olyan háztartási és kisvállalati gépre, amelyeken jelenleg a Windows 11 24H2 fut, de nem állnak IT-rendszergazdai felügyelet alatt...

péntek 15:45

Az Oracle 30 ezer embert kirúgott – tombol az MI-mánia

💀 Az Oracle egyik reggel, még napfelkelte előtt e-mailben jelezte több tízezer dolgozónak, hogy még aznap megszűnik a munkaviszonyuk...

péntek 15:34

Az emberiség visszatér a Holdra: közeleg az Artemis II

🚀 Felmerül a kérdés, mit hoz a jövő, amikor újra emberek indulnak a világűrbe...

péntek 15:23

Az új Star Wars-sorozatban Maul visszatér – és kegyetlenebb, mint valaha

Darth Maulnak egyszerűen nem lehet ellenállni – komolyan mondom, most jön a Maul: Árnyúr (Maul: Shadow Lord) második évada!..

péntek 15:12

Az OpenAI váratlan húzása: médiacéget vásárolt, áll a bál

🚨 Tavaly az OpenAI egy hatalmas, 2300 milliárd forintos (6,4 milliárd dolláros) akvizícióval felvásárolta Jony Ive készülékfejlesztő startupját, idén pedig újabb meglepetéssel állt elő: a vállalat megvásárolta a Szilícium-völgyben villámgyorsan népszerűvé vált TBPN-t, egy háromórás, napi technológiai talk show-t készítő médiavállalkozást...

péntek 15:01

Az Exchange Online megint döcög: káosz a postaládákban

📦 Hetek óta visszatérő problémák nehezítik az Exchange Online postafiókhoz való hozzáférést, különösen az Outlook mobilalkalmazást és a Mac gépeket használókat érintve...

péntek 14:45

Az új Google Home végre a munkahely barátja

Hosszú várakozás után a Google Home alkalmazás immár teljes körűen támogatja a Workspace-fiókokat is, megszüntetve ezzel egy régóta fennálló problémát...