2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

csütörtök 20:34

Az igazi PlayStation-élmény PC-n: megérkezett a trükkös adapter

🎮 Végre elérhetővé vált a teljes PS5-ös DualSense-élmény PC-n is, anélkül, hogy kábelekkel kellene bajlódni...

csütörtök 20:23

Az ellenőrzés szigorodik: a Polymarket Wall Street-szintre emeli szabályait

A Polymarket, a kriptoalapú jóslási piac radikális lépést tett: megállapodott a Chainalysis-szel, hogy valós időben figyeljék a kereskedéseket...

csütörtök 20:12

Az új előrejelzési piac: a Gemini berobban az amerikai piacra

Az amerikai kriptopiacon hatalmas lendületet vett a verseny, miután a Winklevoss ikrek kriptotőzsdéje, a Gemini megszerezte a szükséges szövetségi engedélyeket a származékos és predikciós piaci tevékenységekhez...

csütörtök 20:01

Az olajár háborús csúcson: ennyivel fizetünk többet a benzinért

🔥 A Brent nyersolaj hordónkénti ára csütörtökön elérte a 126 dollárt (kb...

csütörtök 19:56

Az MI olcsón indul, de gigászi számlákat hoz

💸 Az MI térnyerése miatt egyre több vállalat helyezi át a hangsúlyt a kísérleti modellek fejlesztéséről a tényleges, mindennapos MI-alkalmazásokra...

csütörtök 19:45

A fél internet veszélyben: kritikus cPanel-sebezhetőség

Az online világ egyik legfontosabb webszerver-kezelő eszközében olyan súlyos biztonsági hibát fedeztek fel, amely több tízmillió weboldalt fenyeget...

csütörtök 19:24

Az AdGuard VPN Macen végre akadálymentesen használható

A legújabb, 2.9-es AdGuard VPN-frissítés a Mac-felhasználók jelentős csoportjának hoz igazán hasznos újítást: az alkalmazás most már akadálymentesen használható látássérült felhasználók számára is...

csütörtök 19:12

Berobbant a stabilcoin-láz: bankok és fintech cégek a digitális pénzvonaton

💰 Mint minden valamirevaló krimi, ez is csendben kezdődött: az Anchorage Digital, az egyik legnagyobb amerikai digitális letétkezelő most az M0-ra (ejtsd: „em nullára”) bízta a stabilcoin-technológiájának fejlesztését...

csütörtök 19:03

Az olcsó gamer fejhallgatók új királya? Glorious GHS Eternal teszt

🎧 A gamer fejhallgató választásánál mindig felmerül a dilemma: vezetékes vagy vezeték nélküli legyen a következő fülesem?..

csütörtök 18:57

Az MI önjáró lett: a Writer kihívja a techóriásokat

Érdekes felvetés, hogy az MI-alapú vállalati rendszerek mennyire tudnak beavatkozás nélkül működni...

csütörtök 18:45

Az igazi meglepetés: Ingyen kapod a Wasteland felújított kiadását, és működik!

Képzeld el, hogy egy váratlan hiba miatt teljesen ingyen be lehetett húzni a legendás Wasteland – Felújított kiadást (Wasteland Remastered) a Microsoft Store-ban...

csütörtök 18:34

Az időjárás-jelentés, ahol a hőségnek ára van

🌡 Felmerül a kérdés, hogy hová vezet az, amikor a gazdasági szereplők végül mindent, még a hőmérsékletet is pénzre váltható eseménnyé tesznek...

csütörtök 18:23

Az elszálló memóriaárak alaposan megterhelik a pénztárcákat

A fogyasztók egyre nehezebben jutnak hozzá megfizethető memóriához, miközben a félvezetőiparban hatalmas pénzek forognak...

csütörtök 17:14

Az Olden Era több mint nosztalgia: a stratégák mennyországa

🗺 Felmerül a kérdés, hogy lehetséges-e valóban újat mondani a nagy klasszikusok után, vagy az új versenyzők örökké csak az elődök nyomdokában járnak majd...

csütörtök 17:02

A bitcoin újra szárnyal: áttöri a 80 ezer dolláros határt?

🚀 A bitcoin ára ismét felfelé kúszik, de a 80 ezer dolláros (kb...

csütörtök 16:56

Az Equalizer-kábel: csodaszer a videokártyád védelmére, vagy átverés?

🔧 A videokártyák túlmelegedése újabban mindennapos probléma, ami miatt a gyártók nem csatlakozócserével, hanem újfajta kábelekkel és tápegységekkel igyekeznek biztonságot nyújtani...

csütörtök 16:45

Az új Chuwi ultrakönnyű laptopért mélyen a zsebbe kell nyúlni

💸 A Chuwi bemutatta legújabb ultrakönnyű laptopját, a CoreBook Air 226V-t, amely kevesebb mint 1 kg-ot nyom, és mindössze 10,9 mm vastag házba csomagolja a legújabb Intel Core Ultra 5 226V processzort, amely a Lunar Lake architektúrára épül...

csütörtök 16:34

Tényleg a Polymarketen fogadnak az amerikai hadsereg emberei?

🤔 Az utóbbi időben feltűnően magas nyerési arányokat mértek a katonai és védelmi eseményekre kötött fogadásoknál a Polymarket platformján – messze túlszárnyalva a politikai fogadások átlagát...

csütörtök 16:23

Az újabb DeFi-fiaskó: 1,7 milliárd forintot bukott a Wasabi Protocol

Felmerül a kérdés, hogy mikor lesz vége a decentralizált pénzügyek botrányhullámának, hiszen újabb, súlyos támadás rázta meg a piacot...

csütörtök 16:12

A memóriaár-robbanás fékezi a Windows-eladásokat

A hardverpiacra már most komoly hatással van a globális memóriahiány, amely az előrejelzések szerint hamarosan érzékelhető lesz a Microsoft bevételeiben is...

csütörtök 16:01

A valaha talált legnagyobb viking kincs Norvégiában került elő

Egy kelet-norvégiai farm földjében csaknem 3 000, különböző országokban – Angliában, Németországban, Dániában és Norvégiában – vert ezüstérmét tártak fel a régészek...

csütörtök 15:56

A tartóssági rendszer az Arc Raidersben inkább büntet, mint szórakoztat

Az Arc Raiders világában a fegyverjavítás nem tartozik a játékosok kedvenc elfoglaltságai közé...

csütörtök 15:47

A láthatatlan ügyfélszolgálat forradalma: az MI nagy áttörése

Megvizsgálandó, hogy a mesterséges intelligencia miként alakítja át a nagyvállalatok ügyfélszolgálati működését, és miért döntenek óriáscégek, mint az Accenture vagy az Adobe, úgy, hogy ilyen fejlesztések mögé sorakoznak fel...

csütörtök 15:34

Végre fellélegezhetnek az ingyenes YouTube-felhasználók is

🎉 Hadd ordítsam bele a levegőbe, hogy eddig a kép a képben funkció a legtutibb YouTube-extrák közé tartozott, de csak azok élvezhették, akik fizettek érte...

csütörtök 15:23

Az euró stabilcoin új korszaka: az AllUnity betör a Solanára

💶 A német AllUnity mostantól a Solana blokkláncon is elérhetővé tette saját, szabályozott, euróalapú tokenjét, az EURAU-t...

csütörtök 15:14

Tényleg ez az első okos csillagásztávcső? Kipróbáltuk a ZWO Seestar S30 Pro-t

🔬 A ZWO Seestar S30 Pro új szintre emeli az amatőr csillagászatot: a könnyű, egykezes okostávcsővel már egy kertvárosi ház teraszáról is lélegzetelállító képeket lehet készíteni távoli galaxisokról vagy ködökről, akár kezdőként is...

csütörtök 15:01

Az Xbox Japánban gyakorlatilag eltűnt – a boltok sem tartják

A japán játékfejlesztők nehéz helyzetbe kerültek: a kisebb stúdióknak nem éri meg Xboxra is fejleszteni, mivel a kereslet minimális, ráadásul a konzolt már a jelentősebb üzletek sem tartják készleten...

csütörtök 14:57

Csodát tettek az anyaméhben: megmentették Cassian életét

Az orvosok szinte semmi esélyt sem láttak arra, hogy a súlyos tüdőrendellenességgel diagnosztizált magzat túlélje, de a szülők kitartó kérésére mertek vállalkozni egy egészen különleges beavatkozásra...

csütörtök 14:34

Az új bitcoin-hónap: szezonális rali, de jönnek a buktatók

Ahogy április véget ér, a bitcoin árfolyama visszafogottabbá vált, mégis számos tényező okot adhat az optimizmusra májusra...