2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 09:08

Az OpenAI goblin-tilalma: amikor az MI már túltolja

A mesterséges intelligencia világában néha egészen szürreális problémák bukkannak fel – pontosan ilyen volt az OpenAI híres „goblin-gate” esete is 2026 tavaszán...

MA 08:57

A fejlesztői MI-asszisztensek gyenge pontjai: mindenki a kulcsokra hajt

🔑 Valódi kódoló MI-k sorozatos hibái borzolják a kedélyeket – az elmúlt kilenc hónapban olyan fejlesztői eszközök, mint a Codex, Claude Code, Copilot vagy a Vertex AI, súlyos sebezhetőségeken keresztül váltak támadások célpontjaivá...

MA 08:43

A brit hálózatokat még mindig az elavult technológia kísérti

Érdemes megérteni, hogy az Egyesült Királyságban ezrek működtetnek olyan informatikai rendszereket, amelyek kritikus sebezhetőségeit már több mint tíz éve feltárták...

MA 08:36

Most kapaszkodj: az ügyvéd, aki a Jeopardy!-t is leuralja

Őrület, de tényleg megtörtént: Derek Kaufman, a TMZ saját ügyvédje, este ott virított a Jeopardy!..

MA 07:57

Az új videojáték-óriás felforgatja a megjelenési naptárakat

A nagysikerű Subnautica folytatása végre hivatalos megjelenési dátumot kapott: 2026. május 14-én érkezik a várva várt Subnautica 2...

MA 07:43

Az Alibaba új MI-ügynöke száműzi a felesleges eszközhasználatot

🤖 A mesterségesintelligencia-ügynökök egyik legnagyobb kihívása, hogy mikor használjanak külső eszközöket, és mikor bízzanak saját tudásukban...

MA 07:22

Az ókori római bilik leleplezik: ősi parazita gyötörte az embereket

Az ókori Római Birodalom határán, a mai Bulgária területén feltárt éjjeliedények falán és alján megtapadt vizelet- és székletmaradványok új részleteket tártak fel a rómaiak egészségi állapotáról: ezekből kerültek elő a világ legrégebbi, emberben talált Cryptosporidium parazitájának nyomai...

MA 07:15

Az X1 Neo robotok átvették a gyártósort: önmagukat építik

🤖 A humanoid háztartási robotok elterjedésére még várni kell, hiszen sem a Tesla Optimus, sem a Figure AI modelljei nem kaphatók, míg az 1X 7,1 millió forintos Neo Home robotja is még csak előrendelhető...

MA 07:01

Az okostelefonos dráma: mit rejteget Kirsten Storms titkos viszonya?

📱 Na most kapaszkodj, mert Kirsten Storms, az Általános kórház (General Hospital) ikonikus sztárja most a franklini rendőrség vizsgálatának középpontjában áll...

MA 06:57

Az ősi fegyverek rejtélyes világa: felismered mindet?

⚔ Érdemes megvizsgálni, hogy a múlt harci eszközei mennyi érdekességet rejtenek magukban...

MA 06:43

Az április felrázta a techrészvényeket, de a buli még rázós

🎉 A Nasdaq Composite idén áprilisban olyan szárnyalásba kezdett, amilyet a 2020-as Covid-kitörés óta nem láttunk: több mint 15%-os növekedést produkált, ami messze felülmúlta a várakozásokat...

MA 06:36

Az NYT Connections ravasz feladványa: csőr vagy autópolír?

A Connections e kiadása ismét próbára tette a szórejtvények szerelmeseit. A 1055...

MA 06:29

A filléres vasalapú akkumulátorok átírhatják az energiatárolás szabályait

A kínai tudósok áttörést értek el a vasalapú áramlásos akkumulátorok fejlesztésében, amelyek akár 16 éves élettartamot ígérnek teljesítményromlás nélkül...

MA 06:22

A Windows új Xbox-módja: tényleg csak a külcsín változott?

🎮 A várva várt Xbox-mód végre megérkezett Windows 11-re, de a felhasználóknak csalódniuk kell, ha komolyabb teljesítményjavulásban bíztak...

MA 06:05

Történelmi események a mai napon (Május 1.)

Április 30-án királyi hatalomváltások, birodalomalapítások és sorsfordító politikai döntések formálták a világot...

csütörtök 20:34

Az igazi PlayStation-élmény PC-n: megérkezett a trükkös adapter

🎮 Végre elérhetővé vált a teljes PS5-ös DualSense-élmény PC-n is, anélkül, hogy kábelekkel kellene bajlódni...

csütörtök 20:23

Az ellenőrzés szigorodik: a Polymarket Wall Street-szintre emeli szabályait

A Polymarket, a kriptoalapú jóslási piac radikális lépést tett: megállapodott a Chainalysis-szel, hogy valós időben figyeljék a kereskedéseket...

csütörtök 20:12

Az új előrejelzési piac: a Gemini berobban az amerikai piacra

Az amerikai kriptopiacon hatalmas lendületet vett a verseny, miután a Winklevoss ikrek kriptotőzsdéje, a Gemini megszerezte a szükséges szövetségi engedélyeket a származékos és predikciós piaci tevékenységekhez...

csütörtök 20:01

Az olajár háborús csúcson: ennyivel fizetünk többet a benzinért

🔥 A Brent nyersolaj hordónkénti ára csütörtökön elérte a 126 dollárt (kb...

csütörtök 19:56

Az MI olcsón indul, de gigászi számlákat hoz

💸 Az MI térnyerése miatt egyre több vállalat helyezi át a hangsúlyt a kísérleti modellek fejlesztéséről a tényleges, mindennapos MI-alkalmazásokra...

csütörtök 19:45

A fél internet veszélyben: kritikus cPanel-sebezhetőség

Az online világ egyik legfontosabb webszerver-kezelő eszközében olyan súlyos biztonsági hibát fedeztek fel, amely több tízmillió weboldalt fenyeget...

csütörtök 19:24

Az AdGuard VPN Macen végre akadálymentesen használható

A legújabb, 2.9-es AdGuard VPN-frissítés a Mac-felhasználók jelentős csoportjának hoz igazán hasznos újítást: az alkalmazás most már akadálymentesen használható látássérült felhasználók számára is...

csütörtök 19:12

Berobbant a stabilcoin-láz: bankok és fintech cégek a digitális pénzvonaton

💰 Mint minden valamirevaló krimi, ez is csendben kezdődött: az Anchorage Digital, az egyik legnagyobb amerikai digitális letétkezelő most az M0-ra (ejtsd: „em nullára”) bízta a stabilcoin-technológiájának fejlesztését...

csütörtök 19:03

Az olcsó gamer fejhallgatók új királya? Glorious GHS Eternal teszt

🎧 A gamer fejhallgató választásánál mindig felmerül a dilemma: vezetékes vagy vezeték nélküli legyen a következő fülesem?..

csütörtök 18:57

Az MI önjáró lett: a Writer kihívja a techóriásokat

Érdekes felvetés, hogy az MI-alapú vállalati rendszerek mennyire tudnak beavatkozás nélkül működni...

csütörtök 18:45

Az igazi meglepetés: Ingyen kapod a Wasteland felújított kiadását, és működik!

Képzeld el, hogy egy váratlan hiba miatt teljesen ingyen be lehetett húzni a legendás Wasteland – Felújított kiadást (Wasteland Remastered) a Microsoft Store-ban...

csütörtök 18:34

Az időjárás-jelentés, ahol a hőségnek ára van

🌡 Felmerül a kérdés, hogy hová vezet az, amikor a gazdasági szereplők végül mindent, még a hőmérsékletet is pénzre váltható eseménnyé tesznek...

csütörtök 18:23

Az elszálló memóriaárak alaposan megterhelik a pénztárcákat

A fogyasztók egyre nehezebben jutnak hozzá megfizethető memóriához, miközben a félvezetőiparban hatalmas pénzek forognak...

csütörtök 17:14

Az Olden Era több mint nosztalgia: a stratégák mennyországa

🗺 Felmerül a kérdés, hogy lehetséges-e valóban újat mondani a nagy klasszikusok után, vagy az új versenyzők örökké csak az elődök nyomdokában járnak majd...