2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 12:01

Az Ubernél már a mesterséges Dara-robotnak kell prezentálni?

Sokan hideg verítéket izzadnak már a gondolatra is, hogy egy CEO előtt kelljen bemutatót tartani...

MA 11:58

A Rolls-Royce sosem látott részvényvisszavásárlással és rekordbevétellel tarol

A brit Rolls-Royce óriási lendületet vett, miután jelentős működési nyereséget és részvény-visszavásárlást jelentett be az egyre növekvő hajtóműigényeknek köszönhetően...

MA 11:40

Az MI-alapú Claude Code kritikus biztonsági rést hagyott nyitva

Tipikus eset, amikor egy fejlesztőcsapat nagy lendülettel veti bele magát a közös munkába, majd váratlanul kiderül, hogy a folyamatban egy kritikus sebezhetőség lapul...

MA 11:20

A Bitcoin hiába tört a 70 ezer felé, az altcoinok taroltak

💸 A Bitcoin újra megközelítette a 70 000 dolláros (kb. 25,7 millió forint) szintet, mielőtt visszacsúszott volna 68 300 dollár (kb...

MA 10:46

Az új Galaxy S26 szenzációja: élő fordítás a kamerán át

A legújabb Galaxy S26 mobilok egy csendben bevezetett újdonsággal rukkoltak elő, amit eddig egyetlen Samsung-készülék sem tudott...

MA 10:28

Az edzés nem csodaszer: alig segít ízületi kopásnál

💪 Különösen igaz ez akkor, ha valaki abban reménykedik, hogy a testmozgás majd jelentősen csökkenti az ízületi kopás, vagyis az oszteoartritisz okozta fájdalmat...

MA 10:19

Az övsömör elleni oltás lelassíthatja az öregedést – kutatók szerint

Érdekes felvetés, miszerint az övsömör elleni oltás nemcsak a fájdalmas kiütés megelőzésében lehet hasznos, hanem az öregedés folyamatára is hatással lehet...

MA 10:02

Az Apollo-holdkőzetek felfedték a Hold mágneses múltjának új titkát

Az Apollo-program során gyűjtött holdkőzetek évtizedeken át azzal a feltételezéssel szolgáltak, hogy a Holdnak régen erős mágneses tere volt...

MA 09:47

A zabkása-diéta két nap alatt leviszi a koleszterint

Csak két napnyi, kizárólag zabkásából álló étrend már drasztikus eredményt hozhat a szív- és anyagcsere-egészség terén – legalábbis ezt mutatja a Bonni Egyetem nemrégiben a Nature Communications folyóiratban publikált klinikai kísérlete...

MA 09:29

A Samsung Galaxy S26: villámgyors, még drágább, MI-őrület

⚡ Fontos kérdés, hogy a ma bemutatott Galaxy S26 mennyire tudja megújítani a csúcskategóriás okostelefonok világát...

MA 09:19

Az Űragy új fotókkal támad: itt a Kitett Koponya-köd

👽 A James Webb Űrtávcső megint rátett egy lapáttal: legújabb fotóin egy elképesztően bizarr ködöt mutat be, amit a neve is elárul – a Kitett koponya-köd (Exposed Cranium Nebula)...

MA 09:10

Az AMD új EPYC chipekkel lerohanja a piacot

🚀 Erre utal többek között az, hogy az AMD röviddel a 2026-os Mobile World Congress előtt leleplezte az EPYC 8005 (kódnéven Sorano) processzorcsaládot, amelyet a távközlési és edge-szerverekre szánt...

MA 09:03

Az Nvidia új rekordot dönt: minden üzletág tarol az MI-lázban

Az NVIDIA 2026-os pénzügyi évének negyedik negyedévében ismét elképesztő eredményekkel rukkolt elő...

MA 08:55

Az új Bitcoin-szárnyalás mögött viharok gyülekeznek

Megemlíthető továbbá, hogy a Bitcoin drámai emelkedése után ismét közelebb került a 69 000 dolláros (kb...

MA 08:46

A sci-fi blog, amitől AI-pánik tört ki a Wall Streeten

👽 Elképesztő, hogy egy sima Substack-bejegyzés ekkora hullámokat vethet a tőzsdén: egy 2028-ra elképzelt, mesterséges intelligencia által előidézett világválságról szóló elemzés a vasárnapi piaci zuhanásokat is elindította...

MA 08:29

Az MI ereje a csapatmunkában rejlik, nem az automatizálásban

Fontos kérdés, hogy az MI vajon tényleg az automatizálás hozza-e el a forradalmi változásokat, vagy valami sokkal lényegesebbről van szó...

MA 08:03

Az új Galaxy S26 Ultra hódít – közben még spórolhatsz

🚀 A Samsung Galaxy S26-sorozat bemutatkozása nem jelent forradalmat, inkább aprólékos finomhangolásokat és néhány lényeges, helyenként egyedi innovációt hoz – leginkább a prémium Ultra modellnél...

MA 07:55

Az illegális szerencsejáték botránya elérte a Valve-ot New Yorkban

New York állam főügyésze bíróság elé idézte a Valve-ot, mert szerinte a vállalat videojátékai, mint például a Counter-Strike 2, a Team Fortress 2 és a Dota 2 tudatosan ösztönzik a fiatalkorúakat jogellenes szerencsejátékra az úgynevezett loot box-rendszeren keresztül...

MA 07:37

Az érintőkijelzős MacBook Pro megkapja az iPhone-trükköt, Face ID nélkül

Erre utal többek között az, hogy az Apple hamarosan egy új, OLED-kijelzős, érintőképernyős MacBook Pro bemutatására készül, amely megkapja az iPhone-okról ismert Dynamic Island funkciót...

MA 07:28

Az AMD 84 magos Epyc-cel rohamozza az Intelt

Az AMD újabb lendületet ad a szerverpiacnak legújabb Epyc fejlesztésével, a 8005-szériás, Sorano kódnevű processzorokkal...

MA 07:19

Az újabb Cisco SD-WAN-botrány: a kritikus rést tavaly óta kihasználják

🔴 Egy súlyos biztonsági hiba miatt komoly támadások érték a Cisco Catalyst SD-WAN rendszereket, többek között a felhőben és helyben telepített SD-WAN Controller (korábban vSmart) és SD-WAN Manager (korábban vManage) platformokat...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 2/26

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Auto Redial App (iPhone/iPad)Ez az alkalmazás lehetővé teszi, hogy automatikusan hívásokat indíts a kiválasztott telefonszámokra, hatékonyan és személyre szabottan...

MA 07:10

A legújabb SonicWall-botrány: zárolt banki adatok, per a vége

Augusztus 14-én hekkerek betörtek a Marquis Software Solutions hálózatába, miután feltörték a cég SonicWall-tűzfalát...

MA 07:02

Az MI-aranyláz pörög: újabb 250 ezermilliárd forint ömlik adatközpontokba

Felmerül a kérdés, hogy hova vezethet az a tempó, ahogy a technológiai óriások öntik a pénzt az MI-infrastruktúrába: idén közel 250 ezermilliárd forint értékben épülnek adatközpontok világszerte, és még mindig nem látszik a vége...

MA 06:55

Az új Galaxy S26-ok közül melyik a legjobb vétel?

📱 Ha azt hinnéd, hogy a Samsung idén csak a szokásosat hozta, nagyot tévedsz: a Galaxy S26 család simán berúgja az AI ajtaját, így nemcsak okosabb lett minden mobil, de tempóban is szupergyorsak...

MA 06:47

A Gong mindent kockára tesz az MI-háborúban

A Gong, a bevételi intelligencia piacának egyik meghatározó szereplője, most minden eddiginél ambiciózusabb platformfrissítéssel jelentkezett...

MA 06:37

Az ősi marsi élet jelei évezredeken át fennmaradhatnak a jégben

A Mars felszínén található jégsapkákat eddig főként a bolygó klímatörténetének tanulmányozására használták, azonban egy friss NASA-kutatás szerint ezek igazi időkapuként őrzik az ősi élet nyomait...

MA 06:28

A MrBeast-csapat sztárja lebukott bennfentes kereskedelemmel

💸 Egy YouTube-sztár, MrBeast népszerű valóságshow-jához köthető alkalmazottat tiltottak el a Kalshi jóslatpiaci platformján, miután bennfentes kereskedelemmel vádolták meg...

MA 06:19

Az OpenAI ütőkártyája: a Frontier és a titkos tanácsadók

Az OpenAI eddig főleg a ChatGPT-vel robbant be a köztudatba, most azonban valami sokkal nagyobb dobásra készül: bemutatkozik a Frontier, amely vállalati szinten képes MI-ügynökök létrehozására, telepítésére és üzemeltetésére egy cégen belül...