2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 09:19

A beépített 4G-modemes SSD, amit távolról is megsemmisíthetsz – James Bondnak tervezve

👓 A Computex 2026 egyik legnagyobb meglepetése egy olyan külső SSD volt, amely szó szerint képes saját magát távolról is elpusztítani...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/8

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad)A Between Days egy letisztult, felhasználóbarát alkalmazás, mellyel könnyedén meghatározható, hány nap választ el két megadott dátumot...

MA 09:10

A 7,8-as rengés Kablalan közelében rázta meg a Fülöp-szigeteket

Egy 7,8-as erősségű földrengés rázta meg a Fülöp-szigetek déli részét, Mindanao szigetétől délre, 26 kilométerre Kablanantól...

MA 09:02

A NYT Strands megoldásai és tippjei – június 8., #827

📌 Ha még a reggeli kávé sem indítja be az agytekervényeidet, a legjobb, ha valami igazán izgalmas játékba veted magad...

MA 08:37

Steven Tyler a tárgyalás előtt újra vallatná tini bántalmazási vádlóját

Steven Tyler, az Aerosmith frontembere újabb meghallgatást kér a kiskorúval szembeni szexuális visszaéléssel vádoló nő, Julia Holcomb és a férje meghallgatására, még a nyári pereskedés előtt...

MA 08:28

A Bitcoin 63 ezer alá csúszott: iráni–izraeli csapások, koreai zuhanás

💸 Újabb hullámvasútra került a Bitcoin árfolyama, ahogy a közel-keleti háborús feszültségek ismét megrázták a piacokat...

MA 08:01

Hivatalosan is lezárult a 2022-es DaBaby-féle bowlingverekedés ügye

🏃 Megemlíthető, hogy DaBaby híres-hírhedt bowlingpályás verekedésének jogi következményei végre lezárultak: hivatalosan is megszületett a megállapodás a 2022-es összetűzéssel kapcsolatos perben...

MA 07:55

Az ördögi Quordle: tippek és megoldások, hogy ma ne bukj el

Különösen igaz ez, ha minden alkalommal egyre nehezebb feladatokkal szembesülsz: a mai Quordle fejtörőhöz három különböző magánhangzóra van szükség, de egyetlen válaszban sincs ismétlődő betű...

MA 07:46

Az intézményi tőke kihátrál a Bitcoinból

💸 Érdemes megjegyezni, hogy a Bitcoin most ismét a 60 000 dolláros (közel 22 millió forintos) szint körül jár, de a korábbi hónapokhoz képest egészen más a befektetői hangulat...

MA 07:37

A Gmailre kötött Claude ijesztően jól ismer – és időt spórol

📧 Ebből következően érdemes megérteni, mennyire intelligens lehet egy digitális postafiókasszisztens, ha igazán nekilát a munkának...

MA 07:28

Az ősz ijesztő játékáradatot zúdít ránk

Szeptembertől olyan mennyiségű új videojáték jelenik meg, hogy egyetlen rajongó sem tud majd lépést tartani velük...

MA 07:19

A Fülöp-szigeteket megrázta egy újabb, halálos földrengés

Tipikus eset, amikor a reggeli órákban bekövetkező természeti katasztrófa pár perc alatt felforgatja több százezer ember életét...

MA 07:01

Az új Crazy Taxi a mesterséges intelligencia miatt kap hideget-meleget

🚘 Első pillantásra úgy tűnt, hogy a Crazy Taxi: World Tour igazi különlegesség: öt városon átívelő őrült verseny, tele pörgős zenékkel és a klasszikus őskáosz hangulatával...

MA 06:55

A Széllel szemben: a légi kaland, amire mindig vágytál

Ami először apróságnak tűnt, végül varázslatos, festői utazássá vált: egy fiatal fiú veszi át elveszett nagybátyja csomagszállító szolgáltatását egy légi biciklivel, amely időnként repülőgéppé is átváltozik...

MA 06:46

A NYT Connections mai tippjei és megoldásai – június 8., #1093

Felmerül a kérdés, hogy sikerülhet-e mindennap hibátlanul megfejteni a Connections rejtvényt...

MA 06:37

Az érettségi napján ringbe lépett Jolie és Pitt fia, Knox

🥊 Szinte senki sem várta volna, hogy Angelina Jolie és Brad Pitt fia, Knox az érettségi ünnepség napján nemcsak az érettségi bizonyítványát veszi át, de még aznap este harcművészeti mérkőzésen bokszkesztyűt is húz...

MA 06:28

Az idei PC Gaming Show legőrültebb pillanatai: szörnyek, vámpírszex, repülő biciklik

Az idei PC Gaming Show 2026 ismét minden várakozást felülmúlt: több mint 60 új, feltörekvő vagy épp legendás játékot vonultatott fel, közülük több mint húsz világpremierrel...

MA 06:05

Történelmi események a mai napon (Június 8.)

Rövid visszatekintés egy nap történéseire: Mohamed halála, a francia forradalom új államvallásának bevezetése és a Six-Day War alatt történt USS Liberty-incidens is ekkor zajlott...

vasárnap 21:56

A Google Cloud újabb botránya: ügyfélfiók letiltva, leállás figyelmeztetés nélkül

A Railway, amely világszerte több mint hárommillió felhasználót szolgál ki, május 19-én este súlyos leállást észlelt rendszereiben...

vasárnap 21:45

Az Xbox Games Showcase-en robbannak a nagy bejelentések

🎉 Az idei Summer Game Fest 2026 már napok óta tart, de a legizgalmasabb pillanatok még csak most következnek...

vasárnap 21:34

Az ENSZ szerint az MI felfalhatja a világ áramának 3%-át, vízválság jöhet

⚠ Az MI robbanásszerű fejlődése óriási terhelést jelenthet a Föld energia- és vízkészleteire a következő évtized során...

vasárnap 21:23

A kirúgást úgy élte meg, mintha megölték volna a párját

Scott Pelley, a híres amerikai hírolvasó, nyíltan beszélt távozásáról a CBS News-tól...

vasárnap 21:12

A téridőkristályok a meztelen szingularitások és mikroszkopikus fekete lyukak bölcsői?

💫 Új elméleti kutatás támasztja alá azt a feltételezést, hogy a téridőben kialakuló, matematikailag szabályos hullámminták – úgynevezett téridőkristályok – lehetnek a forrásai azoknak a titokzatos jelenségeknek, mint például a meztelen szingularitások vagy a mikroszkopikus fekete lyukak...

vasárnap 21:01

Hét év után visszatér Ariana Grande: elindult az Eternal Sunshine-turné

Hét év csend után végre újra turnéra indult Ariana Grande, aki szombat este Oaklandben adta első koncertjét az Eternal Sunshine-turné keretében...

vasárnap 20:34

Az Apple WWDC 2026: hol nézheted, mire számíthatsz?

📱 Közeleg a technológiai világ egyik legfontosabb eseménye, a WWDC 2026, amelynek középpontjában idén is az Apple új szoftverei állnak...

vasárnap 20:12

Celeste Rivas családja kimarad a d4vdről szóló dokumentumfilmekből, ügyvédjük szerint

🤔 Celeste Rivas családját sorra megkeresik különböző produkciós cégek, amelyek a lánynak és az énekes d4vd-nek tulajdonított kapcsolatáról szeretnének forgatni...

vasárnap 20:01

A Wall Street következő nagy dobása: a vagyon tokenizálása

💰 Abra hamarosan tőzsdére lép, miközben alapítója, Bill Barhydt hisz abban, hogy a kripto következő nagy dobása már nem a bitcoin árfolyamában, hanem az eszközök tokenizációjában rejlik...

vasárnap 19:56

Az első ideiglenes tiltás jöhet: New York határt húz a gigászi adatközpontoknak

Az Egyesült Államokban egyre nagyobb a társadalmi ellenállás a gigantikus adatközpontok építése ellen, New York pedig történelmi lépésre készül: a képviselők megszavazták, hogy egy évre felfüggesszék minden olyan adatközpont építését, amely csúcsterheléskor legalább 20 megawattot fogyaszt...

vasárnap 19:45

A 25 éves Xbox: botrányok, exkluzívumok, démonvadászat

Eltelt egy negyedszázad az első Xbox megjelenése óta, de a Microsoft játékrészlege nemcsak ünneplésre, hanem válságkezelésre is készül...