2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 21:12

Az első MI-cég betör a kriptópiacra Amerikában

Az Egyesült Államokban először fordult elő, hogy egy mesterséges intelligencia önállóan céget alapított, megszerezte a tevékenységhez szükséges hivatalos iratokat, és már az első kriptovaluta-kereskedésére is készül...

MA 20:56

A techóriások szárnyalása hajtja az újabb bitcoin-rallit

🚀 A bitcoin az utóbbi napokban ismét emelkedett, és elérte a 77 400 dolláros, vagyis közel 28 millió forintos szintet...

MA 20:44

Az alumínium átírja az ipart: jön a ritkafémek utáni korszak?

A King’s College London kutatócsapata egy egészen új alumíniumformára bukkant, amely olcsóbb és fenntarthatóbb alternatívája lehet a jelenleg használt, drága és ritka fémeknek...

MA 20:34

A QR-kódos csalások sosem voltak ilyen veszélyesek

Az utóbbi időszakban drámai mértékben, 146%-kal nőtt a QR-kódos adathalász támadások száma, miközben más, korábban elterjedt módszerek háttérbe szorultak...

MA 20:22

A Pink Floydról elnevezett új pók a házfalakon portyázik

A Dél-Amerikában dolgozó kutatók egy új repedéslakó pókfajt fedeztek fel, amely a Pikelinia floydmuraria nevet kapta – ezzel egyszerre a Pink Floyd zenekar előtt tisztelegnek és a pók jellegzetes lakóhelyére utalnak...

MA 20:12

A Division: Újjászületés mostantól PC-n is ingyen játszható

Jó példa erre, hogy az okostelefonokon már ismert A Division: Újjászületés (The Division Resurgence) mostantól számítógépen is kipróbálható, még a hivatalos augusztusi rajt előtt...

MA 19:56

Az újabb 80 ezres rekord küszöbén billeg a Bitcoin

💰 A Bitcoin árfolyama közel 3%-ot emelkedett az elmúlt 24 órában, elérve a 78 700 dollárt (kb...

MA 19:45

A városi madarak inkább a férfiakat tűrik a közelükben

🐒 A nagyvárosokban élő madarak viselkedése meglepő mintázatot mutat: úgy tűnik, a városi madarak közelebb engedik magukhoz a férfiakat, mint a nőket...

MA 19:22

Az intézményi tőke felpörgeti a bitcoin piacát: 16 billió dollárig nőhet

📈 A bitcoin értéke robbanásszerű növekedés előtt áll a következő években: 2030-ra 16 billió dollárra (mintegy 5760 billió forintra) ugorhat a kriptodeviza piaci kapitalizációja, jósolja az Ark Invest friss jelentése...

MA 19:11

Az izomnöveléshez nem kell meghalni az edzésen

Sokan azt gondolják, csak kemény, fájdalmas edzésekkel lehet erősebbé válni, de egy friss kutatás szerint ez tévhit...

MA 19:01

Az oxfordi fizikusok áttörték a kvantumhatárokat: itt a quad‑squeezing

A kvantumvilág titkai újabb rétege tárult fel az Oxfordi Egyetemen, ahol fizikusok először valósították meg az úgynevezett quadsqueezinget, vagyis a négyrendű „összenyomást”...

MA 18:56

A feltámadt kínai képcsöves tévék titka

📺 Bár sokak számára a katódsugárcsöves (CRT) tévék már csak a retro videojátékok vagy klasszikus sci-fi filmek kellékei, Kínában most meglepően olcsón kínálnak pár frissnek tűnő példányt...

MA 18:45

Végre megérkezett az Xbox-mód Windows 11-re

🎮 Végre valóra vált a PC-s játékosok álma: Windows 11-en, asztali gépeken is elérhetővé vált az Xbox mód...

MA 18:34

Az ősi, csavart állkapocs rejtélye – Tanyka nyomában

🦖 Dél-Amerika mélyén, Brazília Amazonas menti erdeiben, egy kiszáradt folyómeder alatt paleontológusok rendhagyó fosszíliára bukkantak: egy mintegy 275 millió éves állkapocscsontra, amely semelyik ma élő állathoz sem hasonlítható...

MA 18:23

A ROG Ally X MI-varázsa: profi felskálázás csak dokkolva

A hordozható játék-PC-k között a ROG Ally X most új szintre lép: az eddig elérhető AMD FSR felskálázás mellett már a Microsoft új, mesterséges intelligenciával (MI) támogatott Auto SR megoldását is használhatják a felhasználók – igaz, egyelőre kizárólag dokkolt üzemmódban...

MA 16:01

Az Apple figyelmeztet: a memóriaválság megdobhatja a Mac-árakat

💸 Az Apple vezérigazgatója, Tim Cook egyre komolyabb memóriaválságot prognosztizál, amely már idén júniustól jelentősen megdobhatja a vállalat költségeit...

MA 15:56

Az OpenAI-per tétje: Musk szerint az MI végzetes lehet

💥 A bíróság falai között csapott össze a techvilág két nagyágyúja: Elon Musk és Sam Altman között váratlanul heves vita robbant ki arról, hogy valóban létünk végéhez vezethet-e a mesterséges intelligencia fejlődése...

MA 15:34

Az MI igazi áttörései a tudományban: mire számíthatnak a kutatók?

Felmerül a kérdés, hogy vajon létezik-e már olyan MI-eszköz, amelyben valóban megbízhatnak a kutatók, és amely nemcsak gyorsabbá, hanem megbízhatóbbá is teszi a munkájukat...

MA 15:24

Az asztrológia lebukott: mégsem hat a szerelemre?

👁 Az asztrológia már az ókor óta meghatározó szerepet játszik sok civilizációban, és napjainkban is óriási üzletté nőtte ki magát, amelynek értéke 2025-re már elérte a több száz milliárd forintot...

MA 15:12

Az európai Microsoft-csoda nyomában: szuverenitás, adatközpontok, dicsekvés

🌍 A Microsoft Európában komolyan ráfeküdt az adatkezelésre, és nem aprózza el: az elmúlt évben például Portugáliában több mint 3 500 milliárd forintot, Norvégiában 2 170 milliárdot, az Egyesült Királyságban pedig 10 500 milliárd forintot fordított új adatközpontokra...

MA 15:01

Az MI-háború nagy fordulata: Nem ChatGPT vagy Claude a legokosabb?

Az MI-chatbotok között élesedő verseny újabb meglepetést tartogat: habár egyre többen pártolnak át a ChatGPT-től a Claude-hoz, a friss elemzések szerint egyikük sem mondhatja magát a legokosabb ingyenes MI-nek...

MA 14:56

A villámgyors kontroller – GameSir G7 Pro 8K teszt, humorral

⚡ Kezdődhet a kontrollerfesztivál: a GameSir G7 Pro 8K Aimlabs Edition messze nem csak egy szokványos játékszer...

MA 14:46

Az OLED végre tömegeknek szól: berobban az Alienware AW2726DM

💡 Az utóbbi időben az OLED monitorok ára igencsak elrugaszkodott a valóságtól, de most ugrásszerűen megváltozott a helyzet...

MA 14:33

Az SBI Holdings új kriptotőzsdére csapna le Japánban

💰 A Tokióban működő pénzügyi óriás, az SBI Holdings újabb nagy lépésre készül a digitális eszközök világában...

MA 14:23

Az EA új pénzcsapdája: már előrendelhető a Battlefield 6 battle pass

A Battlefield 6 népszerűsége gyorsan felszökött a rajt után, ám a lendület csak rövid ideig tartott...

MA 13:56

Az MI árnyékában: Mit osztanak meg a dolgozók valójában?

A brit cégek kétharmada bevallja, fogalma sincs arról, hogy alkalmazottaik milyen adatokat osztanak meg azokon az MI-platformokon, amelyeket hivatalosan engedélyeztek...

MA 13:45

Az új gyógyszer, ami felére vágja a rossz koleszterint

A magas koleszterinszint hosszú távon komolyan károsítja az artériákat, növeli a szívbetegségek kockázatát, és világszerte rengeteg embert érint...

MA 13:02

Az új Cyber Essentials-szabályok veszélybe sodorhatják a közbeszerzéseket

⚠ Érdemes megvizsgálni, hogy mennyire komoly következmények várhatnak azokra a szervezetekre, amelyek nem tartanak lépést a legújabb kiberbiztonsági előírásokkal...

MA 12:56

A legkisebb idei telihold jön – és vele a kék Hold

Egy lényeges szempont, hogy május első teliholdja, a Virághold pénteken, 13:24-kor válik pontosan teljessé, bár ez Észak-Amerikában nappalra esik...