2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 13:01

Az égbolt titkos koreográfiája: miért változnak a csillagképek?

Érdemes megvizsgálni, miért tűnnek fel és tűnnek el különböző csillagképek az év folyamán az éjszakai égbolton...

MA 12:56

Az Android-csúcsmodellek ára történelmi mélyponton – itt az idő váltani?

💸 Érdemes megvizsgálni, mikor jár a legjobban az ember egy új Android-készülék vásárlásával...

MA 12:45

Az USA zárol 125 milliárd forintnyi kriptót Irán miatt

Az amerikai pénzügyminisztérium legutóbbi lépése során 344 millió dollárnyi, vagyis csaknem 125 milliárd forintnyi Tether (USDT) került befagyasztásra, amellyel Irán pénzügyi hálózatait próbálják ellehetetleníteni...

MA 12:23

Az angyalarcú fiú: anya vak hite a vérfürdő után

😇 A 2022-es brutális idahói gyilkosságok után a hatóságok letartóztatták Bryan Kohbergert, mégis édesanyja, Maryann Kohberger csökönyösen állította az FBI ügynökeinek, hogy a fia ártatlan, sőt, „angyal”...

MA 10:57

A Ketrec: brutális drámában fagy ránk a mosoly

🔥 Sheridan Smith és Michael Socha új sorozata április 26-ától látható a BBC iPlayeren, ahol a hatrészes A Ketrec (The Cage) minden eddiginél sötétebb oldaláról mutatja meg a bűn világát...

MA 10:50

Az AromaFresh Therm Pro: áttörés vagy drága tévedés?

A kávékedvelők szívét villámgyorsan megdobogtatja egy olyan otthoni gép, amely frissen őrli a babot, ráadásul időzítővel gondoskodik a reggeli forró italról...

MA 10:43

A szürke irodai doboz leleplezve: hogyan működik a lézernyomtató?

A legtöbben csak akkor figyelnek fel a sarokban álló lézernyomtatóra, ha az éppen nem működik, pedig igazán lenyűgöző technológia rejtőzik a műanyag burkolat mögött...

MA 10:36

A sportfanatikusok trükkje: így nézd a TSN-t külföldről

Kanadában szinte minden jelentős sportesemény élőben vagy visszanézhető formában elérhető a TSN streamingjén...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 4/25

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     English Vocab & Dictionaries + (iPhone/iPad)A Simply Paste Wordbook M Pro angol szókincsfejlesztő alkalmazás kifejezetten angolt tanulók számára készült...

MA 09:08

Az észcsavaró NYT Connections: ráérzel a logikára?

Érdemes tudni, hogy a New York Times Connections nevű játéka minden nap újabb fejtörőt kínál azoknak, akik szeretik a szójátékokat és a logikai kihívásokat...

MA 09:01

A Fehér Lótusz 4. évada: Helena Bonham Carter váratlan távozása vihart kavar

🍆 Éppen csak elindult a Fehér Lótusz (The White Lotus) negyedik évadának forgatása Franciaországban, máris jött egy drámai fordulat: Helena Bonham Carter váratlanul búcsút intett a sorozatnak, ráadásul napokkal a felvételek kezdete után...

MA 08:57

A mai Quordle: trükkös megfejtések és nyerő tippek

Különösen igaz ez akkor, ha az ember szeret reggelente egy gyors agytornával indítani a napot, és a Quordle, a Wordle egyik legnépszerűbb alternatívája, hétről hétre próbára teszi a szókirakók hadát...

MA 08:49

Az XRP árfolyama kitörés előtt – Közeleg a nagy döntés?

Az XRP árfolyama napok óta 1,43–1,45 dollár (kb. 522–528 Ft) között mozog szűk sávban, miután a korábbi élénk forgalom gyors oldalazásba fordult...

MA 08:43

A robotcowboyok elszabadultak: megérkezett a Far Far West

A Far Far West fejlesztőcsapata, a francia Evil Raptor az utóbbi időszak egyik legnagyobb meglepetését okozta a Steam Next Festen...

MA 08:29

Az atomerőmű, amely majdnem véget vetett a világnak

1986. április 26-án a Csernobili Atomerőmű reaktora végzetes hibasorozat eredményeként részlegesen leolvadt...

MA 08:01

Megmentheti az emberiséget egy óriásgát Alaszka és Oroszország között?

🌊 A szerteágazó tengeráramlatok az Atlanti-óceán északi féltekén döntő szerepet töltenek be a klímánk szabályozásában, az élet fenntartásában és az élelmiszer-termelésben...

MA 07:57

Az olcsó Samsung Galaxy A57 letarolja a mezőnyt?

A Samsung Galaxy A57 bemutatkozása a megfizethető Android telefonok piacán igazi meglepetést okozott, és külsőre simán felveszi a versenyt a csúcskategóriás készülékekkel is...

MA 07:50

Az Assassin’s Creed Black Flag Resynced mindent átír – íme az újdonságok

A legendás tengeri kaland visszatér Július 9-én végre visszatérhetünk minden idők egyik legkedveltebb Assassin’s Creed-epizódjához: a Black Flag újjászületett változatával...

MA 07:29

Az amerikai jóslópiacok háborúja: New York is beszállt

Az Egyesült Államok szövetségi hatósága, a Commodity Futures Trading Commission (CFTC) új szintre emelte a jóslópiaci platformok körüli jogvitát...

MA 07:22

Az év visszatérője: szárnyal a Bitcoin, a Tether önti bele a pénzt

A Bitcoin áprilisban új lendületet vett: árfolyama tartósan 77 000 dollár (kb...

MA 07:15

A 2026-os londoni maraton: futóünnep, világsztárok a rajtnál!

A hagyományos londoni maraton idén is a hosszútávfutás igazi ünnepévé válik: 2026-ban több mint 59 000 résztvevő rajtol Greenwichből, hogy 42,195 km-t (26,2 mérföld) tegyen meg a belvároson keresztül, a híres Cutty Sark mellett egészen a The Mallig...

MA 07:08

A Final Fantasy XIV találkozik az Evangelionnal – az év meglepetése

Fontos kérdés, hogy miként lehet egy olyan szürreális, kultikus animéhez, mint az Evangelion (Neon Genesis Evangelion), társítani a világszerte népszerű Final Fantasy XIV-et, mégis ez történik hamarosan...

MA 07:01

Az új Michael-film botrányt kavar: megszólalnak az áldozatok

Nem mindennapi hullámokat kelt Hollywoodban a most mozikba került életrajzi film Michael Jacksonról...

MA 06:43

Az új Resident Evil őrület: 7 millió fogyott két hónap alatt

🔥 Leon S. Kennedy népszerűsége új szintre lépett, ugyanis a Resident Evil Requiem két hónap alatt több mint 7 millió példányban kelt el...

MA 06:36

Az MI áttörte a védelmet: tízezernyi Palo Alto-eszköz veszélyben

⚠️ Egy sikeres kibertámadás során több mint 13 000 Palo Alto-eszköz került a támadók kezébe, akik távoli adminisztrátori, majd rootjogokat szereztek jelszó nélkül...

MA 06:29

Az álriporterek és az MI-hírportál: így irányítják a közvéleményt

🔎 Különösen igaz ez akkor, ha újságcikkeket olvasol egy olyan, magát függetlennek beállító hírportálon, amelynek újságírói és szerkesztősége gyakorlatilag nem létezik...

MA 06:22

Az Alice: Madness Returns alkotói legendát teremtettek, és odaszúrtak az EA-nek

👑 A 2011-ben megjelent Alice: Madness Returns fejlesztése során komoly ellentétek feszültek a kreatív alkotók és az EA marketingcsapata között...

MA 06:16

Az új MI-ragadozó: a DeepSeek-V4 fillérekért rengeti meg a piacot

A kínai DeepSeek nevű MI-vállalat újra felforgatta a mesterségesintelligencia-piacot. Legújabb fejlesztésük, a DeepSeek-V4, elképesztő teljesítményt, de töredékáron kínál, és ezzel komolyan feladja a leckét a nagy amerikai versenytársaknak...

MA 06:09

Az USA-t vízválság fenyegeti: haldoklik a Colorado-folyó

🌊 A Colorado folyóra támaszkodó nagyvárosok, mint Phoenix és Las Vegas, az utóbbi évtizedekben hatalmas lépéseket tettek a vízfogyasztás visszaszorítására, mégis egyre súlyosbodó vízhiánnyal néznek szembe...