Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?



Legfrissebb posztok

MA 09:57

Az orosz télnél is halálosabb betegségek tizedelték meg Napóleon seregét

🔫 1812-ben Napóleon hatalmas sereggel – mintegy 500 000 katonával – rohanta meg Oroszországot...

MA 13:29

Az MI-s böngészőháború újraindul – veszélybe kerülhetnek a jelszavaid?

🚧 A böngészőháború ismét feléledt, de most az MI ül a volánnál...



MA 13:01

Óriáshét jön, ezek a részvények mozdíthatják meg a tőzsdét

Az előttünk álló héten igazi eredménydömping várható, hiszen több mint 150 S&P 500-as cég teszi közzé negyedéves számait...

MA 12:59

Az Amazon új gombja eldönti, mit rendelj haza

Az online vásárlás sokak számára kimerítő élmény: az ember órákon át böngészi a végtelen terméklistákat, értékeléseket olvas, és végül nehezen dönt...



MA 12:30

Az MI már túlságosan engedékeny, meglepő a nyelvi modellek szervilizmusa

Lényeges hangsúlyozni, hogy a nagy nyelvi modelleknél (LLM) széles körben elterjedt a hajlam a felhasználók kritikátlan kiszolgálására, még akkor is, ha ez a pontosság rovására megy...

MA 12:01

Az univerzum első rádióhullámai segíthetnek feltárni a sötét anyagot

📺 A világegyetem legelső időszaka, a kozmikus sötét korszak új lehetőséget kínál a sötét anyag természetének feltárására...

MA 12:00

A Noperthedron rejtélye, az első forma, amely nem fér át önmagán

Képzeld el, hogy a kezedben két dobókocka van. Vajon lehetséges-e, hogy az egyiken olyan lyukat fúrj, amelyen a másik, vele azonos méretű dobókocka átcsúszhat?..

MA 11:30

Az ősi keselyűfészkek titkai: cipők, csúzlik és történelem

🕊 Egyedülálló régészeti leleteket találtak dél-spanyolországi sziklafalakon fészkelő saskeselyűk ősi fészkeiben – köztük 25 különböző cipőt, egy számszeríj-nyilat, egy csúzli darabját és egy több mint 625 éves, vaddisznóbőrből készült, vörös díszítésű tárgyat, amelyet talán szokatlan maszkként használtak...

MA 11:01

Fémdarabot találtál a Coládban? Ezeket dobd ki!

Háromféle Coca-Cola üdítőt hívott vissza a gyártó az Egyesült Államokban, miután kiderült, hogy fém szennyeződés kerülhetett néhány dobozba...

MA 10:58

Az európai kormányok titkosítást követelnek, de minket megfigyelnének

🔒 Adatbiztonság, kommunikációvédelem és erős titkosítás – ezek a szavak hangzottak el leggyakrabban a múlt héten Strasbourgban, a Matrix-konferencián...



MA 10:49

Az Oreo gyártója MI-re bízza a reklámjait

🍪 A Mondelez – az Oreo és a Cadbury csokoládék gyártója – új generatív MI-eszközt vezet be, amellyel várhatóan 30–50%-kal csökkenti a reklám- és tartalomgyártás költségeit...

MA 10:41

Az űrviharok valós veszélyei, szimulációkkal készülnek a katasztrófákra

🌌 A napviharok ma már mindennapos beszédtéma az űriparban, hiszen technológiai fejlődésünk hihetetlen ütemben zajlik, ám ezzel együtt nő sérülékenységünk is az űrből érkező veszélyekkel szemben...



MA 10:33

Az első motoros cipő: a Nike meghajtott lábbelije

A Nike újabb őrülettel állt elő: bemutatták a világ első motoros lábbelijét, amelynek célja, hogy a gyalogláshoz és a kocogáshoz is elektromos rásegítést adjon...



MA 10:24

Az új Firefox-szabály: minden kiegészítő árulja el, mit gyűjt

🔍 A Mozilla szigorítja az adatgyűjtés átláthatóságát a Firefox böngészőben: november 3-tól minden új kiegészítő fejlesztőjének nyilatkoznia kell, hogy az adott bővítmény gyűjt-e vagy megoszt-e személyes felhasználói adatokat harmadik féllel...

MA 10:18

Az új Halo, a Kampány Evolved most tényleg tarol?

🎮 Különösen fontos kiemelni, hogy huszonötödik évfordulójára teljes remake-et kap a Halo: Combat Evolved (Halo: Combat Evolved), amely 2026-ban érkezik Xbox Series X/S-re, PC-re, és először PlayStation 5-re is...



MA 10:09

Álhalálhírekkel törik fel a LastPass jelszótárait

🕵 Október közepe óta a LastPass felhasználói komoly adathalász-hullámmal néznek szembe. Egy pénzéhes hackercsoport, az UNC5356, ügyesen kihasználja a vállalat öröklési folyamatát, és úgy próbál hozzáférni a jelszótárakhoz, hogy hamis halotti anyakönyvi kivonatra hivatkozva kér hozzáférést a fiókokhoz – mintha azt egy családtag indította volna...

MA 10:01

Új korszak kezdődik a WhatsAppnál, csak a Meta MI marad

🚀 Jövő januártól a WhatsApp minden rivális, általános célú MI-chatbotot – köztük a ChatGPT-t és a Perplexityt – kitilt a platformról...



MA 09:49

Az Apple-re milliárdos büntetés vár a brit App Store-ügyben

💸 Az Apple akár 690 milliárd forintot is fizethet azt követően, hogy elveszítette a brit versenyjogi pert, amelyben azzal vádolták, hogy a zárt App Store-rendszerével túlárazta szolgáltatásait a fejlesztők és a felhasználók kárára...

MA 09:42

Az újabb madárinfluenza-hullám komoly veszélyt jelent

Az idei nyáron szinte eltűntnek hitt madárinfluenza újra visszatért az Egyesült Államokba, és ez nemcsak a szárnyasokat, hanem a tejhasznú szarvasmarhákat is érinti...