2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 17:31

A Google és az FBI szétverte a 2 milliós NetNut-botnetet

A NetNut néven futó lakossági proxyhálózatot kemény csapás érte, amikor nagy technológiai cégek és az amerikai hatóságok együtt léptek fel az online bűnözés ellen...

MA 17:02

Az új PamStealer nem a szokványos macOS-kártevő

🔒 A PamStealer nevű, most felfedezett macOS-kártevő alaposan feladja a leckét az Apple gépeket használóknak...

MA 16:31

Az első antarktiszi dinoszaurusz a valaha élt óriások közé tartozott

Több mint negyven évvel ezelőtt egy hatalmas állat gerincdarabját emelték ki az antarktiszi jég fogságából...

MA 16:02

Az MI-t bevezető cégek idővel még több embert vesznek fel

Tipikus eset, amikor mindenki attól tart, hogy az MI elterjedése elveszi a munkahelyeket, de a számok mást mutatnak: az MI-re nagyban támaszkodó vállalatok valójában bővítik a munkatársi létszámot...

MA 15:32

Az űripar nagy rablása: a SpaceX tőzsdére lépésének csavarja

🚀 Majdnem elképzelhetetlen, hogy ne hallottunk volna arról, mekkora sikert aratott a SpaceX a tőzsdére lépésével...

MA 14:31

A Webb-űrtávcső sosem látott, rejtélyes anyagot találhatott Plútón és Titánon

A James Webb űrteleszkóp legújabb megfigyelései szerint egy rejtélyes hullámhossz hiányzik a törpebolygó, a Plútó és a Szaturnusz legnagyobb holdja, a Titán felszínéről visszaverődő fény spektrumából...

MA 12:01

Az óceánok júniusi hőrekordja: erősödő El Niño fűti a vizeket

A Föld óceánjai idén júniusban történelmi hőmérsékleti rekordot döntöttek, ráadásul éppen akkor, amikor az El Niño hatása is felerősödik a Csendes-óceánon...

MA 11:31

A csendes szuperszonikus utasszállítók hamarosan átrepülhetnek amerikai városok felett?

A több mint öt évtizede érvényben lévő tiltás, amely megakadályozta a szuperszonikus utasszállítók áthaladását az Egyesült Államok városai felett, hamarosan a múlté lehet...

MA 11:01

A brutális hőség az amerikai áramhálózatokat és a július 4-i utazást fenyegeti

🔥 Amerikát rendkívüli hőhullám sújtja, amely a középső és keleti régiókban éri el csúcspontját, és várhatóan egészen a függetlenség napjáig kitart...

MA 10:49

A villámtrükk, amivel 3 másodperc alatt ellopják a Microsoft 365-fiókod

Elég csak egy ártatlannak tűnő linket behúzni a böngészőbe, és három másodperccel később már jogosulatlanul hozzáférhet valaki a Microsoft 365-fiókodhoz, miközben semmilyen szokványos biztonsági jelzés nem figyelmeztet előre a veszélyre...

MA 10:37

A denevérrel ébredt, 11 éves kanadai fiú belehalt a veszettségbe

🦇 Egy 11 éves ontariói fiú tragikus körülmények között veszettségben vesztette életét, miután egy denevér éjszaka az arcán leszállt...

MA 09:49

A Fehér Ház mindent bedob: új UAP-tanácsadó testület alakul

Az Egyesült Államok kormánya új szintre emeli a földönkívüli élet utáni kutatást: külön tudományos tanácsadó testület segíti az ország vezetőit az azonosítatlan légköri észlelések, vagyis az UAP-ok vizsgálatában...

MA 09:24

A Meta előfizetéshez köti az okosszemüvegek extra funkcióit

A Meta új előfizetési rendszert vezet be az okosszemüvegeihez, amely érinti mind a Ray-Ban- és Oakley‑modelleket, mind a saját márkás eszközöket...

MA 09:14

A mesterséges intelligencia igazi ára: spórolás helyett súlyos mellékhatások?

💸 Egy lényeges szempont, hogy az amerikai kormány jelenlegi hiánya soha nem látott magasságokba emelkedett, miközben egyre élénkebb vita övezi a költségvetési reformok szükségességét...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 7/3

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     FormatX: Video Audio Converter (iPhone/iPad)A FormatX egy sokoldalú, minden az egyben formátum átalakító eszköz, amely egyszerűen és gyorsan alakít át videó-, hang- és képformátumokat...

MA 09:02

Az új ZCode kihívja a Copilotot, a Cursort és a Claude-ot

Egyre látványosabb átrendeződés zajlik a fejlesztői eszközök piacán: Pekingből érkezik egy új szereplő, amely odacsap a veterán nyugati óriások asztalára...

MA 08:49

A Google beszünteti a legendás Nest okoszár árusítását

🔒 A Nest x Yale Lock hosszú időn át az egyik legismertebb okoszár volt a piacon, de most végleg eltűnt a Google Store kínálatából...

MA 08:03

Az MI-szabályozás káosza és a küszöbön álló technológiai forradalom

Az elmúlt hét legnagyobb MI-híre Amerikában az volt, hogy visszavonták az Anthropic Mythos és Fable modelljeire két hete bevezetett exportkorlátozásokat...

MA 07:49

A láthatatlan szálak: így irányítja a világot a Goldman Sachs

💎 Közel 46 ezer alkalmazott dolgozik a világ egyik legnagyobb pénzügyi intézményénél, ahol évente több mint egymillióan pályáznak állásra...

MA 07:37

A Hubble lehetetlen fényt észlelt egy láthatatlan galaxisból

Egy rejtélyes, ősi galaxis, az MXDFz4.4 fényét sikerült észlelni a világegyetem legkorábbi időszakából, ami eddig lehetetlennek tűnt...

MA 07:13

Az űrverseny óriásai: Mikor startol végre a New Glenn?

🚀 Senki sem várta volna, hogy a holdraszállásról álmodó NASA egyik legkomolyabb akadályát saját beszállítói okozzák, mégpedig a Blue Origin csúszásai miatt...

MA 07:01

A Securitize NYSE-debütál: 295 millió dolláros tokenizált részvény Solanán és Avalanche-en

🔥 A digitális vagyonkezelés újabb mérföldkőhöz érkezett: a BlackRock és az ARK Invest által is támogatott Securitize egyszerre lépett be a New York-i tőzsdére, és tokenizálta saját részvényeit...

MA 06:49

Az évszázad legerősebb rengése Venezuelában: 2595 halott, súlyos károk

A Venezuelát múlt héten sújtó földrengések következtében a halálos áldozatok száma 2 595-re nőtt, miközben a mentőalakulatok továbbra is versenyt futnak az idővel a túlélők felkutatásáért...

MA 06:26

Véget ért a hajón kitört hantavírus-járvány – közölte a WHO

🚦 A luxushajón tavasszal felbukkanó hantavírus-járvány végre hivatalosan is lezárult. A fertőzés korábban három ember halálát okozta, és komoly félelmeket keltett a további terjedésével kapcsolatban...

MA 06:06

Történelmi események a mai napon (Július 3.)

Viharos ütközetek, trónra lépések és technikatörténeti mérföldkövek jelölik ezt a napot: a gettysburgi csata tetőpontja, Hugh Capet francia királlyá koronázása és a Mallard gőzmozdony világrekordja egyszerre rajzolják át a történelem térképét...

MA 06:01

A CISA szerint már aktívan támadják a Microsoft SharePoint RCE-hibát

A Microsoft SharePoint-rendszerei újabb komoly biztonsági kockázattal néznek szembe: a legújabb, távoli kódfuttatást lehetővé tévő sérülékenységet már aktívan kihasználják a támadók...

csütörtök 18:31

A pályaközepi kiégés: amikor munka, gyereknevelés és idősgondozás ütközik

Egy hétfő reggel Sarah Davies, egy nagy brit élelmiszergyártó pénzügyi vezetője, szokása szerint felhívta idős édesapját...

csütörtök 18:01

A világ végére tartó út: úszó labor az északi jég fogságában

Jövő hónapban tizenkét fős csapat indul Norvégia sarkköri kisvárosába, Kirkenesbe, hogy megkezdje elképesztő utazását a Föld egyik legkietlenebb, legzordabb vidékére...

csütörtök 17:01

Az amerikai álom újra szárnyal: SpaceX, részvényláz, történelem

🚀 Az Egyesült Államok 250. születésnapját a világ valaha volt legnagyobb tőzsdei kibocsátásával ünnepli...