Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?



Legfrissebb posztok

Az ibériai kardszárnyú delfinek újra hajókat támadnak – de miért?

MA 23:52

Az ibériai kardszárnyú delfinek újra hajókat támadnak – de miért?

🐳 Tovább fokozódik a hajósok félelme a spanyol partoknál, ahol az ibériai kardszárnyú delfinek – vagyis orkáknak is nevezik őket – ismét hajókat támadnak meg, meghibásodott kormányokkal és rémült...

A régi Apple órákra is megérkeznek a legújabb egészségügyi funkciók

MA 23:26

A régi Apple órákra is megérkeznek a legújabb egészségügyi funkciók

Az Apple új egészségügyi fejlesztéseihez nem feltétlenül kell új órát vásárolnod: jövő héten, a watchOS 26 frissítéssel, már a Watch Series 9-től felfelé elérhető lesz a magas vérnyomás...

Az ingatlanpiac visszavág: sosem látott árcsökkenés 2012 óta

MA 23:01

Az ingatlanpiac visszavág: sosem látott árcsökkenés 2012 óta

📊 Az elmúlt egy évben az ingatlanpiac erőviszonyai a vevők javára tolódtak: a kínálat nőtt, a kereslet csökkent, a vevők pedig egyre több helyen tudnak alkudni. Bár még mindig...

Az újabb Google Pixel mobil is forró krumpli lett

MA 22:51

Az újabb Google Pixel mobil is forró krumpli lett

Számos Pixel 7 és Pixel 7 Pro tulajdonos panaszkodik akkumulátorproblémákra: az eszközökben található akkumulátor nemcsak túlmelegszik, hanem meg is duzzad, ami miatt a telefon háza elválik, sőt, robbanás-...

Kiderült, hogy tényleg van légköre a Trappist-1e bolygónak

MA 22:28

Kiderült, hogy tényleg van légköre a Trappist-1e bolygónak

🔬 Negyvenegy fényévnyire egy vörös törpe körül kering egy kőzetbolygó, amelynek lehet légköre. A Trappist-1e bolygón végzett friss mérések először utalhatnak arra, hogy egy, a lakhatósági zónában található, Föld-méretű...

Az új Google-terv: Az MI vásárol helyetted, te csak nézd!

MA 22:01

Az új Google-terv: Az MI vásárol helyetted, te csak nézd!

A Google bemutatta legújabb forradalmi ötletét: mostantól a mesterséges intelligencia ügynökök (MI-ügynökök) képesek lesznek helyetted vásárolni. Ehhez elkészült az Agent Payments Protocol (AP2) nevű rendszer is, amely állítólag...

iPhone 17, még a Pixel 10 is irigykedhet rá

MA 21:51

iPhone 17, még a Pixel 10 is irigykedhet rá

📱 Az okostelefonok versenye továbbra is az állandó újításokról és utánzásokról szól: az Apple és a Google folyamatosan igyekszik lekörözni egymást, de még mindig vannak területek, ahol az iPhone...


MA 21:25

Az eltűnt hód visszatért – most a holland gátak réme

A 19. század elején kihalt hódot 1988-ban telepítették vissza Hollandiába, azóta már több mint 7000 példány él az országban. A hódok azonban egyre nagyobb problémát okoznak: járataikat nemcsak...

Az Uber forradalmasítja a vendéglátóipari hiteleket

MA 21:01

Az Uber forradalmasítja a vendéglátóipari hiteleket

Az Uber Eats és a pénzügyi technológiával foglalkozó Pipe új együttműködése teljesen átalakíthatja, hogyan jutnak finanszírozáshoz a kisvendéglők az Egyesült Államokban. A Pipe integrált technológiájának köszönhetően már az...