2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 16:13

Az olcsó 8 GB-os kártyák utolérhetik a 16 GB-os csúcsokat?

📈 Megvizsgáltam, mennyire lehet tuningolással felzárkóztatni a középkategóriás, 8 GB memóriás Nvidia- és AMD-videokártyákat a drágább, 16 GB-os változatok teljesítményéhez...

MA 16:02

Az EA nem csinálja, ezért egy indie nekiáll a Titanfall 3-nak

A Titanfall-sorozat minden idők egyik legkedveltebb FPS-élménye, amely érthetetlen módon a süllyesztőbe került, amikor az EA a Titanfall 2-t két nagy riválissal, a Battlefield 1-gyel és a Call of Duty: Infinite Warfare-rel egy időben dobta piacra...

MA 15:57

Az indiánok rejtett őse: szenzációs felfedezés az ősi DNS-ben

Az utóbbi évek egyik legjelentősebb genetikai kutatásában sikerült majdnem kétszáz dél- és közép-amerikai őslakos ember genomját feltérképezni, egészen új képet adva Amerika benépesítésének rejtélyes múltjáról...

MA 15:46

Az amerikaiak titkos gombaláza: depresszió, remény és varázsgombák

Megemlíthető továbbá, hogy az elmúlt években az úgynevezett varázsgombák, vagyis a pszilocibint tartalmazó gombák iránti érdeklődés az Egyesült Államokban minden eddiginél nagyobb lett...

MA 15:34

Az MI-forradalmat is túléli az iPhone: az Apple aduásza marad

📱 Az utóbbi időben sokan vitatják, hogy vajon képes lesz-e az Apple megőrizni vezető szerepét a mobilpiacon az MI rohamos fejlődése mellett...

MA 15:23

Az SSD-k drágulnak, elszálltak a processzorárak

Egyre biztosabbnak tűnik, hogy jóval mélyebben kell a pénztárcánkba nyúlni, ha új SSD-t vagy processzort szeretnénk venni...

MA 15:12

A bitcoin és a dollár most döbbenetesen tükörképei egymásnak

Érdemes megvizsgálni, hogy a bitcoin és az amerikai dollár közötti kapcsolat sosem volt ennyire szélsőséges, mint mostanában...

MA 15:03

A május égi csodái: felszerelések, tippek, kihagyhatatlan élmények

🌙 Májusban is számos látványosság vár az égbolton mindazokra, akik szeretnék felfedezni a csillagászat rejtelmeit...

MA 14:57

A fedélzeti kamerák királya: a Vantrue Pilot 2 mindent visz

A modern navigációs, szórakoztató és biztonsági funkciók egyetlen csomagban érkeznek – legalábbis ezt ígéri a Vantrue Pilot 2 menetrögzítő kamera...

MA 14:45

Az új kihívó lenyomta az árakat: olcsóbb a Disney+

💲 Fontos kérdés, hogy miért csökkent hirtelen a Disney+ ára az Egyesült Királyságban...

MA 14:34

A bitcoin megtorpan, de 29 millió felett még mindig sztár

Az elmúlt napokban a bitcoin árfolyama néhány ezer dolláros sávban mozgott, 77 500 és 78 500 dollár között ragadt, miután szerdán meghiúsult a 80 000 dolláros áttörés...

MA 14:23

Az Intel visszatér a csúcsra: jön az MI-áttörés

🚀 Felmerül a kérdés, hogy mi történt az Intellel az elmúlt egy évben...

MA 14:01

Elárulják a háttérképek a Pixel 11 Pro Fold új színeit?

A legújabb Android 17 bétaverzió frissítésében váratlan dolog történt: a Google véletlenül közzétette a következő Pixel 11 Pro Fold háttérképei előnézeteit és leírásait...

MA 13:56

Az eltűnt profit nyomában: mit nyelnek el a vállalati silók?

🔍 Ami elsőre egyértelműnek tűnt, valójában bonyolultabb volt: sok vállalatvezető úgy gondolja, teljesen átlátja cége folyamatait és pénzügyi adatait, de az egyes részlegek közötti „fekete lyukakban” értékes lehetőségek rejtőznek...

MA 13:45

Az ősi dinoszaurusznyomok újraírják Dél-Afrika történelmét

Erre utal többek között, hogy a világ egyik leggazdagabb ősélőlény-lelőhelyének számító Dél-Afrikában korábban kimondottan kevés bizonyítékot találtak a dinoszauruszok késői jelenlétére – egészen mostanáig...

MA 13:33

Az amerikai állam most tényleg nagyot kaszál az Intelből

💸 Na most kapaszkodj, mert az Intel elképesztő, több mint 22%-os árfolyam-emelkedésével az Egyesült Államok kormánya jelenleg közel 26,5 milliárd dollár (kb...

MA 13:12

Az új digitális rúpia átírja India szociális támogatásait

Ilyen eset, amikor egy ország a szociális támogatási rendszert használja ugródeszkaként egy új digitális pénz bevezetéséhez...

MA 13:01

A kriptotél véget ért? Szakértők és állami pálfordulások

Megvizsgálandó, hogy tényleg magunk mögött hagytuk-e a bitcoin árfolyamzuhanásának időszakát, vagy csak egy újabb fordulatot élünk meg a kriptopiac hullámvasútján...

MA 12:56

Az új őrület a Crimson Desertben: madarak szelídítése háziállatnak

🐕 A Crimson Desert legfrissebb frissítése alaposan felbolygatta az eddigi háziállat-rendszert: végre itt vannak a madarak!..

MA 12:46

A nagy dobás: az Ubuntu‑modell tarol a Framework laptopokon

A Framework új laptopja iránti kereslet minden előzetes várakozást felülmúl. A vállalat már hat szállítmányt is eladott a vadonatúj, moduláris és könnyen bővíthető készülékből, amelyet egyre többen választanak – ráadásul a többség az Ubuntuval előtelepített változatot preferálja, nem a Windowsosat...

MA 12:23

Az Assassin’s Creed IV: Fekete Zászló Resynced hasít PS5 Prón

Végre leleplezték a 2013-as Assassin’s Creed IV: Fekete Zászló (Assassin’s Creed IV: Black Flag) remake-jét, amely lenyűgöző technikai ugrást hoz a jelenlegi konzolgeneráció számára...

MA 11:12

Az ősi argentin kígyó, amely lábakkal írja újra az evolúciót

🐍 Egy közel 100 millió éves, kivételesen épen maradt argentínai fosszília segít új fényt vetni a kígyók fejlődésének korai szakaszaira...

MA 11:01

A Metaplanet újabb húzása: 18 milliárd forintból venne bitcoint

💰 A tokiói Metaplanet újabb fordulatra készült: 8 milliárd jent, vagyis közel 18 milliárd forintot gyűjtött össze nulla százalékos kamatozású kötvénykibocsátással, azzal a céllal, hogy tovább növelje bitcoinvagyonát...

MA 10:57

A Menkauré-piramisban rejtett üregek titkos bejáratra utalhatnak

Évek óta foglalkoztatja a kutatókat, létezik-e titkos bejárat a Gízában található Menkauré-piramis keleti oldalán...

MA 10:36

Az ősi kór nyomában: egy elfeledett város pusztulása

Másfél évezreddel ezelőtt rejtélyes betegséghullám sújtotta a mai Jordánia területén álló Jerash városát...

MA 10:30

A brit humorú zombiszimulátor, ahol a kenyér is penészes

🧅 Jellemző példa erre, hogy ha azt gondolnánk, egy istenjáték békés falusi idillje csak gombaszedésből és szendvicsgyártásból áll, a Masters of Albion ezt alaposan megcáfolja...

MA 10:23

Az új pénzcsap: a Morgan Stanley rárepül a stabilcoinokra

💰 A pénzügyi világ óriása, a Morgan Stanley egyre markánsabban veti meg a lábát a digitális eszközök piacán...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/24

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Milky Way: Cosmic Playground (iPhone/iPad)A Milky Way egy kivételes, fizika alapú űrszimulátor, amely az univerzum felfedezésének élményét kínálja...

MA 08:43

Az Assassin’s Creed Black Flag remake mindent felkavar – jó ötlet?

🏹 Az Assassin’s Creed-széria egyik legnépszerűbb darabja, a Black Flag idén nyáron tér vissza, ráadásul teljesen újjáépítve...