2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 14:02

Az európai MI-fronton a Mistral magasabb fokozatba kapcsol

⚡ A Mistral nevű francia MI-startup 286 milliárd forintot (830 millió USD-t) szerzett adósságfinanszírozás formájában, hogy Párizs közelében működtethessen egy modern adatközpontot...

MA 13:56

Az amerikai reptéri káosz csúcsa: már kertben állnak sorba

✈ Különösen említést érdemel, hogy az utóbbi időben szokatlanul hosszúra nyúlt sorok kígyóznak az amerikai reptereken, amit egyszerre okoz a részleges kormányzati leállás miatti repülőtéri biztonsági dolgozók tömeges hiányzása és a tavaszi szünet idején megélénkülő utasforgalom...

MA 13:45

Az androidosokat nem a telepítés, hanem a Play Áruház fenyegeti

Az Android-felhasználók milliói vannak kitéve rosszindulatú alkalmazásoknak, még akkor is, ha csak a hivatalos Play Áruházból töltenek le appokat...

MA 13:34

A Pixel utazási módja végre mindenkihez megérkezett

A Google márciusban bemutatott új funkciója, az utazási mód, mostantól világszerte minden Pixel-felhasználó számára elérhető...

MA 13:24

Az Artemis II űrhajósai minden eddigi rekordot megdöntenek a Holdnál

Az Artemis II küldetés olyan mérföldkőhöz érkezett, amelyre több mint fél évszázada nem volt példa: négy űrhajós hamarosan a Hold közelébe utazik, emberes küldetés keretében először az Apollo-korszak lezárulta óta...

MA 12:01

A napi pár perc kemény mozgás átírhatja az egészséged jövőjét

💪 Napi néhány perc lendületes testmozgás is jelentősen csökkentheti nyolc fő betegség kialakulásának kockázatát, beleértve az ízületi gyulladást, a szívbetegséget és a demenciát...

MA 11:56

A ShinyHunters az Európai Bizottság adataira is lecsapott

A ShinyHunters nevű zsarolóhacker-csoport feltörte az Európai Bizottság webes platformját, és sikeres kibertámadását követően az adatok jelentős részét megszerezte...

MA 11:45

Az újabb Fortinet-sebezhetőséget már gőzerővel támadják

A Fortinet népszerű FortiClient EMS rendszere súlyos sérülékenységgel küzd, amelyet már aktívan ki is használnak...

MA 11:34

A régebbi Galaxy mobilok is megkapják az AirDropot – vagy mégsem?

📱 A Samsung a közelmúltban nagy lépést tett, amikor csatlakozott a Google-hoz, és a Quick Share funkción keresztül AirDrop-támogatást tett elérhetővé eszközein...

MA 11:23

A rejtett stabilcoin-forradalom söpör végig Délkelet-Ázsián

Érdemes megvizsgálni, hogyan vált a stabilcoinok által hajtott fizetési infrastruktúra a mindennapok láthatatlan hátterévé Délkelet-Ázsiában...

MA 11:12

A világ egyik legveszélyesebb szupervulkánja ébredezik Japánban

⚠️ A Kikai-kaldera, amely 7300 évvel ezelőtt a Föld legnagyobb holocén kori kitörését okozta, újból magmával töltődik fel a kutatók legújabb eredményei szerint...

MA 11:01

Az Apple őrült kezdete: zseniális hóbort filléres alkatrészekből

Steve Wozniak már kamaszkorában eldöntötte, hogy egyszer lesz saját számítógépe – még akkor is, ha ezért lakásba kell költöznie ház helyett...

MA 10:50

Az Android Auto már tud YouTube-ot – de ez még nem mozi

Na most kapaszkodj, mert végre felbukkant a YouTube az Android Auto vezérlői közé!..

MA 10:30

Az MI felturbózta a Dellt: 11 ezres leépítés hozta a pénzügyi csodát

📈 A Dell néhány évvel ezelőtt még könnyen a történelemkönyvekben végezhette volna...

MA 10:22

Az USB-C-s lítiumcellák: ne hagyd, hogy a látszat megtévesszen!

Lehet, hogy elsőre egyértelműnek tűnik, hogy az USB-C-s lítiumcellákat simán feltöltheted a készülékben hagyva, de kapaszkodj, mert ehhez azért akad pár buktató...

MA 10:15

Az MI és a botok átveszik az internet feletti uralmat

Egy friss jelentés szerint az internetes forgalom már túlnyomórészt automatizált rendszerekből származik, nem pedig emberektől...

MA 09:57

Az évszázad villámrablása: Renoir, Cézanne, Matisse művei tűntek el egy olasz múzeumból

Amikor már azt hinnéd, hogy a múzeumi biztonság a csúcson van, négy maszkos tolvaj simán túljárt mindenki eszén a Parma közelében álló Magnani-Rocca Alapítvány villájában...

MA 09:50

Az új Bluesky-asszisztens, Attie, aki helyetted építi a közösségi hírfolyamod

Most őszintén, könyörgöm, észrevetted már, hogy minden alkalmazásba beletolnak valami AI-maszlagot?..

MA 09:36

Itt az Android saját AirDropja?

Megvizsgáljuk, hogy hamarosan az Android legújabb funkciója lehetővé teszi-e nemcsak névjegyek, hanem fájlok megosztását is két telefon összeérintésével...

MA 09:28

A QR-kód, amitől a bacik is megszeppennek

Képzeld el, hogy a tudósok egy olyan mikroszkopikus QR-kódot készítettek, amit csak elektronmikroszkóppal lehet megnézni...

MA 09:15

Az űrtávcsövek végre feltárták a Szaturnusz vad időjárását

🌌 A Szaturnusz lenyűgöző gyűrűi mellett mindig is különös figyelem övezte a bolygó vad szeleit, tartós viharait és szokatlan időjárási mintáit is...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 3/30

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     RPG Alphadia Neo (iPhone/iPad)Ebben a klasszikus fantasy történetben az Energi, az életerő körüli harcok állnak a középpontban...

MA 09:08

Az áprilisi Rózsaszín Hold látványos égi műsort ígér

Észak-Amerika égboltján április 1-jén tündököl a tavasz első teliholdja, amelyet Rózsaszín Holdnak (Pink Moon) hívják...

MA 09:01

Az új Cisco Catalyst C1300: villámgyors hálózat, kompromisszumok nélkül

A Cisco Catalyst C1300-12XT-2X egy igazán vonzó darab a menedzselt switchek világában, főleg azoknak, akik kis helyen szeretnének komoly teljesítményt elérni...

MA 08:50

Az ember és a Hold: újra rabul ejt a varázsa?

1969-ben Neil Armstrong a világ szeme láttára lépett a Hold felszínére, ezzel történelmet írt, és az emberi kíváncsiságot új szintre emelte...

MA 08:43

A részeg kolibri titka: alkohol a virágporban

A kolibrik és a méhek számára a napi ebédjük meglepő mellékhatással jár: az elfogyasztott nektáruk enyhén erjed, így ezek az állatok ténylegesen alkoholt isznak, miközben beporozzák a virágokat...

MA 08:36

Az utolsó visszaszámlálás: küszöbön a NASA holdküldetése

🚀 Az amerikai űrkutatók már napokat számolnak vissza: hamarosan indulhat a történelmi Artemis II-misszió, amely során négy űrhajós repül majd a Hold körüli pályára...

MA 08:29

A Rivian áttör Washingtonban – itt az e-autóforradalom

Külön említést érdemel, hogy Washington államban a Rivian többéves küzdelem után kivívta a jogot, hogy elektromos autóit közvetlenül adja el a vásárlóknak, megkerülve a hagyományos autókereskedőket...

MA 08:21

A MicroStrategy először fékez: szünet a bitcoin-vásárlásban

Az egész kriptouniverzumban rezdülés futott végig, amikor a Strategy (korábban MicroStrategy) teljesen kihagyott egy hetet a bitcoin-vásárlásban...