2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 20:55

Az exodus elindult: az MI felforgatja a brit reklámipart

Az MI egyre nagyobb nyomást gyakorol a brit reklámügynökségekre, emiatt tavaly minden eddiginél több alkalmazott hagyta el a szakmát, főként a fiatalabb generációból...

MA 20:37

A legújabb Chrome-frissítés végre rendet vág a fülek között

📂 A Chrome régóta várt, függőleges fülkezelése még csak kísérleti szakaszban van, de a Google már most nagyobb dobásra készül...

MA 20:19

Az agy rejtett sejtjei áttörést hozhatnak a gerincsérülések gyógyításában

Tipikus eset, amikor a tudomány átrendezi a régóta ismert tényeket – ezúttal a Cedars-Sinai kutatói bukkantak rá egy olyan biológiai javítófolyamatra, amely új utakat nyithat a gerincsérülések, a stroke vagy éppen a sclerosis multiplex kezelésében...

MA 20:03

Megvan a kvantummechanika rejtélyeinek eddigi legjobb magyarázata?

🧠 A kvantummechanika száz éve tartja izgalomban a világot magyarázatra szoruló ellentmondásaival...

MA 19:55

A Samsung új MI-je megturbózza a böngészőt

A Samsung a One UI 9 rendszerben komoly frissítést készít elő böngészőjéhez, amelybe a kiszivárgott firmware alapján már betekintést nyerhetünk...

MA 19:21

Az xAI alapítóinak fele otthagyta a céget, Musk nem aggódik

💀 Elon Musk MI-cége, az xAI az elmúlt hetekben látványos személyi átalakuláson ment keresztül: az alapítók fele távozott, köztük két társalapító is...

MA 19:01

Az algoritmusok tényleg mérgezik a közéletet? Itt a megoldás

🤔 A közösségi oldalak algoritmusai egyre inkább szélsőséges tartalmakat tolnak előtérbe, ami komoly politikai megosztottságot eredményez...

MA 18:20

A túlélő ősi fekete lyukak: sötét anyagot rejtenek?

💫 Az univerzum hajnalán, közvetlenül az ősrobbanás után, az akkor még forró és kaotikus térben születtek meg az első, úgynevezett primordiális (ősi) fekete lyukak...

MA 18:04

A valaha észlelt leghangosabb gravitációs hullám próbára teszi Einstein elméletét

2025 januárjában a tudósok minden eddiginél tisztább gravitációs hullámjelet észleltek, amely két távoli fekete lyuk összeolvadásából származott...

MA 17:56

A közösségi médiafüggőség: mítosz vagy valós veszély?

A Meta két nagy port kavaró perbe keveredett: Új-Mexikóban az állam főügyésze a gyerekek kizsákmányolását és károkozását rója fel a platform addiktív funkciói miatt, míg Los Angelesben egy nő mentális egészségromlásáért okolja a céget...

MA 17:37

A szinglik új nemzedéke, akiket mégis büntet a rendszer

Soha nem volt még ilyen magas az egyedülállók száma Amerikában, ráadásul sokan szándékosan választják ezt az életformát...

MA 17:21

A Blackwell-lel tízszer olcsóbb az MI-üzemeltetés

A mesterséges intelligencia-alapú alkalmazásoknál az egyik legjelentősebb fejlemény a költségek drasztikus, akár tízszeres csökkentése az Nvidia Blackwell platformján...

MA 17:02

Az Archaeopteryx szájának titkai: bizarr fogak és elképesztően mozgékony nyelv

🐮 Tipikus eset, amikor egy legendás őslény újabb meglepetéssel szolgál: az Archaeopteryx, a dinoszauruszok és madarak közötti átmenetet jelző ikonikus lény számos meglepő, eddig ismeretlen sajátossággal gazdagítja ismereteinket...

MA 16:55

A Microsoft újabb bakija kifektette a Chrome-ot – most orvosolták

A Microsoft végre kijavította azt a bosszantó hibát, amely miatt a Family Safety szülői felügyeleti szolgáltatás megakadályozta a Windows-felhasználókat abban, hogy elindítsák a Google Chrome-ot és más böngészőket...

MA 16:37

Az univerzum tojása: lenyűgöző Hubble-fotó új titkokat tár fel

Lenyűgöző pillanatot örökített meg a Hubble űrtávcső: a Tojás-köd (Egg Nebula) közepén egy haldokló csillag rejtőzik, amely kettős fénysugarat bocsát ki sűrű porburka poláris nyílásain át...

MA 16:19

Az IBM visszavág az MI-nek: még több pályakezdőt vesz fel

Miközben egyre több techóriás hangoztatja, hogy az MI elvenné a pályakezdők munkáját, az IBM épp az ellenkező irányba mozdul: 2026-ban háromszorosára növelné a pályakezdők felvételét az Egyesült Államokban...

MA 16:01

Az aranykornak vége: a Bitcoin csak 85 ezer dollár fölött robbanhat

A Bitcoin árfolyama hetek óta 60 és 70 ezer dollár között mozog, jócskán elmaradva az októberi csúcsától...

MA 15:39

Az otthoni levegő rejtett veszélyei, amikről alig beszélünk

Otthonaink védelmet nyújtanak, de a benti levegő minőségére kevésbé figyelünk, pedig szinte soha nem látjuk, nem halljuk, és ritkán érezzük...

MA 15:20

Az MI felveri az áramárat – a középosztály issza meg a levét

🔋 Az elmúlt években az MI-verseny miatt sorra létesülnek új adatközpontok az Egyesült Államokban...

MA 15:02

Az ősi sír, amely titkos középkori alagutakhoz vezet Németországban

🗿 A németországi Dornberg közelében zajló ásatások során régészek váratlan felfedezést tettek egy kőkori temetkezési helyen...

MA 14:56

Az MI szuperhőssé teszi az ügyfélszolgálatosokat

A gyorsan fejlődő MI-technológiák nemhogy elvennék az ügyfélszolgálati munkatársak állásait, hanem segítenek nekik abban, hogy hatékonyabban oldják meg az ügyfelek problémáit...

MA 14:37

A csavart mágneses anyag forradalmasíthatja az ultrasűrű adattárolást

💾 Egy alig észrevehető atomszintű csavar a mágneses rétegekben forradalmi áttörést hozott: új típusú, rendkívül apró mágneses örvények – úgynevezett szkyrmionok – jöttek létre, amelyek teljesen megváltoztathatják az adattárolás jövőjét...

MA 14:20

Az OpenAI áttörése: szinte azonnali kódgenerálás Cerebras lapkákkal

⚡ Egy lényeges szempont, hogy az OpenAI szakít a kizárólagos Nvidia-függéssel, és új partnert választott a kódgenerálás felgyorsítására: a Cerebras Systems óriáslapkáit...

MA 14:02

Az északi kanadai erdők ötszörösére fokozhatják a CO2-megkötést

Kanada az évszázad végére évente akár ötször több szén-dioxidot távolíthatna el a légkörből, mint amennyit most kibocsát – mindezt azáltal, hogy fákat ültet a boreális erdő északi peremén...

MA 13:55

Az emulátorháború folytatódik: a Nintendo ismét lecsap

Komolyabb akadályok elé néznek a Nintendo Switch-emulátorokat kereső felhasználók, ugyanis a Nintendo ismét DMCA-értesítéseket küldött a GitHubon jelenleg fellelhető összes Switch-emulátor és azok változatai (forkjai) ellen...

MA 13:38

Az Ariane 6 lehet az Amazon műholdas álmának utolsó esélye

Érdemes megvizsgálni, hogy Európa legerősebb rakétája, az Ariane 6 sikerrel indította el az Amazon régóta várt műholdhálózatát, amikor a vállalatnak erre a legnagyobb szüksége volt...

MA 13:22

Az MI-korszak titkos fegyvere: az ügynökmenedzser

Erre utal többek között az, hogy a vállalatok egyre nagyobb arányban telepítenek önállóan is működni képes MI-ügynököket, de ezek sikeres működtetéséhez egészen új típusú vezetőkre van szükség...

MA 13:01

A Bitwarden új Cupid Vaultja forradalmasítja a biztonságos jelszómegosztást

🔒 A Bitwarden mostantól egy új funkcióval, a Cupid Vault-tal segíti a biztonságos jelszómegosztást, főként azoknak, akik egy-két személlyel szeretnének közösen használni fiókokat...

MA 12:55

A Google Fotók megújul: itt a vadiúj lebegő menüsáv

📷 A Google Photos végre megszabadult a régi, képernyő alján húzódó navigációs sávjától, és helyette egy lebegő, kapszula alakú eszköztár jelent meg...