2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 09:58

Az alvilági kártyapiac titkai: így választanak boltot a bűnözők

💳 Az ellopott bankkártyaadatokkal kereskedő alvilági piac mindig is ingatag, kiszámíthatatlan terepnek számított, ahol még a tapasztalt bűnözők is gyakran esnek csalás, lehúzás vagy hatósági lebuktatás áldozatául...

MA 09:22

Az Android Canary végre megérkezik a régebbi Pixelekre is

Áprilisban jelentős mérföldkőhöz érkezett a Google: az Android Canary 2604 verziója már nemcsak a legújabb Pixel 8-as sorozaton fut, hanem immár elérhető a Pixel 6 és Pixel 7 szériára, valamint a Pixel Foldra és a Pixel Tabletre is...

MA 09:18

Az MI-képes weboldalak új korszaka: megérkezett az Agent Readiness-pontszám

🤖 A web evolúciója folyamatosan új elvárások elé állítja a fejlesztőket és a vállalkozásokat...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Sight Words: Dolch Coach (iPhone/iPad)Ez a játék a Dolch Sight Words mind az öt szintjét lefedi, így segít elsajátítani az automatikus szófelismerést, ami elengedhetetlen a funkcionális írástudáshoz...

MA 09:08

Az amerikai adatközpontok óriásit csúsznak

Óriási lendülettel indult az MI-őrület az Egyesült Államokban, a világ techközpontjai dollárszázmilliárdokat ölnek egyre nagyobb és energiaéhes adatközpontok építésébe...

MA 09:04

A sosem felejtő MI-ügynök: megérkezett az Agent Memory

Érdekes felvetés, hogy mennyire fontos az MI-ügynökök számára a tartós emlékezet...

MA 08:57

A gyógyítás forradalma vagy illúzió? Az MI a tények tükrében

Az egészségügyi forradalom új hőse a mesterséges intelligencia, legalábbis ezt harsogják a nagyvállalatok...

MA 08:50

Az észak-angliai viking sziget egén felrobbant egy élénkzöld tűzgömb

💥 A hét elején Lindisfarne, azaz a Szent Sziget éjszakai egét vadul hasította át egy élénkzöld tűzgömb, amely a 8...

MA 08:43

Az MI-ben még a légitársaságoknál is kevésbé bízunk – miért?

Azt vizsgálták, hogyan viszonyulnak az emberek az MI-hez, különösen az ismert platformokhoz, mint a Google Gemini és a ChatGPT...

MA 08:36

A csődbe ment startupok már a Slack-csevegéseket is eladják

A startupok világa néha elég vad, de még a haláluk után is simán termelnek pénzt...

MA 08:22

A NIST visszavág: kizárólag a legveszélyesebb biztonsági hibákra fókuszál

Az elmúlt években hatalmas, 263%-os növekedés történt a szoftverek sérülékenységi bejelentéseiben, ezért az amerikai Nemzeti Szabványügyi és Technológiai Intézet (NIST) jelentősen szűkíti a CVE-adatok részletes feldolgozásának körét...

MA 08:01

Az új Galaxy Z TriFoldnál is vékonyabb, könnyebb utód készülhet

A Galaxy Z TriFold, a Samsung úttörő, háromszor hajtható okostelefonja villámgyorsan elfogyott a legutóbbi kiárusításon, így hivatalosan is elérhetetlenné vált...

MA 07:57

Az évtizedes ActiveMQ-sebezhetőség most kritikus veszélyt jelent

Érdekes jelenség, hogy egy 13 éve lappangó szoftverhiba most hirtelen komoly fenyegetéssé válik...

MA 07:50

Az Atlanti-áramlat összeomlása vészesen közelebb van, mint hinnénk

Az Atlanti-óceán egyik legfontosabb áramlata, az úgynevezett Atlanti meridionális áramlási rendszer (AMOC) összeomlása jóval valószínűbb, mint eddig hittük – derült ki egy friss kutatásból...

MA 07:29

A sötétbordó iPhone 18 Pro végre jöhet

Az Apple következő csúcskészülékei merőben új színt hozhatnak: egy gyönyörű, sötét, cseresznyébe hajló bordó árnyalatot...

MA 07:22

Az Északi-tenger alatti elveszett világ sötét titkai

Több ezer évvel ezelőtt az Északi-tenger feneke alatt rejtőző Doggerland területe buja erdők otthona volt, ahol tölgy, szil és mogyoró dúsan terjedtek már több mint 16 000 évvel ezelőtt – jóval korábban, mint azt bárki hitte volna...

MA 07:15

Az élőzene óriása bukik: mi lesz a koncertjegyek sorsa?

A Live Nation nevét már mindenki kívülről fújja, aki koncertre vágyik – és aki kisírt szemmel nézi a jegyárakat, vagy épp a végösszeget, amikor beütnek a különféle szolgáltatási díjak...

MA 06:57

Az emberi evolúció felgyorsult: itt a legnagyobb ősi genomvizsgálat

🚀 Az elmúlt évezredekben eddig nem látott tempóra kapcsolt az emberi evolúció...

MA 06:50

Az év gamer meglepetése: Lábakat kap a Clash of Clans

Most aztán tényleg ledobta az atombombát a Supercell: a Clash of Clansban megvásárolhatók a Barbár lábai, szobor formájában!..

MA 06:43

Az új Mozilla Thunderbolt: Az MI beköltözik, te diktálsz

Érdemes megvizsgálni, milyen újdonságot kínál a Mozilla az MI világában. Az MZLA Technologies, a Mozilla leányvállalata bemutatta a Thunderbolt nevű nyílt forráskódú MI-klienst, amely a teljes irányításra és az önálló futtatásra helyezi a hangsúlyt, mégpedig a felhőtől való függőség nélkül...

MA 06:37

Az olcsó laptopok új királya: megérkezett az Intel Wildcat Lake

💻 Az Intel idén tovább bővíti 2026-os mobilprocesszor-palettáját, méghozzá a pénztárcabarát Core Series 3 chipekkel, melyeket Wildcat Lake kódnéven fejlesztettek...

MA 06:29

A valódi munkaerőválság: mi falja fel a munkaerőpiacot valójában?

A legtöbb cégvezető a mesterséges intelligenciában látja a munkahelyek jövőjére leselkedő legnagyobb veszélyt, pedig valószínűbb, hogy egészen más folyamat fenyegeti a munkaerőpiacot...

MA 06:22

Az Altman-golyók véget vethetnek a jegyüzérkedésnek?

🧠 Sam Altman, a Tools for Humanity társalapítója által fejlesztett, szemszkennerekkel működő „golyói” új területen vethetők be, hogy felvegyék a harcot a koncertjegyeket elkapkodó botokkal...

MA 06:05

Történelmi események a mai napon (Április 18.)

Röviden: ezen a napon rengés pusztította el San Franciscót, merész amerikai rajtaütés érte Japánt a második világháborúban, és megszületett Zimbabwe független köztársasága...

MA 06:02

Újra kegyben az Anthropic a Fehér Háznál?

😷 Ebből következően érdemes megérteni, mi zajlik az Anthropic és a jelenlegi amerikai kormányzat között: a mesterséges intelligencia, pontosabban az Anthropic Mythos-modellje körüli viták hónapokon át tartó feszültsége után most újra megnyílni látszik a kommunikáció...

péntek 21:56

A tűzveszély miatt ismét visszahívják a külső mobilakkukat

A Casely ismét visszahívja az 5000 mAh-s MagSafe Power Podokat, miután újabb eseteket jelentettek túlmelegedésről és tűzesetekről...

péntek 21:34

Az új Windows-frissítés ismét térdre kényszeríti a szervereket

Na most kapaszkodj, mert a legújabb áprilisi Windows-biztonsági frissítés (KB5082063) telepítése után néhány szerver szinte azonnal újraindulási körforgásba zuhan...

péntek 21:24

A Naprendszer különcei: a legfurcsább bolygók

🐼 A Naprendszer bolygói elképesztően sokfélék. Vannak óriásiak és aprók, némelyiket sűrű légkör borítja, másoknak egyáltalán nincs légkörük...

péntek 21:12

Az MI-katasztrófákért ki felel – forr a vita Illinois-ban

Érdekes felvetés, hogy Illinois állam most az MI-fejlesztők felelősségét próbálja tisztázni, ha egy technológia komoly bajt okoz...