2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 13:59

A bukás, csalás és leleplezés nyomában: FBI-tól a hackerekig

🕵 Az utóbbi napokban az FBI kibervédelmi rendszereiben olyan behatolást fedeztek fel, amely a drótlehallgatáshoz és a megfigyeléshez köthető hálózatokat érintette...

MA 13:39

Az egyszerű matektrükk, ami leleplezi, milyen jó problémamegoldó vagy

Például: 29 + 14. Valaki leírja egymás alá a számokat, összeadja az egyeseket, átvisz, majd összeadja a tízeseket, így kijön a 43...

MA 13:21

Az európai őslakosok nem tűntek el: a nők adták tovább a földművelést

Tipikus eset, amikor a múltunkat egy-egy váratlan felfedezés teljesen új megvilágításba helyezi...

MA 11:40

Az űrgazdaság lázban: új ETF a SpaceX tőzsdei bevezetése előtt

Az amerikai Roundhill Investments egyre népszerűbb tematikus alapjairól ismert: sportfogadás, fogyókúrás gyógyszerek, önvezető autók és a metaverzum – mind külön tőzsdén kereskedett alapban (ETF) futnak náluk...

MA 11:01

Az MI nem ember – két per kemény tanulságai

Az elmúlt hetekben két amerikai bírósági ügyben is kimondták, hogy az MI-botok nem tekinthetők emberi lényeknek...

MA 10:54

Az Apple láthatatlan dizájnzsenije: Steve Lemay

💻 Szóval van egy arc az Apple-nél, Steve Lemay, aki konkrétan irányítja, hogy mit és hogyan érintgetsz az iPhone-odon vagy az Apple Watchodon...

MA 10:38

Az MI-láz tetőzik: az Nscale már 5400 milliárdot ér

Az Nscale nevű brit startup mindössze egy év alatt kulcsszereplővé vált az MI-infrastruktúra piacán, miután újabb 2 milliárd dollár, vagyis közel 720 milliárd forint forrást vont be...

MA 10:29

Az üzemanyagár-horror visszatér: jön az újabb történelmi csúcs?

🚗 Az autósok Amerikában újabb, még súlyosabb üzemanyagáremelkedésre készülhetnek, ahogy az olajárak példátlan ugrást produkáltak egyik napról a másikra...

MA 10:21

A hosszú karú törpedínó átírja a mini őshüllők történetét

Különös dinoszauruszcsontváz került elő Argentínából: az Alnashetri cerropoliciensis nevű, alig 700 grammos állat megdönti a korábbi elméleteket a miniatűr, rovarevő őshüllők fejlődéséről...

MA 09:56

Az infláció hároméves csúcson Kínában – kifullad-e a lendület?

Felmerül a kérdés, mennyire változik Kínában a fogyasztói árak helyzete, miután februárban az infláció nagyobb mértékű növekedést mutatott, mint bármikor az elmúlt három évben...

MA 09:47

Az emberi agysejtek most már Doomot is játszanak

Egy ausztrál cég, a Cortical Labs, sikeresen összekötött nagyjából 200 ezer élő emberi agysejtet egy szilíciumlapkával, hogy azok elboldoguljanak a legendás Doom játékban...

MA 09:20

Az ősi élet nyomai a legváratlanabb helyen kerültek elő

Marokkó mélyén, a Közép-Atlasz hegyvonulataiban egészen különös felfedezésre bukkantak a kutatók...

MA 09:10

A mesterséges intelligencia az észak-koreai hekkerek új csodafegyvere

🛡 Érdemes megvizsgálni, hogy napjainkban az MI-ügynökök jelentősen megkönnyítik a kiberbűnözők és állami hekkerek dolgát...

MA 09:01

Az olaj kilő, a Bitcoin szakad – Mi történik?

Nem hiszem el, de a hétvégi hírek még mindig semmi békülésről nem szólnak az iráni fronton, úgyhogy az olajpiac teljesen bepörgött...

MA 08:46

A Kansas City repülőtéren: rövid pánik, aztán minden a régi

Nem mindennapi vasárnapja volt a Kansas City Nemzetközi Repülőtérnek: órákra kiürítették a terminált egy vélt fenyegetés miatt...

MA 08:37

A grafén ihlette a mágnesek új korszakát

💡 A kétdimenziós anyagok különleges elektronikai és mágneses tulajdonságaik miatt komoly figyelmet kapnak, hiszen ezek a jövő technológiáit is forradalmasíthatják...

MA 08:29

Az Einstein-féle téridő mégsem úgy hajlik, ahogy hittük?

🤔 A modern fizika két legfontosabb elméletének, a kvantumelméletnek és az általános relativitáselméletnek az összeegyeztetése régóta várat magára...

MA 08:19

A Bitcoin tovább szakad: közeleg az amerikai tőzsdepánik?

A Bitcoin ára egyelőre stabilan 67 000 dollár (kb. 24,3 millió Ft) körül mozog, miközben a világ tőzsdéin komoly eladási hullámok indultak, az olaj ára meghaladta a 100 dollárt (36 ezer Ft) hordónként, és az USA-dollár egy éve nem látott erősödést produkált...

MA 08:01

Az agyszkennelés felfedi, mit művel a ketamin a depresszióval

A depresszió világszerte az egyik vezető egészségügyi probléma, nem véletlen, hogy az érintettek mintegy 30 százaléka a hagyományos antidepresszánsokra sem reagál...

MA 07:55

Az ázsiai tőzsdéket csak részben hűti le az olajárzuhanás

📈 Dél-Koreában a Kospi index hétfő délelőtt négy napon belül másodszor aktiválta a kereskedést felfüggesztő automatizmust, amikor a piac több mint 8 százalékot zuhant, miután az olajár hordónként közel 120 dollárig (kb...

MA 07:37

A gyermekkori elhízás mögött gyakran a szülők stressze áll

👶 Miközben a gyermekkori elhízás továbbra is riasztó ütemben terjed: 2024-ben az USA-ban minden ötödik gyerek és kamasz túlsúlyos lett...

MA 07:28

Az EU odacsap: a bankoknak azonnal kártalanítaniuk kell az adathalászat áldozatait

Az Európai Unió Bíróságának főtanácsnoka, Athanasios Rantos szerint a pénzintézeteknek haladéktalanul vissza kell téríteniük azokat a számlatulajdonosokat, akik jogosulatlan tranzakciók áldozatai lettek – akkor is, ha ebben részben saját hibájuk is közrejátszott...

MA 07:19

Az univerzum dübörög: megduplázódott a fekete lyuk–neutroncsillag ütközések száma

A Laser Interferometer Gravitational-Wave Observatory (LIGO) példátlan módon először a téridő hullámain keresztül érzékelte az ütköző fekete lyukakat...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/9

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Castle Zombiestein – 3D FPS (iPhone/iPad)A Zombiestein egy fizikára épülő akciójáték, melynek főhőse Yuri “Tarzan” Agron, az orosz Spetsnaz elit katonája...

MA 07:10

A nagy óceántakarítás: tényleg ez menti meg a klímát?

Bekeményítettünk a klímaváltozással szemben, de úgy néz ki, még mindig szorít a sarok, amibe magunkat festettük...

MA 07:01

A következő nagy dobás: 3D-nyomtatott iPhone és Apple Watch?

Na most kapaszkodj, mert az Apple tényleg azon dolgozik, hogy alumíniumból 3D-nyomtatott iPhone-okkal és Apple Watch-okkal hódítsa meg a világot...

MA 06:55

Az Apple megnyitja az Ultra-korszakot: jönnek a csúcskütyük

Úgy tűnik, az olcsó MacBook rövid időre lekerült a színről, mert az Apple most visszatér a luxuskategóriához...

MA 06:46

Az óraátállítás kicsinál: így éld túl

🕑 Minden márciusban sokan tapasztalják meg, milyen, ha az óraátállítás miatt kevesebbet alszanak éjszaka...

MA 06:37

Az örök adattárolás kulcsa: hódít a DNS‑merevlemez

🔑 A Missouri Egyetem kutatói áttörést jelentettek be: egy olyan DNS-alapú tárolót fejlesztettek, amelyet újra és újra lehet törölni és felülírni, ráadásul az adatok akár több száz évig is megőrizhetők benne...