2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 10:36

Az ősi kór nyomában: egy elfeledett város pusztulása

Másfél évezreddel ezelőtt rejtélyes betegséghullám sújtotta a mai Jordánia területén álló Jerash városát...

MA 10:30

A brit humorú zombiszimulátor, ahol a kenyér is penészes

🧅 Jellemző példa erre, hogy ha azt gondolnánk, egy istenjáték békés falusi idillje csak gombaszedésből és szendvicsgyártásból áll, a Masters of Albion ezt alaposan megcáfolja...

MA 10:23

Az új pénzcsap: a Morgan Stanley rárepül a stabilcoinokra

💰 A pénzügyi világ óriása, a Morgan Stanley egyre markánsabban veti meg a lábát a digitális eszközök piacán...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/24

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Milky Way: Cosmic Playground (iPhone/iPad)A Milky Way egy kivételes, fizika alapú űrszimulátor, amely az univerzum felfedezésének élményét kínálja...

MA 08:43

Az Assassin’s Creed Black Flag remake mindent felkavar – jó ötlet?

🏹 Az Assassin’s Creed-széria egyik legnépszerűbb darabja, a Black Flag idén nyáron tér vissza, ráadásul teljesen újjáépítve...

MA 08:36

Az iráni háború és a japán infláció megfékezi a Bitcoin raliját

💸 A héten megtorpant a Bitcoin erőteljes menetelése, ahogyan a globális kriptopiacokat a japán infláció emelkedése és az Irán északi részén dúló konfliktus okozta feszültségek sújtják...

MA 08:29

Az ETF-láz hajtja a Bitcoint – de ki adja el?

Az elmúlt nyolc napban újra élénk mozgolódás indult a kriptopiacon, amikor amerikai bitcoin tőzsdén kereskedett alapok (ETF-ek) rekordösszegű, mintegy 2,1 milliárd dolláros (kb...

MA 08:23

A Stan Sport bárhonnan: így vered át a korlátozásokat

Érdemes megvizsgálni, mit kínál az ausztrál Stan Sport, és hogyan élvezheted a legizgalmasabb sportközvetítéseket akár külföldről is...

MA 08:08

A mai NYT Strandsban minden az ordítozásról szól

😳 A mai NYT Strands kihívásában (782. játék) igazi zajos szógyűjtemény vár: minden szó az üvöltés, kiabálás, hangzavar témájához kapcsolódik...

MA 08:01

A túlélés ára: egy fejlesztő negyven napja a vadonban

🌳 Negyven nap magányos küzdelem a vadonban – ennél hitelesebb túlélőjáték talán nem is létezhet...

MA 07:57

Az Xbox rákapcsol: a PC-s játékosok a célkeresztben

Az Xbox hosszú ideje próbálja megerősíteni pozícióját mind a konzol-, mind a PC-s játékpiacon, de a legfrissebb fejlemények azt mutatják, hogy a Microsoft végre felismerte: komoly kihívásokkal néz szembe...

MA 07:50

Az Aave és társai mentőakciót indítanak a KelpDAO-hack után

Több vezető kriptós szereplő egyeztetnek, hogy helyreállítsák a decentralizált pénzügyi piacokat, miután idén minden eddiginél nagyobb kriptovaluta-lopás rázta meg az iparágat...

MA 07:43

Az amerikai elitkommandós lebukott titkos tőzsdei ügyleteivel

Az Egyesült Államok egyik különleges erőinél szolgáló altisztjét letartóztatták, mert titkos katonai műveletről származó belső információkat használt fel, hogy óriási összegeket nyerjen egy népszerű kriptotőzsdei fogadási platformon...

MA 07:36

Az első génterápia áttöri az örökletes süketség falát

🔉 Az amerikai élelmiszer- és gyógyszerhatóság most először engedélyezett génterápiát örökletes süketség kezelésére...

MA 07:29

Az OpenAI visszahódítja a trónt: megérkezett a GPT-5.5

👑 Érdemes megvizsgálni, hogy az OpenAI bemutatta a legújabb nagy nyelvi modelljét, amely GPT-5...

MA 07:23

Az új Fél férfi sorozatot ingyen nézheted – mutatjuk, hogyan

🍿 A Fél férfi (Half Man) nemcsak a következő év egyik legjobban várt sorozata, de máris óriási visszhangot váltott ki...

MA 07:17

A Holdra gitár kell: Chris Hadfield az Artemis II-ről és űrzenéről

🌙 Az űrrepülés több mint technika és tudomány: az emberi lélek is nagyobb utat tesz meg odafent, mint a rakéta bármelyik fokozata...

MA 07:09

A dínók korának tengereit az óriáspolipok uralták

Közelről megvizsgált, 27 fosszilis polipállkapocs forradalmasítja a tengeri ragadozók képét: a kréta kori csúcsragadozók között nemcsak gerinceseket, hanem hatalmas, uszonyos polipokat is találunk...

MA 07:01

Az HBO váratlan húzása: két hétig dupla Trükkök-epizódok

🎬 Alig futott be a Trükkök (Hacks) ötödik évadának harmadik része, máris nagy változásra készülhetnek a sorozat rajongói...

MA 06:57

Az Aave-válság, ami két nap alatt felforgatta a DeFi-t

A decentralizált pénzügyek (DeFi) világa soha nem volt még ennyire törékeny, mint az elmúlt hétvégén...

MA 06:50

A mai NYT Connections: csoportok, megoldások és a legjobb trükkök

📝 Érdemes megvizsgálni, hogy a Connections nevű szókirakó játék ma is bőséges kihívást tartogatott: a játék lényege, hogy tizenhat szóból logikai csoportokat hozz össze – mindegyik négyes más-más vezérfonalat követ...

MA 06:43

Az Anthropic bakija miatt butább lett a Claude mesterséges intelligenciája

Az elmúlt hetekben fejlesztők és MI‑nagyágyúk egyre többen panaszkodtak arra, hogy az Anthropic zászlóshajója, a Claude, elvesztette éleslátását...

MA 06:36

Az ördögi Quordle: Tényleg mindenkit megizzaszt?

Az utóbbi napokban ismerős stressz nehezedett a Quordle-rajongókra, amikor a mai, 1551...

MA 06:32

Az ördög visszatér Pradában – Bezosékra vadásznak

😈 Ilyen eset például, amikor egy szatirikus film nemcsak a divatvilág hangadóit, de a világ leggazdagabb párját is pellengérre állítja...

MA 06:22

A decentralizáció próbatétele: az Arbitrum befagyasztotta a 26 milliárd forintnyi ETH-t

⚠️ Az Arbitrum gyors beavatkozása miatt több mint 30 000 ETH, vagyis mintegy 26 milliárd forintnyi digitális eszköz került zárolásra, miután a KelpDAO elleni támadás során ellopták őket...

MA 06:05

Történelmi események a mai napon (Április 24.)

Ez a nap a történelemben a mítoszok és fordulópontok sűrűje: Trója eleste, az ír Húsvéti felkelés, egy pusztító londoni robbantás és XVI...

csütörtök 21:35

Az új DeFi-botrány tovább tépázza az intézményi bizalmat

A decentralizált pénzügyi rendszereket (DeFi) újabb hatalmas támadás rázta meg: a KelpDAO esetében néhány nap alatt mintegy 20 milliárd dollárnyi (kb...

csütörtök 21:23

Az újabb Vercel-adatlopás több fiókot is érint

Ez a jelenség jól illusztrálható azzal, hogy a Vercel fejlesztői platform adatvédelmi incidense jóval súlyosabbnak bizonyult a kezdeti becsléseknél...

csütörtök 21:12

Az első agyi párbeszéd: mesterséges és valódi idegsejtek összekapcsolódnak

Egészen új korszak nyílhat az agyi technológiákban és az MI-számítógépekben, miután mérnököknek sikerült mesterséges idegsejteket kifejleszteniük, amelyek képesek kommunikálni valódi agysejtekkel...