2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 08:22

A WiiM első soundbarja: a CEO elárulja a kulisszatitkokat

Az amerikai és európai nappalikban egyre gyakrabban tűnik fel a WiiM neve, egy fiatal, ám annál lendületesebb hangtechnológiai vállalat, amely néhány év alatt a streaming erősítőktől a saját hangszóró- és mélynyomórendszer fejlesztéséig jutott...

MA 08:01

Az olasz diákok 1800 éves római luxusvillát találtak a tornaterem alatt

🏡 Egy római középiskola diákjai teljesen véletlenül bukkantak egy 1800 éves villára a tornatermük alatt, mindössze néhány lépésre a Colosseumtól...

MA 07:55

Az Atlas Capital vezére: 70%-ot zuhanhat a bitcoin, mielőtt 500 ezret ér

📊 Az elmúlt időszakban a bitcoin árfolyama több mint negyedével esett vissza, miközben az amerikai részvénypiacok újra szárnyra kaptak...

MA 07:46

A kriptó, amire nem kérdeztél rá: felkészült a tanácsadód?

👀 A digitális pénz, a gyorsan változó szabályozás és a fejlett, MI-alapú infrastruktúra fejlődése folyamatos alkalmazkodásra kényszeríti a pénzügyi tanácsadókat...

MA 07:37

A Valve hajthatatlan: Steam Machine és Steam Frame már idén nyáron érkeznek

💻 Úgy tűnik, hogy a Valve kitart az idei nyári rajtra vonatkozó ígérete mellett, ellenére annak, hogy az alkatrészek piacán brutális áremelkedések és hiányok borzolják a kedélyeket...

MA 07:28

Meghalt 81 évesen James Handy, a Top Gun: Maverick sztárja

💔 Fontos kérdés, hogy a filmvilág miért veszít el időről időre olyan ismert arcokat, akiket szinte mindenki ismer – ez különösen akkor igaz, ha egy meghökkentő bűncselekmény áll a háttérben...

MA 07:19

A szaúdi pénz a UFC-t és WWE-t tolja, a golfnak vége?

Újabb fordulatot vett a nemzetközi sportvilág, amikor Szaúd-Arábia bejelentette, hogy 2026 után leállítja a LIV Golf finanszírozását...

MA 07:11

A Microsoft új kvantumchipje ezerszer megbízhatóbb – mégis vitatott

A Microsoft egy forradalmi új kvantumprocesszort mutatott be, amely képes ezerszer tovább megőrizni a kvantumbiteket, mint elődje, ezzel pedig közelebb kerülhetünk a valóban megbízható kvantumszámítógépekhez...

MA 06:28

A mai Connections: trükkös tippek és megoldások – meddig jutsz?

Reggelente új szókirakóval jelentkezik a Connections, ahol a cél, hogy látszólag egymástól független szavakat kell négyes csoportokba rendezni...

MA 06:05

Történelmi események a mai napon (Június 5.)

Ma több korszakos fordulópont is történt: elindult a Six-Day War (Hatnapos háború), George Marshall meghirdette a Marshall-tervet, és Robert F...

csütörtök 21:44

A jég alatti óriás: titokzatos szerkezetre bukkantak az Antarktiszon

🧊 A kelet-antarktiszi jégtakaró több mint három kilométer vastag jege alatt egy eddig ismeretlen, hatalmas geológiai képződményt azonosítottak kutatók...

csütörtök 21:23

Az 8300 idős ember vizsgálata meglepő sózási szokást tárt fel

🥗 A só évszázadok óta nélkülözhetetlen összetevője az ételeknek, ám a túlzott fogyasztása komoly egészségügyi problémákat okozhat...

csütörtök 21:12

Húsz év után csipre költözik az ultragyors lézer

Évtizedek óta a lézertechnológia legfontosabb eszközei közé tartoznak az ultrarövid impulzusú, úgynevezett femtoszekundumos lézerek...

csütörtök 21:01

Az első igazi karibi kalózokhoz köthető hajóroncsok a Bahamákon kerültek elő

🚢 A Bahamák partjainál valódi kalózhajók roncsai kerültek elő, méghozzá a hírhedt kalózkorszakból...

csütörtök 20:56

Az áttörés: Végre célba vehető a hasnyálmirigyrák, duplázódik a túlélés

Az eddig leküzdhetetlennek hitt hasnyálmirigyrák kezelésében történelmi áttörés született: egy új gyógyszer szinte megduplázta a betegek túlélési esélyeit...

csütörtök 20:34

A Kim Zolciak–Kroy Biermann-drámában új vád: szex a gyerekek mellett

😮 Felmerül a kérdés, meddig fajulhat egy válságban lévő sztárpár harca, amikor már a gyerekek is a középpontba kerülnek...

csütörtök 20:23

A Nacon óriási Switch 2 tokja: kell ennyi férőhely?

🛒 Kevesen gondolnák, mire képes egy igazán nagy méretű Switch 2 hordtáska...

csütörtök 20:12

Miért hoz az eszköztokenizáció ETF-szerű piaci forradalmat?

Ez a jelenség jól illusztrálható azzal, hogy miként változtatta meg az ETF a globális pénzügyi piacokat, és most ugyanez az átalakulás érkezik meg a tokenizációval...

csütörtök 20:01

Az ether 90 milliós álma: mit mond a matek?

Idén egy meredek jóslat borzolja a kriptovilág kedélyeit: Tom Lee, a Bitmine elnöke szerint az ether értéke akár 250 000 dollárig – vagyis közel 90 millió forintig – nőhet, így az Ethereum hálózat teljes értéke 30 ezer milliárd dollár, azaz bő 10 800 ezer milliárd forint lenne...

csütörtök 19:56

A Hyperliquid rekordcsúcsról fordul le, miután Hayes 150 dollár előtt kiszáll

Érdemes megvizsgálni, miként mozgatja a piacokat egy-egy ismert befektető véleményváltása: nemrég a Hyperliquid egyik legnagyobb támogatója, a BitMEX társalapítója, Arthur Hayes minden HYPE-tokenjét eladta, pedig napokkal korábban még 150 dolláros, azaz több mint 55 ezer forintos árfolyamot jósolt...

csütörtök 19:33

A borostyánban lapult 40 millió éves hangya – Goethe sem tudta

Jellemző példa erre, hogy a kutatók most különleges felfedezést tettek Johann Wolfgang von Goethe, a híres német író gyűjteményéhez tartozó balti borostyánok között...

csütörtök 19:23

A spanyol–iraki vb-felkészülési meccs: ingyenes streamek és tévécsatornák

A spanyol válogatott újabb mérkőzésre készül, amelyet az iraki válogatott ellen játszanak a 2026-os labdarúgó-világbajnokságot megelőző felkészülési sorozatban...

csütörtök 18:45

Az ember, ahol nincs helye: túlélés az űrben és az Everesten

🌌 Az ember kíváncsisága nem ismer határokat: miközben a múlt kultúráit feltárja, egyre többen kutatják, mire képes a modern ember az extrém környezetekben – legyen szó a Nemzetközi Űrállomásról (ISS) vagy a Mount Everestről...

csütörtök 18:34

A kannibál napvihar ma lecsap: sarki fények özöne jöhet

Nem mindennapi látványosságra számíthatunk, miközben egy ritka, kannibál koronakidobódás érkezik a Föld felé...

csütörtök 17:34

A Roku négy ingyenes sportcsatornát kapott, a vb-hez még kell VPN

⚽ Egy lényeges szempont, hogy a Roku folyamatosan bővíti a kínálatát, és most négy vadonatúj, teljesen ingyenes sportcsatornával lepte meg a sportrajongókat – köztük két FIFA-csatornával, időzítve a női labdarúgó-világbajnokság előtt...

csütörtök 17:23

Az Apple duplázza a MacBook Neo gyártását, miközben zuhannak a PC-eladások

📈 Könnyen lehet, hogy a számítógépgyártás jövője komoly fordulatot vesz a következő években...

csütörtök 16:56

A Doja Cat lehordta Elon Muskot az X-en: ‘Frog’, ‘Bitch’

🐸 Doja Cat alaposan kiosztotta Elon Muskot az X nevű platformon, miután követelte, hogy visszahozzák a hangüzenet-funkciót...

csütörtök 16:45

Az FBI riaszt: kínai álállásokkal lopják a katonai titkokat

Érdemes megérteni, hogy a legkifinomultabb módszerekkel vadásznak titkokra azok, akik a hadsereghez, a titkosszolgálatokhoz vagy a kormányhoz közel dolgoznak...

csütörtök 16:34

A Domino’s is beszállt az új Hadisten-balhéba

🍕 Villámgyorsan felháborodás övezte a bejelentést, miszerint a következő Hadisten (God of War) játékban nem Kratos, hanem a felesége, Faye lesz a főszereplő...