2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 20:12

Az Alphabet zabálja a pénzt: a Google naponta 220 milliárd forintot kaszál

💸 Az Alphabet, a Google anyavállalata története során először lépte át az évi 400 milliárd dolláros (kb...

MA 19:56

Az új holdfutam: Musk és Bezos az Artemisért csatázik

Az emberiség újra megcélozza a Holdat: az Artemis II küldetés történelmi pillanatokat hozott – a Hold túloldalának eddig soha nem látott képei, egy teljes napfogyatkozás a Hold „színpadán”, valamint minden korábbit meghaladó távolság az űrben...

MA 19:24

Az 5 legjobb Google Keep-alternatíva, ha igazán számít az adatvédelem

Manapság jegyzetelni gyorsan és bárhol lehet, de ha fontos az adataid védelme, közel sem mindegy, melyik alkalmazást választod...

MA 18:56

Az üzemanyagár-robbanás megugrasztotta az érdeklődést az elektromos autók iránt

Jellemző példa erre, hogy az iráni háború kitörése óta Európa-szerte ugrásszerűen nőtt az elektromos autók iránti kereslet...

MA 18:45

A radar, ami nem sugároz: így működik a passzív radar

📸 A nagy klasszikus tengeralattjárós filmekben a szonárkezelő csak fülel, mert ha jelet küld, azzal azonnal elárulja a tengeralattjáró helyét...

MA 18:23

A bogárlárvák álvirágillatú csapdája

🐞 Többek között a tavaszi időszakban ezrével rakja le tojásait az európai hólyaghúzó bogár...

MA 17:45

Az MI, amely már felborított egy automatát, most boltot nyit San Franciscóban

Érdemes megvizsgálni, hogyan alakította át a mesterséges intelligencia egy üzlet megnyitását San Franciscóban...

MA 17:24

Az új Google Térkép mesterséges intelligenciája véget vet a turistacsapdáknak?

Mumbai városában eltöltött napjaim alatt egy friss Google Maps MI-funkció segített minden helyzetben megtalálni a legjobb útvonalakat és helyeket, akár a város két vége között ingáztam, akár új éttermeket próbáltam ki éjszakába nyúlóan...

MA 16:58

Az internet az új orvos: életeket mentenek a TikTok-kommentek

A 31 éves Malina Lee, esküvői tortakészítő San Antonióból, 2020-ban csatlakozott a TikTokhoz, főként unaloműzésként és a vállalkozása népszerűsítése céljából...

MA 16:35

Az MI orvosi tanácsaiban vakon bízni veszélyes játék

Az MI-alapú chatbotok egyre népszerűbbek az egészségügyi kérdésekre kereső felhasználók körében...

MA 16:24

A 26 legjobb rejtett iOS-trükk: iPhone-funkciók, amikről nem tudtál

Az iOS 26 megjelenésekor mindenki a Liquid Glass és az Apple Intelligence újdonságairól beszélt, pedig a legizgalmasabb fejlesztések mélyen a beállítási menükben bújnak meg...

MA 16:13

Az edzőterem új királya: kipróbáltuk a H2O Audio Ript Ultrát

🏋 Érdekes felvetés, hogy mennyit számít a fejhallgató kialakítása egy igazi sportolónak...

MA 15:57

Az igazság a légtisztítókról: Megvéd-e az azbeszttől?

Néhány héttel az első otthonunkba költözés után váratlan dolog történt: kiderült, hogy az épület egyes részei azbesztet tartalmaznak...

MA 15:45

Az év nyertesei: lekötött betétek akár 4,05% hozammal

Sokan keresik a biztos, kiszámítható megtakarítási lehetőségeket, és a lekötött betétek (CD, azaz Certificate of Deposit) továbbra is stabil megoldást jelentenek...

MA 15:23

Az új Marvel Rivals: anime-akció, zombi Thor és Doombotok?

Most figyeljetek: a Marvel Rivals nemcsak egy fura, szuperhősös lövölde, amelyben már egy cápa is szerepel, hanem egyre több mindenné próbál válni...

MA 15:02

Az Ultra végre megéri: a Galaxy S26 nagy dobása

Érdemes látni, hogy az idei Galaxy S26 Ultra nem egyszerűen a méretével próbál hódítani, hanem valódi, kézzel fogható előnyökkel igyekszik igazolni a magasabb árcédulát...

MA 14:56

Az iPhone titkos járatkövetője, ami nélkül ne indulj útnak

Az utazás stresszét jelentősen csökkentheti, ha mindig pontosan tudod, merre jár a repülőd, mennyit késik, vagy melyik kapunál kell várnod a beszállásra...

MA 14:45

Az etetőkamerád árthat a madaraknak? Így védd meg őket!

🐡 Ilyen eset például, ha nagy örömmel figyeled a kert madarait az etetőkamerán keresztül, de valójában azzal, hogy eteted őket, akár súlyos veszélynek is kiteheted a szárnyasokat, főleg a meleg hónapokban...

MA 14:36

A gazdagodó amerikai középosztály miért érzi magát mégis szegénynek?

Az amerikai életforma 2026-ban egészen furcsa érzést ad azoknak, akik anyagilag sikeresek lettek...

MA 14:24

Az MI-lufi leplezi hanyatlásunkat és a vészes erőforráshiányt

💥 Jeremy Grantham, a befektetési világ egyik legismertebb látnoka, már évtizedek óta figyelmeztet a piacok kockázatos túlértékeltségére, de újabban egészen más, egzisztenciális gondokat lát a háttérben...

MA 13:56

Az animeipart felforgatja az MI-botrány

😱 Az animeipar most először kénytelen szembesülni egy komoly MI-botránnyal. A WIT Studio, amely olyan népszerű sorozatokat jegyez, mint a Támadás a Titánok ellen (Attack on Titan) és az Egy könyvmoly felemelkedése (Ascendance of a Bookworm), élesen kritizálták a rajongók az utóbbi sorozat nyitójelenetének elkészítésében használt generatív MI miatt...

MA 13:46

Az MI-háború: túl nagy falat a nyilvánosságnak?

Ez a jelenség jól illusztrálható azzal, hogy az Anthropic, egy feltörekvő MI-vállalat a Szilícium-völgyből, nemrég bejelentette: olyan MI-modellt fejlesztett, amely már túl veszélyes a nagyközönség számára, ezért nem hozzák nyilvánosságra...

MA 13:34

Az Apple frissítése kizárta a cseh billentyűzetes iPhone-okat

Egy amerikai egyetemi hallgató számára a különleges kódja miatt lehetetlenné vált feloldani az iPhone-ját, miután az Apple egy karaktert eltávolított a cseh billentyűzetről...

MA 13:12

A Google Pixel 10 meglepően középszerű teljesítményt nyújt

🙂 A Xiaomi 17 Ultra és a Google Pixel 10 Pro XL egymás mellett állva látványosan kirajzolja, mennyire lemaradt a Google legújabb csúcstelefonja...

MA 12:34

A legmenőbb kütyük nagy tesztje: ASUS, Apple, Sonos, LG

Fontos kérdés, melyik új eszköz éri meg igazán a pénzét. Most megmutatjuk, hogyan teljesít az ASUS ZenBook A16, az Apple AirPods Max 2, a Sonos Play hangszóró és az LG Sound Suite házimozi-rendszer a gyakorlatban – plusz pár extra eszköz is bekerült a körképbe...

MA 12:23

A rezsim ára: Észak-Korea kriptólopásai a túlélésért

💸 Észak-Korea nemrég újabb súlyos csapást mért a kriptoiparra: milliárdos nagyságrendű lopások rázták meg a piacot, amely amúgy is szenved a korábbi botrányok miatt...

MA 11:34

Az IBM 6 milliárdos DEI-botrányban: Mi változik most?

Közel 6,3 milliárd forintot fizet az IBM az amerikai igazságügyi minisztériumnak, hogy rendezze a személyi kiválasztáshoz kötődő, jogsértő DEI (esélyegyenlőségi és sokszínűségi) gyakorlatok miatt indult pert...

MA 11:23

Az eladók kifulladnak, a Bitcoin agresszíven vásárol

Most kapaszkodj, mert a Bitcoin lerázza magáról az eladási stresszt: miután február 5-én 60 000 dollár közelében elérte a mélypontját, folyamatos emelkedésbe kezdett, és most komótosan közelít a 70 000 dolláros (kb...

MA 10:29

A hiányzó Google Naptár-trükk, ami megoldja az időzóna-káoszt

Képzeld el, hogy találkozót kell szervezned portlandi, tokiói és sydney-i ismerőseiddel...