2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

szerda 17:23

A Bitcoin történelmi támasznál jár – közeleg az újabb rali?

💰 Érdemes megérteni, hogy a Bitcoin árfolyama szerdán rövid időre 66 000 dollár (kb...

szerda 17:12

A Bitcoin lendületmutató szerint jöhet a felpattanás, de óvatosak a szakértők

📈 Erre utal többek között az, hogy a kriptopénzek piaca szerdán stabilizálódni látszott a korábbi esés után, miután a legnagyobb tőzsdén jegyzett bitcoin-tulajdonos, a MicroStrategy (MSTR) tartalékai egy újabb kis részét értékesítette, és a tőzsdei bitcoinalapok (ETF-ek) is sorozatban rekordösszegű kiáramlásokat könyveltek el...

szerda 17:03

A megfizethető szupertele: SIGMA 150–600 mm Sport teszt vadfotós szemmel

Ez a jelenség jól illusztrálható azzal, hogy egyre többen keresnek hosszú gyújtótávolságú, megfizethető objektíveket, hogy komolyabb szintre emeljék a természet- vagy madárfotózást, kompromisszumok nélkül...

szerda 16:45

A szupersportkocsit idéző hangú, kisautónyi árú fejhallgató

🚗 A Meze Audio ismét megmutatta, hogy nem ismer kompromisszumot, ha audiofil fejhallgatókról van szó...

szerda 16:02

A napfényben fürdő Lisszabon újra életre kel

🌅 A portugál főváros színei, ahogy a napfény játszik velük, semmilyen virághoz sem hasonlíthatók...

szerda 15:57

A GTX 1080 Ti: még Jensen Huang is etalonnak tartja

👑 A Computex rendezvény egy váratlan pillanatát örökítették meg, amikor Jensen Huang, az Nvidia vezérigazgatója, rajongók között autogramot osztogatott – igazi sztárként ünnepelték...

szerda 15:45

A Hosszú Menetelés–12B titokban startolt – biztonsági figyelmeztetés nélkül

Erre utal többek között az is, hogy Kína hétfőn váratlanul, előzetes figyelmeztetés nélkül bocsátotta fel legújabb, újrafelhasználható hordozórakétáját, a Long March 12B-t...

szerda 15:24

A Final Fantasy 14 magányos kihívója megint legyőzi a lehetetlent, ezúttal önfelrobbantással

A Final Fantasy 14 világában a többjátékos együttműködés alapfeltétel, ám van, aki mindezt egyedül próbálja teljesíteni...

szerda 15:13

A Corsair új, állítólag megfizethető széke szakít a gagyi gamer stílussal

Lényeges szempont, hogy a Corsair legújabb széke nem akar magára venni neonfényes, rikító dizájnt, mint a hagyományos gamer székeké...

szerda 15:01

A rocksztár apuka a lánya lábmodell-karrierjét is támogatja

💃 Raine Michaels, Bret Michaels lánya, egy új valóságshow-ban szerepel, ahol nyíltan beszél az életéről – még arról is, hogy lábáról készült fotókkal keresne pénzt...

szerda 14:55

Az óriások beszállnak: Stripe, Visa, Mastercard egy új stabilcoin‑platform mögött

A háttérben egészen más zajlott: a Stripe, a Visa és a Mastercard hamarosan közösen indítanak egy stabilcoin‑platformot, amelyhez az amerikai Coinbase kriptotőzsde is csatlakozhat...

szerda 14:45

A Grayscale bevezeti a legolcsóbb amerikai Hyperliquid ETF-et, forr a HYPE-verseny

Az új Grayscale Hyperliquid Staking ETF (HYPG) megjelent a Nasdaqon, és rögtön a legalacsonyabb díjat kínálja az amerikai Hyperliquid ETF-ek között...

szerda 14:35

A retró királya: a Lumix L10 letaszítja az X100VI-t

A Panasonic Lumix L10 egy modern kompakt fényképezőgép, amely a nosztalgikus dizájnt ötvözi a legújabb technológiákkal...

szerda 14:24

A ChatGPT rejtett chatlimitje: ez történik, amikor eléred

Sokan úgy gondolják, hogy egy csevegés az MI-vel szinte végtelen lehet, de valójában bármelyik ChatGPT-beszélgetés egyszer eléri a végét...

szerda 14:01

A DeFi nem hódítja meg a nagybankokat, amíg nem fékezi a hackertámadásokat

🔒 A decentralizált pénzügyi megoldások (DeFi) valódi jelentőségét nem a spekulatív kereskedés, hanem a nemzetközi bankrendszer háttérfolyamatainak átalakítása adhatja meg...

szerda 13:56

A megmagyarázhatatlan vérzés: a fiú szeméből, füléből, orrából folyt a vér

😱 Egy 11 éves indiai fiú szülei kétségbeesetten fordultak orvoshoz, amikor fiuk különös tüneteket produkált: szeméből, füléből és orrából időnként vér szivárgott mindenféle látható ok nélkül...

szerda 13:45

A walesi barlang 17 ezer éves vörös csíkjai: a legősibb brit sziklarajz

🪖 Több mint száz évvel azután, hogy egy walesi barlang falán vörös vonalakat fedeztek fel, most úgy tűnik, sikerült bizonyítani, hogy ezek a legrégebbi ismert sziklarajzok a Brit-szigeteken...

szerda 13:33

A Trezor szerint biztonságban a kriptód a Ledger által feltárt hiba után

🔐 A Trezor hardveres kriptotárcák gyártója egy chiphibát tárt fel vadonatúj Safe 7 készülékében, miután a rivális Ledger kutatói sikeresen demonstráltak egy laboratóriumi támadást...

szerda 13:23

A stabilcoinok megrengethetik a hitelezést – aggódnak az amerikai bankok

💰 Érdemes megvizsgálni, hogy az amerikai bankok miért tartanak a stabilcoinok elterjedésétől, és miként próbálnak hatni a törvényhozókra a digitális eszközök szabályozására...

szerda 13:13

Az áttörő, skálázható MI-innováció kulcsa: a megfelelés

🔑 A nagyvállalatok világában a compliance sokak számára szükséges rossz: lassító, bonyolító, időrabló tényező, amit auditorok, jogászok, szabályozó hatóságok rákényszerítenek azokra, akik a cégükkel haladni igyekeznek...

szerda 13:01

A halálnak végnek kellett volna lennie: Faye a God of War főhőse

💀 Egy lényeges szempont, hogy a Sony Santa Monica egy teljesen új irányba viszi a God of War sorozatot: a Laufey alcímű részben most először Kratos feleségét, Faye-t irányíthatják a játékosok...

szerda 12:56

A meghökkentő véletlen feltárta hét távoli bolygó mágneses mezőit

Megdöbbentő megfigyelés nyomán új útra lép a lakható exobolygók kutatása: csillagászoknak először sikerült közvetlenül kimutatniuk több távoli bolygó mágneses mezejét...

szerda 12:23

A Wooting óriástekerője több mint hangerőszabályzó, megérkezik a 80 HE-hez

🔌 A tavalyi Computex kiállításon jelentette be a Wooting, hogy különleges gombot készít népszerű, analóg 80 HE gamer billentyűzetéhez...

szerda 12:01

A NASA megerősítette: 230 tonna TNT-nek megfelelő meteorrobbanás Északkelet-USA felett

Egy szombat délután váratlanul megszakadt az ég nyugalma az Egyesült Államok északkeleti részén: egy tűzgömb 230 tonna TNT erejével robbant fel, dörejét több államban és két kanadai tartományban is hallották...

szerda 11:56

A Sigma 60–600 tesztje: szörnyeteg vagy tökéletes társ?

📸 A Sigma 60–600 mm f/4.5–6.3 DG DN OS Sport objektív pontosan azt hozza, amit várnánk egy sportobjektívtől: nagy, masszív, és már ránézésre is azt sugallja, hogy túléli a zordabb körülményeket is...

szerda 11:45

A Wall Street retteg a blokklánctól, mert a profitját fenyegeti

Franklin Templeton vezérigazgatója, Jenny Johnson szerint a blokklánc és a kriptovaluta alapjaiban rengetik meg a pénzügyi rendszert, mert közvetlenül veszélyeztetik a hagyományos, busás díjakkal működő üzleti modelleket...

szerda 11:34

Szeptemberben robban a Silent Hill: Townfall – menekülnek a GTA 6 elől

Szeptemberben sosem látott játéközönre lehet számítani: négy-öt nagy név döntött úgy, hogy még időben, jóval a Grand Theft Auto VI megjelenése előtt piacra lépjenek...

szerda 11:23

Az 5300 éves élesztő feltámad: Ötzi testéből kovász készült

🥝 Valószínűsíthető, hogy a világ egyik leghíresebb múmiája, Ötzi, még több izgalmat tartogat, mint eddig sejtettük...

szerda 10:55

Az egészségügyi kiberrizikó 2026-ban: Mit árulnak el valójában a kárigények?

2024-ben az Egyesült Államok egészségügyi intézményei rekordmennyiségű, 275 millió beteg adatának kiszivárgását jelentették, bőven megduplázva az előző évet...