2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 10:38

A szuperszonikus elektronkilövés átírhatja a napelemek szabályait

⚡ Fontos kérdés, hogyan lehetne a napenergiát hatékonyabban átalakítani villamos energiává. Nemrégiben a Cambridge-i Egyetem tudósai olyan elképesztően gyors elektronmozgást figyeltek meg, amely teljesen átírhatja a napenergiával kapcsolatos elgondolásokat: az elektronok mindössze 18 femtoszekundum – vagyis kevesebb mint 20 billiárdod másodperc – alatt száguldottak át a napelemekben használt anyagon, egyetlen molekularezgés alatt...

MA 10:30

Az okostávcső, amelytől minden csillaglesőnek leesik az álla

A SeeStar S50 forradalmasítja az asztrofotózást azzal, hogy kompakt méretével és elérhető árával bárki számára lehetővé teszi az univerzum csodáinak megörökítését...

MA 10:20

Az okosszemüvegek botránya: Végleg búcsút inthetünk a magánszférának?

👀 Egy lényeges szempont, hogy a Meta Ray-Ban okosszemüvegeit használók magánpillanatait külső cégek munkatársai is megfigyelhették...

MA 10:01

Az X most pénzért árulja a tweetek végét – komolyan?

Vadiúj frissítéssel rukkolt elő az X (a régi Twitter, amely már nem akar ránk hallgatni), és mostantól nemcsak az influenszered bugyijába, hanem a tweetjeibe is pénzt kell dobni, hogy lásd, mi a vége!..

MA 09:57

Az elképesztően ellenálló baktérium, amely a Marson is túlélhet

👽 A lassított felvételen két acéllemez ütközését láthatjuk, amelyek közé mikrobákat szorítottak – a pusztító ütközést követően ezeknek a parányi élőlényeknek mégis sikerült túlélniük azt, amit a kísérleti berendezés már nem bírt ki...

MA 09:46

Az első kereskedelmi Natrium-reaktor zöld utat kapott, de még nem indulhat

⚡ Többek között Bill Gates támogatásával a TerraPower évek óta azon dolgozik, hogy megépítse saját Natrium típusú, nátriummal hűtött nukleáris reaktorát az amerikai Wyoming államban, Kemmerer városában...

MA 09:37

Az első Sony 200 MP-es szenzoros mobil: megérkezett a Vivo X300 Ultra

📸 A Vivo X300 Ultra hamarosan új korszakot nyithat a mobilfotózásban, ugyanis ebbe a telefonba építik be először a Sony vadonatúj, 200 megapixeles LYTIA 901 szenzorát...

MA 09:30

A forradalmi OpenAI GPT-5.4 már a gépeden fut

A mesterséges intelligencia fejlődésének új mérföldkövét hozta el az OpenAI a GPT-5...

MA 09:20

A kozmikus lepel fellebben: végre látható a Tejútrendszer

🛰 Érdemes megvizsgálni, miért távolodik a legtöbb közeli galaxis a Tejútrendszertől, amikor annak gravitációjának elvileg magához kellene vonzania őket...

MA 09:10

Az AWS mesterséges intelligenciával forradalmasítja az egészségügyet

🩺 Az Amazon Web Services bejelentette az Amazon Connect Health nevű új platformot, amely mesterséges intelligenciával segíti az egészségügyi szervezeteket a mindennapi adminisztrációs terhek csökkentésében...

MA 09:02

Egy önmagát terjesztő kártevő letarolta a Wikipédiát

A Wikimédia Alapítvány a napokban egy gyorsan terjedő JavaScript-féreggel nézett szembe, amely felhasználói szkripteket módosított és vandalizmust okozott a Meta-Wiki oldalain...

MA 08:55

Az új kínai kémprogramcsomag a távközlési szolgáltatókat veszi célba

Latin-Amerika távközlési szolgáltatóit 2024 óta veszik célba azok a kínai államhoz köthető hackerek, akiket UAT-9244 fedőnéven azonosítottak...

MA 08:47

Az Apple új MacBook Neo végre megfizethető áron

Véget ért a várakozás, mostantól bárki megfizethető áron juthat MacBookhoz, aki eddig csak vágyakozott a drágább modellek után...

MA 08:39

Az MI áttörése: vérvizsgálattal a korai májbetegség nyomában

🔬 A Johns Hopkins Kimmel Cancer Center kutatói áttörést értek el a krónikus májbetegségek korai felismerésében...

MA 08:29

A Google új trükkje a Workspace-ben: MI segít, de vigyázz!

💡 A Google új parancssori eszközt (CLI) tett közzé, amellyel sokkal egyszerűbben lehet automatizálni és integrálni MI‑alapú segédeket, valamint a Gmail, a Docs és más Workspace‑alkalmazások kezelését...

MA 08:19

Az MI bakija: hamis OpenClaw-letöltés, ellopott felhasználói adatok

Az utóbbi időben az OpenClaw nevű, nyílt forráskódú személyi asszisztensként népszerűvé vált MI-ügynök telepítőit meghamisították, és veszélyes verzióikat terjesztették a GitHubon keresztül...

MA 08:02

Az epilepszia elleni harcban fordulat: új gyógyszer ad reményt

Egy ritka és súlyos gyermekkori epilepszia, a Dravet-szindróma kezelésében jelenthet mérföldkövet egy új, kísérleti gyógyszer, a zorevunersen...

MA 07:55

A durva WordPress-hiba: bárki adminná válhatott egy szempillantás alatt

Gondoltad volna, hogy egyetlen hibás bővítmény miatt padlóra kerülhet a WordPress-oldalad?..

MA 07:46

A Project Helix meglepetése: az Xbox tényleg PC-vé válik?

Az Xbox-univerzum most izgatottabban zsong, mint egy tini TikTok-sztár, ugyanis Asha Sharma, az Xbox új vezérigazgatója végre bejelentette, hogy jön a következő generációs konzol, amelynek titkos kódneve Project Helix...

MA 07:37

Az új Google Canvas végre mindenkinek elérhető az Egyesült Államokban

Lényeges, hogy a Google Canvas, a keresőóriás MI-alapú projekttervezője immár minden amerikai számára használhatóvá vált...

MA 07:28

Az amerikai kormánytól elloptak 17 milliárd forintnyi kriptót

Egy, az amerikai kormánynak dolgozó vállalkozó fia elképesztő mértékben, több mint 17 milliárd forint (46 millió dollár) értékű kriptovalutát lopott el az Amerikai Egyesült Államok Marsall Szolgálatától (U...

MA 07:18

A United új rémálma: fülhallgató nélkül kiraknak a gépről?

Képzeld el: leülsz a gépen, ellazulsz, elindítod a zenédet anélkül, hogy fülhallgatót használnál...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 3/6

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Four Last Things (iPhone/iPad)A Four Last Things egy point-and-click kalandjáték, amelyet reneszánsz festményekből állítottak össze...

MA 07:02

Az ázsiai tőzsdék vad hullámvasútja: rekordok és zuhanások Dél-Koreában

Az elmúlt napokban a dél-koreai értéktőzsde példátlan hullámzást mutatott: a Kospi index szerdán 12%-ot zuhant – ami történelmi egynapos esés –, majd csütörtökön közel 10%-os emelkedéssel visszakapaszkodott, ami 2008 óta a legnagyobb napi plusz...

MA 06:55

Az OpenAI új modellje átírja a tudásmunka szabályait

🧠 Az OpenAI bemutatta legfrissebb modelljét, a GPT-5.4-et, amely mostantól még hatékonyabban támogatja az összetett tudásmunkát...

MA 06:48

Az elektromos autózás forradalmát hozzák a nátriumion-akkuk?

Tipikus eset, amikor egy régóta stabil technológiát egy új versenyző fenyeget: a mára minden elektromos autóban és zsebben ott rejtőző lítium-ion akkumulátoroknak most igazán komoly kihívója akadt...

MA 06:29

Az új kínai növekedési cél: vége a gazdasági csodának

Kína a vártnál jóval óvatosabb gazdasági növekedési célt tűzött ki a következő évre, olyan alacsonyat, amilyet utoljára a kilencvenes évek elején látott a világ...

MA 06:19

A Capcom nagy dobásai idén: érkeznek az új játékok

🎮 A japán játékóriás bejelentései idén is tartogatnak meglepetéseket mindenkinek, aki várja a 2026-os felhozatalt...

MA 06:05

Történelmi események a mai napon (Március 6.)

Mi történt ezen a napon a történelemben? Fordulópontok egy napon: Mendelejev először mutatja be a periódusos rendszert, az amerikai Legfelsőbb Bíróság kimondja a hírhedt Dred Scott-döntést, és a második világháború végjátékában az amerikaiak bevonulnak Kölnbe...