2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

szerda 20:36

A pangó kriptopiacon most a hozam viszi a prímet

💰 Az elmúlt fél évben a kriptovilág szokatlanul csendes. Az igazi tűzijátékok elmaradnak, különösen az alternatív coinok piacán, ahol a medvés trend az úr...

szerda 20:24

A Microsoft szerint a dolgozók fele már rajong az MI-ért?

Érdemes megvizsgálni, hogy miként változik a munka világa a mesterséges intelligencia elterjedésével...

szerda 20:12

A Hut 8 részvényei 30%-ot ugranak az óriási texasi MI‑adatközpont-bérlet hírére

📈 A Hut 8 részvényei közel 30%-kal ugrottak meg, amikor a cég bejelentette, hogy 15 évre szóló, 3 570 milliárd forintos (9,8 milliárd USD) bérleti szerződést kötött egy nagyszabású MI-adatközpont létesítésére Texasban, a Beacon Point nevű bérelt területén...

szerda 20:01

Az ExpressVPN turbót kap: gyorsabb vezérlés, jobb akadálymentesség Macen, Windowson és Linuxon

🚀 Az ExpressVPN legfrissebb, 14.1.0-s verziója jelentősen kényelmesebbé és gördülékenyebbé teszi a mindennapi használatot mind Macen, mind Windowson, mind Linuxon...

szerda 19:57

A Google már akár 1,5 millió dollárt fizet Android- és Chrome-sebezhetőségekért

A Google új szintre emelte a hibavadászatot: akár 1,5 millió dollárt (több mint 540 millió forintot) is hajlandó kifizetni annak, aki igazán komoly biztonsági rést fedez fel az Androidban vagy a Chrome böngészőben...

szerda 19:46

A kvantumakku, ami femtoszekundum alatt feltölt, éveket bírhat

⚡ Világszerte forradalomra készülhetünk az energiatárolás terén: ausztrál kutatók sikeresen létrehozták az első működő kvantumakkumulátort, amely lézersugárral egy billiárdod másodperc alatt teljesen feltölthető...

szerda 19:37

Az LG C6 nagy ugrás: a középkategóriás OLED-ek 2026-os etalonja

🙌 Az LG C6 OLED TV alapos tesztelés után egyértelműen bizonyította, hogy jelentős fejlesztést kínál elődje, a C5-höz képest...

szerda 19:25

Az MI-ügynökök saját kriptocéget alapítottak

Manfred, egy MI-alapú ügynök, történelmet írt: saját maga alapította meg első vállalkozását, önállóan kérte az amerikai adóhivataltól a cégalapításhoz szükséges regisztrációs kódot, amellyel legálisan működhet, alkalmazottakat vehet fel és engedélyeket szerezhet...

szerda 19:14

A könnyű, olcsó vezeték nélküli pálcasporszívók bajnoka: Hoover HF3 DynamicClean tesztje

💪 A Hoover HF3 DynamicClean vezeték nélküli porszívóval nem kell kompromisszumot kötnöd, ha limitált a költségvetésed, viszont ragaszkodsz a hatékony takarításhoz...

szerda 19:02

A SpaceX pénzügyei miatt riadót fújnak a SEC-nél

🚨 Úgy tűnik, hogy a SpaceX történetének legnagyobb tőzsdei bevezetése előtt komoly pénzügyi ellenőrzés célkeresztjébe került...

szerda 18:57

Az MI élesítése kikényszeríti a vállalati infrastruktúra újragondolását

⚡ Érdemes megvizsgálni, miként változik meg a nagyvállalatok infrastruktúrája az MI üzemi méretű bevezetésekor...

szerda 18:45

A Hugging Face megnyitotta a nyílt forrású Reachy Mini appáruházat 200+ appal

Képzeld el, hogy nem csak a telefonodra, hanem az íróasztalodon lévő kis robotodra is letölthetsz alkalmazásokat...

szerda 18:35

Az EVE Online stúdiója Fenris néven önállósodik, DeepMind-partner lesz

🚀 Az ikonikus EVE Online fejlesztője jelentős változásokat jelentett be: a korábban CCP Games néven ismert stúdió mostantól Fenris Creations néven működik tovább, miután függetlenedett a Pearl Abysstől, és hosszú távú, izgalmas együttműködést kötött a Google DeepMind csapatával...

szerda 16:34

A Multicoin nagy tétet tesz a Zcashre, visszatér az adatvédelem

🔒 A digitális pénzpiacokon újra fókuszba került az adatvédelem: a Multicoin Capital látványos pozíciót épített a Zcash (ZEC) tokenben, arra számítva, hogy a privát értéktárolás egyre fontosabb lesz, ahogy a pénzügyek tömegesen a blokkláncra költöznek...

szerda 16:23

Az elvetemült mod, ami küldetésjelölőkkel szentségteleníti meg a Morrowindet

⚠ Morrowind nemcsak legendás hangulata, hanem nehézsége miatt is kultjáték: annak különös világának rideg szabályait mindenkinek egyedül kell feltérképeznie...

szerda 16:12

A DeFi stressztesztje csendben ért véget: nem omlott össze semmi

💰 A kriptopiac mostanában főként a bitcoin árfolyam-emelkedésével foglalkozik, ám a decentralizált pénzügyek terén is lezajlott egy jelentős válság, amely végül csendben, látványos veszteségek nélkül ért véget...

szerda 16:02

A Kaspersky szerint a DAEMON Toolsba hátsó ajtót rejtettek célzott támadásokhoz

🔒 A DAEMON Tools, amelyet százezrek használnak virtuális meghajtók létrehozására, áldozatul esett egy kifinomult támadásnak: hackerek megfertőzték az eredeti weboldalról letölthető telepítőt...

szerda 15:57

A mobilodból úti fotó- és videógépet csináló kiegészítők

A ma kapható okostelefonok kamerái már annyira profik, hogy simán kiváltják a hagyományos fényképezőgépet, akár egy nyaralás alatt is...

szerda 15:46

A klímaváltozás az élelmiszer-ellátást a szakadék szélére sodorja

Az utóbbi évek szélsőséges időjárása nemcsak a szegényebb országokat, hanem a fejlett térségeket is egyre mélyebb élelmiszerválságba sodorja...

szerda 15:34

A Windows 11 fájlkezelője végre villámgyors lesz – ideje volt

A Windows 11 felhasználói régóta panaszkodnak arra, hogy a Fájlkezelő indítása lassú, főleg az első alkalommal, amikor megnyitjuk...

szerda 15:24

Az amerikai bankok már a blokkláncra építenek?

A pénzügyi szektor egyre határozottabban fordul a blokklánc-technológia felé, a nagy szereplők már nemcsak ismerkednek az új eszközökkel, hanem aktívan fejlesztik is azokat...

szerda 15:15

Az Amazon átállása miatt milliók Fire TV-je veszítheti el az HBO Maxot

Az HBO Max hamarosan több millió régebbi Amazon Fire TV eszközről eltűnik, mivel a platform már csak a Fire OS 6-ot vagy újabb operációs rendszert támogatja...

szerda 14:58

A mexikói klub üzenete: 110 ezres belépő az amerikaiaknak

A mexikóvárosi Japan nevű éjszakai klub hatalmas port kavart az interneten: az amerikaiaknak csaknem 110 ezer forintos (300 dolláros) belépőt kell fizetniük, miközben más külföldieknek mindössze 7 400 forintot (20 dollár), a mexikóiaknak és latin-amerikaiaknak pedig csupán 5 100 forintot (14 dollár) számítanak fel...

szerda 14:46

A Bitcoin 82 ezer fölé száguld, a ZEC és a Dash ralizik

🚀 Az elmúlt napokban a digitális pénzpiac új lendületet kapott, miután a Bitcoin átlépte a 82 ezer dolláros (kb...

szerda 14:35

Az év meglepetése: a RuneScape szénje lekörözte az Ethereumot

Idén egészen váratlanul a RuneScape nevű játék virtuális szénje körözte le az Ethereum kriptovalutát hozam tekintetében...

szerda 14:23

Az AMD játékbevétele 20% fölött eshet a memóriahiány miatt

📈 Az AMD az idei év első negyedévében rekordösszegű, 3830 milliárd forintnyi árbevételt könyvelhetett el...

szerda 14:02

A rejtélyes eset: egy nő hetekkel az új gyógyszer után kék-zöld lett

Egy 68 éves amerikai nő néhány héttel egy új gyógyszer szedésének kezdete után furcsa, kékes-fekete foltokat észlelt a karjain és lábain...

szerda 13:57

Az új MI-módszer nekifeszül a tudomány egyik legnehezebb matematikai problémájának

🧠 A tudósok évtizedek óta próbálják megfejteni, hogyan lehet a látható jelenségek mögött rejtőző, láthatatlan okokat feltárni...

szerda 13:34

Az új kriptóláz: az OKX perpetuális OpenAI- és SpaceX-futuresekkel támad

💸 A kriptotőzsdék új, vad hulláma indul, ahogy az OKX bejelentette: örökös határidős ügyleteket vezet be olyan magáncégekhez kapcsolódóan, mint az OpenAI, a SpaceX és az Anthropic...