2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 12:03

A világegyetem legfényesebb jelzőfénye most ránk céloz

💡 A tudomány ismét elképesztő felfedezést tett: egy gigantikus űrlézert, azaz úgynevezett megamasert sikerült észlelni, amely 8 milliárd fényévnyi távolságból sugároz felénk...

MA 11:59

Az Epic diadala: olcsóbb és nyitottabb lett a Play Áruház

🎉 A Google jelentős változtatásokat vezet be a Play Áruházban, miután éveken át jogi csatát vívott az Epic Games-szel, a Fortnite fejlesztőjével...

MA 11:02

Az MI-orvos megszületett, de könnyű rászedni

🩺 Az Egyesült Államokban egyre többször vonnak be MI-rendszereket az egészségügybe, azonban egy friss vizsgálat aggasztó eredményekre jutott...

MA 10:55

Az áttörés küszöbén: génterápia ad reményt Dravet-betegeknek

Dravet-szindróma esetén már néhány éves korban sűrű, gyakran életveszélyes epilepsziás rohamok jelennek meg, miközben a gyerekek szellemi fejlődése is lelassul...

MA 10:49

A Google Gemini sötét oldala: halálos küldetések MI-vezérléssel

Egy floridai férfi azután vetett véget az életének, hogy a Google Gemini chatbot előbb arra biztatta, ártatlanokat öljön meg, majd öngyilkossági visszaszámlálást indított el a beszélgetésben...

MA 10:37

A szárnyaló kriptopiac fittyet hány a háborús félelmekre

Jól illusztrálja ezt, hogy a legfontosabb kriptodevizák – köztük az ether, a solana és az xrp – hirtelen nagyot ugrottak, miközben a globális részvénypiacok is felpattantak, a befektetők pedig mérsékelték a háborús kockázatoktól való félelmüket...

MA 10:29

Az Apple szakít a régi nevekkel – jön az új chipkorszak

Az Apple processzorai körül zajló egyik meglepő változás, hogy átnevezték a különböző típusú CPU-magokat...

MA 10:19

Az OLED-rajongók álma: LG 2026-os tévéi horroráron

Végre kiderültek az LG 2026-os OLED tévéinek árai, de még mielőtt örömkönnyeket hullatnál a boldogságtól, jön a feketeleves...

MA 10:03

Az absztrakt matematika lehet a világ megmentésének kulcsa?

🧠 A matematika évszázadok óta inspirál, elegáns struktúrákat és tiszta logikát kínál...

MA 09:57

A MI-képzés forradalma: fele annyi lépés, kétszeres eredmény

A generatív MI-modellek képzése eddig egyfajta külső mestertől függött: a Stable Diffusion vagy a FLUX modellek a szöveges vagy képi tartalom megértéséhez külső, „lefagyasztott” kódolókat – például CLIP-et vagy DINOv2-t – használtak...

MA 09:46

Az otthonod élőben: jön a Google MI-alapú kameranézete

A Google Gemini for Home eddig csak a már rögzített biztonsági kamerafelvételekhez fért hozzá...

MA 09:38

Az elhízás elleni szerek meglepően védhetnek a függőségtől

A legújabb kutatások szerint a GLP-1 típusú, cukorbetegség elleni és fogyást elősegítő gyógyszerek, például az Ozempic vagy a Wegovy, nemcsak testsúlycsökkentésre alkalmasak, hanem jelentős védelmet is nyújthatnak különféle szenvedélybetegségek kialakulása ellen...

MA 09:28

A Google NotebookLM mozifilmes szintre emeli az AI‑videókat

Most őszintén, észrevetted már, hogy az unalmas oktatóvideók teljesen átalakulnak? A Google Ultra‑előfizetők számára már ma elérhető egy vadiúj funkció: a filmszerű áttekintő videók (Cinematic Video Overviews)...

MA 09:20

A Bing teríti a fertőzött OpenClaw-telepítőket

Az OpenClaw nevű MI-ügynök azért is veszélyes, mert képes szinte bármilyen feladatot automatizálni – de most egy újabb kockázat jelent meg: hamis telepítők lepték el az internetet, amelyek kártékony programokat terjesztenek...

MA 09:10

A bosszantó Windows 10 helyreállítási hiba végre a múlté!

👍 Megint érkezett egy frissítés a Windowsra, de most tényleg jól jártunk: végre helyrehozták azt a borzalmas hibát, ami miatt hónapok óta nem volt elérhető a Windows 10 helyreállítási környezete (Recovery Environment, WinRE)...

MA 09:01

Az AWS leállt: pánik tört ki a Közel-Kelet techvilágában

Dróntámadások és rakétacsapások súlyos károkat okoztak az AWS adatközpontjaiban az Egyesült Arab Emírségekben és Bahreinben, megbénítva a felhőszolgáltatásokat...

MA 08:55

Az igazság órája: Zuckerberg mentegeti a Metát

🕑 Mark Zuckerberg előre rögzített tanúvallomásában felelt a Meta gyermekvédelmi perének esküdtszéke előtt Új-Mexikóban...

MA 08:47

A Pentagon és az MI-óriások új fronton csapnak össze

🗡 Felmerül a kérdés, hogy mennyire tud együttműködni a technológiai szektor a hadsereggel, ha a nemzetbiztonság és a mesterséges intelligencia fejlődése összeütközik...

MA 08:37

Az óriáspapagájok bébiboomja: bogyóünnep Új-Zélandon

🦜 A világ legnagyobb és legfurcsább papagájai, a kākāpōk történelmi szaporodási rohamot produkáltak Új-Zéland erdeiben, hála az elmúlt évtizedek legnagyobb rimu bogyótermésének...

MA 08:28

Az eddigieknél is durvább a tengerszint-emelkedés – észre sem vettük?

🌊 A tengerparti élet olyan, mint egy csillogó Insta-feed: mindenki odaköltözne, ha tehetné...

MA 08:21

Az MI forradalma a genomikában: megérkezett az Evo 2 óriásmodell

A bakteriális genetika után most a teljes élővilág genetikai térképéhez nyúlt hozzá az Evo 2, egy mindenki számára hozzáférhető, óriási MI-alapú genommodell...

MA 08:01

A Google megnyirbálja a 30%-os alkalmazásbolt-jutalékot

A világ legnagyobb Android-alkalmazásboltja, a Google Play, jelentős változáson megy át: a fejlesztők által fizetett jutalék 30 százalékról 20 százalékra csökken, bizonyos esetekben az új telepítések után akár 15 százalékra is...

MA 07:56

Az újabb Meta-botrány: MI-s okosszemüvegek veszélyeztetik a bizalmas videókat

Egy friss ügy borzolja a kedélyeket a Meta háza táján: kiderült, hogy sokszor külső cégek dolgozói nézhetnek bele azokba a személyes videókba és képekbe, amelyeket a Ray-Ban Meta okosszemüvegek készítenek...

MA 07:47

Az Artemis II újra rajtol: kijavítva a Hold felé

🚀 Mindez azt jelenti, hogy szinte minden akadály elhárult a Holdra induló Artemis II rakéta útjából...

MA 07:38

A mesterséges intelligencia világában mindennapossá vált a nukleáris fenyegetés

Megdöbbentő eredményre jutott a legújabb kutatás: a nagyméretű nyelvi modellek az esetek 95 százalékában alkalmaznak nukleáris fenyegetést szimulált hadijátékok során...

MA 07:28

Az MI-adatközpontok nem falják fel a villanyszámládat, de gond marad

⚡ Az Amazon, a Google, a Meta, a Microsoft, az OpenAI, az Oracle és az xAI most látványosan ígéretet tett arra, hogy a mesterséges intelligencia miatt épülő vadonatúj adatközpontjaik nem terhelik rá senkire a megduplázódott villanyszámlát...

MA 07:20

Az egészséges táplálkozás rejtett ára: több vegyszer a tányéron?

🥗 Az utóbbi években egyre többen fordulnak a friss zöldségek és gyümölcsök felé egészségük megőrzése érdekében, de egy átfogó kutatás most arra figyelmeztet, hogy ezek az élelmiszerek nemcsak vitaminokat, hanem növényvédő szereket is nagy mennyiségben tartalmazhatnak...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/5

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     OneLLM : Private & Online LLM (iPhone/iPad)A OneLLM egy fejlett mesterséges intelligencia alkalmazás, amely egyesíti a felhőalapú és a helyi AI képességeket...

MA 07:10

Zöld utat kapott az első Bill Gates-féle atomerőmű

🧪 Erre példa, hogy a TerraPower nevű vállalat zöld utat kapott, hogy megkezdhesse első, forradalmi atomerőművének építését Wyomingban...