2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 18:35

Az iráni háború ára mindenkit sújt: elszállnak az árak

Például amikor egy vállalkozás vezetője azon gondolkodik, hogyan tudna árat emelni, de fél, hogy ezzel elveszíti a vevőit, az már nem csupán üzleti kihívás, hanem az amerikai gazdaság szélesebb problémájának a tünete...

MA 16:34

Az újabb csapda: ráfázhatnak a Waze-lázadók Coloradóban

Colorado most aztán belehúzott: az új átlagsebesség-mérő kamerarendszerrel igazi rémálom lett a gyorshajtóknak, akár a Waze-t, akár a Radarbotot nyomkodod...

MA 16:13

Az Apple MI-lemaradása: van még visszaút?

Tipikus eset, amikor egy óriásvállalat, amely hosszú évekig uralta az iparágát, ma kényszerpályán mozog...

MA 16:02

Az allergiaválság: a gének műve, vagy a környezet bűne?

🤧 A különféle allergiákkal világszerte egyre több ember kénytelen együtt élni. Az Egyesült Államok lakosságának több mint 30%-át érinti valamilyen allergiás tünet, és ez a szám folyamatosan növekszik...

MA 15:45

Az Apple váratlan lépése: most tényleg muszáj frissítened

Egy idő után minden eszköz elavul, de most az Apple egy ritka lépésre szánta el magát: olyan iPhone-okra is kiadott frissítést, amelyek már nem támogatják a legújabb, iOS 26-os rendszert...

MA 15:34

Az AI betör a könyvpiacra: a HarperCollins a YouTube-on hódít

A HarperCollins menő, többéves együttműködésbe vágott bele a Toonstar nevű, AI-vezérelt animációs stúdióval, hogy saját YouTube-sorozatokat gyártsanak HarperCollins-könyvek alapján...

MA 15:23

Az MI végre kilép a laborból a valóságba?

🤖 A digitális térben már szinte magától értetődő, hogy minden személyes adatunk ismert: az arcfelismerés, az automatizált fizetés, az ajánlások mind gördülékennyé tették az online élményt...

MA 14:57

A Sivga Robin SV021 Pro: lenyűgöző megjelenés, vegyes hangzás

Amikor az ember először kézbe veszi a Sivga Robin SV021 Pro fejhallgatót, rögtön feltűnik a különleges, fából készült dizájn és a kifejezetten kényelmes viselet...

MA 14:34

Az áttörés: elkészült a csikló ideghálózatának első részletes térképe

Erre utal többek között az, hogy tudósok először alkottak teljes, nagy felbontású idegtérképet a csiklóról, amely az emberi test egyik legkevésbé kutatott szerve...

MA 14:22

Az űrhajósok reggelije: tortillák, kávé és jó sok csípős szósz

🚀 A NASA Artemis II küldetése során négy asztronauta 10 napos utazásra indul a Hold körül – és egy meglepően gazdag menü is elkíséri őket...

MA 14:01

A befektetési óriás Schwab belép a bitcoin- és etherkereskedelembe

A Charles Schwab, amely közel 12 billió dollár (kb. 4 260 000 milliárd forint) ügyfélvagyont kezel, 2026 első felében bevezeti a valós idejű bitcoin- és etherkereskedést...

MA 13:34

Az Apple TV és az Arcade áprilisi újdonságai: lesz itt minden!

🎬 Áprilisban ismét frissül az Apple TV és az Apple Arcade kínálata, számos izgalmas új sorozattal és játékkal, amelyek minden korosztály számára tartogatnak meglepetéseket...

MA 13:12

A lángtenger rázúdul Dél-Kaliforniára: menekülés az orkánban

Riverside környékén dühöng a Springs Fire tűzvész, amelyet a pénteki, rendkívül erős szél csak tovább fokozott...

MA 12:56

A Nothing Phone 4a Pro: stílus és teljesítmény, verhetetlen ár

📱 A Nothing Phone 4a Pro végre elérhető hivatalosan az Egyesült Államokban, és már első ránézésre is igazi különcnek számít...

MA 12:45

Az Anthropic kitiltja a külső ügynököket: búcsú a korlátlan Claude-tól

Az Anthropic komoly lépést tett: április 4-től radikálisan megváltoztatja a Claude MI-előfizetések felhasználásának feltételeit...

MA 12:33

Az emberiség új határa: az Artemis II 160 ezer kilométeren túl

Felrobbant az izgalom a NASA háza táján, amikor az Artemis II asztronautái végre elhagyták a Föld körüli pályát!..

MA 12:02

A pénz sem véd: az ingatlanpiac a szupergazdagokat is sújtja

💰 Az elmúlt években sorra kerülnek napvilágra azok a hírek, amelyek szerint a hírességek és milliárdosok jelentős veszteségekkel, elsőre hihetetlennek tűnő áron kénytelenek megválni luxusingatlanaiktól...

MA 11:45

Az OpenAI betör a médiapiacra: hollywoodi talkshow-kat vásárolna

Az OpenAI az utóbbi időben igyekezett leszűkíteni a fókuszát, a mellékvágányok helyett ismét a vállalati MI fejlesztésére összpontosítva...

MA 11:33

Úton a Hold felé: startolt az Artemis II legénysége

🚀 Négy űrhajós, Reid Wiseman, Victor Glover, Jeremy Hansen és Christina Koch vágott neki a NASA Artemis II küldetésének, amely új fejezetet nyit az emberes űrutazás történetében...

MA 11:13

Az elfeledett dán zseni és a Föld belsejének titkai

🚀 Kezdetben kevesen ismerték Inge Lehmann nevét Dánián kívül, pedig épp neki köszönhetjük a Föld belső szerkezetéről alkotott új képünket...

MA 11:02

Az MI nem veszi el a legtöbb állást – vagy túl jelentéktelen?

🤔 A mesterséges általános intelligencia (AGI) kapcsán legtöbben attól tartanak, hogy a robotok minden munkát elvesznek tőlünk, és csak a legkreatívabb, legemberibb munkakörök maradnak meg...

MA 10:50

Az MI-vel tényleg bárkiből lehet játékfejlesztő?

🧠 Egy új MI-s startup, a Tesana szerint hamarosan akár 100 millió ember saját videojátékot készíthet néhány mondat begépelésével...

MA 10:42

Az MI-roham élén: a Microsoft 3700 milliárdot önt Japánba

Tízmilliárd dolláros, vagyis mintegy 3700 milliárd forintos gigaberuházást jelentett be a Microsoft Japánban, amellyel jelentősen bővíti a helyi MI-infrastruktúrát és felhőszolgáltatásokat...

MA 10:36

Az egyetlen szuri mindent visz? Jön a szupervakcina-korszak.

A járványok szinte mindig meglepetésszerűen robbannak be, ilyenkor derül ki igazán, mennyire számítanak a védőoltások...

MA 10:30

A Nyugatot már térdre kényszeríti az aszály – a nyár még előttünk

Az USA nyugati részén szó szerint elfogyott a víz, miközben még csak a tavasz közepén járunk...

MA 10:21

Az olasz bíróság lecsapott: a Netflixnek vissza kell fizetnie árdrágításért.

Évek óta húzza le a Netflix az olasz nézőket, most viszont nagyot koppant: a római bíróság úgy döntött, hogy a korábbi, jogtalan áremeléseket vissza kell fizetnie az előfizetőknek...

MA 10:08

Az őskori vietnámi gyerekfogak őrzik a szifilisz titkos eredetét?

👀 Több ezer éves vietnámi leletek alapjaiban rengethetik meg, amit a szifilisz eredetéről gondoltunk...

MA 10:01

A kiégés arcai: más a vezetőé, más a pályakezdőé

Hajlamosak vagyunk azt hinni, hogy a kiégés csak annyi, mint a túlóra, a túl kevés határhúzás vagy a legendás „maradj erős”...

MA 09:50

Az adataid veszélyben? Új Zendesk-botrány a Hims and Hers-nél

📝 Érdemes megvizsgálni, mit jelent egyre több online egészségügyi vállalat számára az adatbiztonság: már néhány nap is elegendő volt ahhoz, hogy ismeretlen hackerek a Hims & Hers Health ügyfélszolgálati rendszeréből több millió támogatási jegyet ellopjanak...