2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

hétfő 20:56

Az MI‑apokalipszis öt vészjósló jele: közelebb, mint gondolnád

Az utóbbi években rajongók és fejlesztők egy új MI-aranykort hirdettek, az ipari forradalom ígéretével és korábban elképzelhetetlen áttörésekkel...

hétfő 20:02

A Vatikánban mostantól AI fordítja élőben a misét 60 nyelven

⛪ Na, képzeld el, ott ülsz a Szent Péter-bazilika padjában, zsibbasztod a térded, és halvány fogalmad sincs, miről beszél a pap olaszul vagy latinul...

hétfő 19:56

A legendás Quake 3-at hajtó ördögi matek

🔥 A ’90-es évek végén, amikor a számítógépes hardver még messze nem volt ilyen gyors, a játékfejlesztőknek a lehető leghatékonyabb kódokat kellett írniuk, hogy a legmodernebb grafikát és élményt hozzák ki a gépeikből...

hétfő 19:39

Az Android szabadságának vége? Így változnak a letöltések

🚧 Az Android mindig is a szabadság szinonimája volt: a felhasználók szabadon telepíthettek alkalmazásokat külső forrásból, függetlenül a Play Áruháztól...

hétfő 19:19

Az Apple március 4-én tarol: új Mac, iPad, friss iPhone-színek?

New York, London, Sanghaj – az Apple idén végre kimozdul az unalmas Apple Parkból, és új eseményt dob össze március 4-én, magyar idő szerint délután 3 órakor...

hétfő 19:02

Az égitestek titkos órája: meddig él egy bolygó?

A bolygók születnek, alakulnak, majd elpusztulnak — de hogy mennyi ideig tart mindez, az a csillaguktól és saját belső folyamataiktól is függ...

APP
hétfő 18:59

APPok, Amik Ingyenesek MA, 2/16

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Tunepal (iPhone/iPad)Az alkalmazás a Sunday Times toplistáin is szerepelt: 2012-ben bekerült minden idők 500 legjobb appja közé, 2010-ben pedig az iPhone húsz legfontosabb kulturális alkalmazása között említették...

hétfő 18:56

Az agyi gyulladás lehet a kényszeresség rejtett mozgatórugója

Évtizedeken át a kényszeres viselkedést egyszerűen rossz beidegződésnek gondolták, mintha az agy csak rutinból ismételné ugyanazokat a cselekvéseket...

hétfő 18:48

Az új Samsung mobil végre leskelődésgátló kijelzőt kap

A Samsung most tényleg bedobott egy új, vad funkciót az S26-tal: bemutatkozott a privát kijelzőmód (privacy display)...

hétfő 18:37

Az erős pszichedelikum új reményt hozhat a depresszió kezelésében

Egyetlen adag dimetiltriptamin (DMT), amelyet sámánisztikus szertartásokban is használnak, jelentős és tartós javulást hozhat a súlyos depresszióval élők számára, ha pszichoterápiával együtt adják be...

hétfő 18:19

Az univerzum óriási, forgó kolosszusa váratlanul sokkolta a kutatókat

Lyla Jung, az Oxfordi Egyetem csillagásza egy különös, eddig ismeretlen szerkezetre figyelt fel monitorján: 400 millió fényévnyire a Földtől sikerült azonosítani egy óriási kozmikus fonalat, egy több száz galaxisból álló, forgó láncolatot...

hétfő 17:55

A gyorsan merülő iPhone-ok megmentője jöhet: érkezik az iOS 27

⚡ Sokan bosszankodnak az iOS 26 miatt, mert az iPhone akkumulátora alig bírja a napot...

hétfő 17:37

Az amerikai kormány pánikszerűen befoltozza a súlyos biztonsági rést

Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) ultimátumot adott a szövetségi hivataloknak: mindössze három napjuk van befoltozni a BeyondTrust-rendszereket érintő súlyos sérülékenységet, amelyet a támadók már aktívan kihasználnak...

hétfő 17:19

Az Ether túléli a 200 milliárdos eladási vihart

💰 A kriptopiacok továbbra is nyomás alatt vannak, miközben a hétvégi hatalmas eladási hullám után az ether árfolyama visszakapaszkodik a 735 ezer forintos (2000 dolláros) szint felé...

hétfő 17:01

Tényleg ellopta a mesterséges intelligencia egy rádiós hangját?

📢 A népszerű amerikai rádiós, David Greene szerint a Google NotebookLM nevű MI-eszköze engedély nélkül másolta le a hangját...

hétfő 16:55

Az OpenAI keményen fellépett az OpenClaw megalkotója ellen

Az OpenAI legújabb húzása, hogy leszerződtette Peter Steinbergert, az OpenClaw nevű MI-ügynök megalkotóját, akitől azt várják, hogy elindítsa a személyes MI-ügynökök új generációját...

hétfő 16:20

Az első indiai MI-óriás tőzsdei rajtja csúfosan besült

India első MI-cége, amely tőzsdére lépett, nem igazán hozta lázba a befektetőket: a Fractal Analytics részvényei gyengén nyitottak, majd még tovább estek, miközben a szoftverrészvények eladási hulláma miatti bizonytalanság uralkodott a piacon...

hétfő 16:01

A ByteDance ellen per MI-videók miatt: Disneyt, Cruise-t és Pittet is érinti

A ByteDance alig egy hete dobta piacra új MI-alapú videókészítőjét, a Seedance 2...

hétfő 15:37

Az ősi varázsló, akitől egy birodalom rettegett

Két évezreddel ezelőtt a Tumaco-Tolita nép kerámiamesterei elképesztő élethűséggel formálták meg közösségük idős vezetőit...

hétfő 15:19

Az MI felkavarja Hollywoodot: a stúdiók visszatámadnak

A TikTok tulajdonosa, a ByteDance komoly viharba keveredett Hollywoodban a Seedance 2...

hétfő 14:55

Az év első komoly Chrome-hibája: újabb vészfrissítés érkezett

A Google sürgősségi frissítést adott ki, hogy orvosolja az év első komoly Chrome zéró-napos sebezhetőségét, amit már aktívan kihasználnak a támadók...

hétfő 14:37

Az új lakáshitel-korszak küszöbén: merre tartanak a kamatok 2026-ban?

🏡 Az elmúlt években a gazdasági előrejelzések gyakran mellétrafáltak, hiszen a COVID–19 alatti lezárások, majd a példátlan pénzügyi ösztönzők alapjaiban borították fel a piacot, amire egy villámgyors kamatemelési hullám is ráerősített...

hétfő 14:19

A Netflix elkaszálta a Terminátor: Zerót az első évad után

😎 A Netflix újabb sci-fi animét vett le a műsorról: a Terminátor: Zero (Terminator Zero) mindössze egy évadot élt meg...

hétfő 13:55

Az Android Auto ikonok megújulnak: közeleg az Android 16-hatás?

🚗 A Google egyre közelebb hozza az Android Autót a telefonos élményhez: hamarosan új ikonokat vezethet be, amelyek az Android 16 stílusához igazodnak...

hétfő 13:37

Az edzés a legerősebb fegyver a depresszió és a szorongás ellen

💪 Egy lényeges szempont, hogy a rendszeres mozgás valóságos csodaszer lehet a depresszió és a szorongás kezelésében...

hétfő 13:20

Az MI-vagyon, amely átírhatja a jövőt

Stephen Schwarzman, a világ egyik legismertebb magántőke-befektetője, most új célt tűzött ki maga elé: egy, több mint 17 000 milliárd forintnyi vagyont kezelő jótékonysági alap létrehozását, amely a mesterséges intelligencia (MI) és az oktatás fejlesztésére összpontosít...

hétfő 12:55

A ClickFix új támadása: kártevő érkezik a DNS-en át

A hackerek egyre kreatívabb módszereket vetnek be: a legújabb ClickFix-támadás például a DNS-lekérdezéseket használja ki, hogy kártékony PowerShell-szkripteket juttasson el a gyanútlan áldozatok gépére...

hétfő 12:38

A legsikeresebb techvezérek három közös titka

👑 A Szilícium-völgyben sosem csökken a tempó: hetente jönnek az új MI-eszközök és fejlesztések, a dolgozók pedig lépést próbálnak tartani, nehogy lemaradjanak...

hétfő 12:19

Az űrutazás átformálja az agyadat

🚀 Az űrutazás nemcsak a testre, hanem az agyra is hatással van...