2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

szerda 21:45

Az Etna felfedi titkát: egyedülálló vulkántípus született

Érdemes megvizsgálni, mi teszi az Etnát a földkerekség egyik legkülönlegesebb vulkánjává – amit az is jelez, hogy a friss kutatások gyökeresen új magyarázattal szolgálnak a szicíliai tűzhányó szokatlan viselkedésére...

szerda 21:35

Az MI legújabb áttörése fenekestül felforgatja a kriptovilág biztonságát

🚀 Erre utal többek között az, hogy az Anthropic által bemutatott Mythos MI-modell fenekestül felforgatja a kriptoszektor eddigi biztonsági stratégiáit...

szerda 21:01

Az új Visa-trükk: milliárdokat hajt át stabilcoinokon

💳 A Visa hatalmas lépést tett a digitális pénzügyi forradalomban: már kilenc különböző blokkláncot támogat stabilcoinos elszámolásra...

szerda 20:46

A bitcoin hidat ver az MI és a kriptó közé

A tőzsdék világában most ritkán látott különbségek alakultak ki: egyre többen keresik a jövőt az MI-részvényekben, miközben a bitcoin sosem látott mértékben alulértékelt...

szerda 20:23

Az új kínai szuperszámítógép letarolja a mezőnyt

Kína következő szuperszámítógépe minden eddiginél erősebb processzorteljesítményre épít: már a fejlesztés első ütemében 100 Huawei Kunpeng szervert kötnek össze, összesen 12 800 maggal...

szerda 20:02

Az ősi germán földeken kiderült, hogyan éltek Róma bukása után

🏝 Például több mint ezeréves temetők rejtélyei segítenek megfejteni, hogyan boldogultak az emberek a Római Birodalom bukása után Dél-Németország határvidékén...

szerda 19:56

Az új MacBook Neo bővíthető RAM-mal jön, de jut-e belőle?

💻 A MacBook Neo jelenlegi 8 GB memóriája régóta vitatott kompromisszum, de most felröppentek a hírek egy komolyabb frissítésről...

szerda 19:34

A gyümölcslegyek végzete: filléres nyári megoldás az asztali ventilátor

🌀 Felmerül a kérdés, hogyan védekezhetünk a bosszantó gyümölcslegyek ellen a nyári estéken, amikor a friss gyümölcs, a nyitott ablakok és ajtók valóságos meghívót jelentenek ezeknek az apró kártevőknek...

szerda 19:23

Az élet eredete: jeges elmélet kavar vihart

Érdemes megvizsgálni, miként játszhatott szerepet a fagyás és olvadás végtelen váltakozása a földi élet hajnalán...

szerda 19:13

Az MI kilenc másodperc alatt törölte a cég teljes adatbázisát

Fontos kérdés, hogy mennyire bízhatunk rá egy MI-ügynökre komoly vállalati feladatokat – főleg, ha az üzlet sorsa múlik rajta...

szerda 18:45

A Hyperliquid új húzása: kriptófogadások fillérekért?

💸 Kriptós körökben most mindenki a Hyperliquid friss húzásáról beszél. Lényegében közzétették az úgynevezett outcome tokenekre vonatkozó díjszabást – ezek azok az eszközök, amelyekkel különféle események kimenetelére lehet fogadni a platformon...

szerda 18:34

Az intézményi tőke rakétapályára állíthatja a Bitcoint

🚀 Érdekes felvetés, hogy a Bitcoin még a 28 millió forintos ár alatt is egyre komolyabb szerepet kap a befektetők portfóliójában...

szerda 18:23

Az új Motorola Razr modellek lepipálják a Samsungot

Május második felében tarol a Motorola, hiszen öt új eszközt jelentett be: három klasszikus, kagylóhéjas, hajlítható telefont, egy könyvszerűen hajlítható készüléket és egy vadonatúj fülhallgatót...

szerda 17:56

A 12 GB-os Nvidia RTX 5070 mobil titokban debütált

🔑 Észrevétlenül, minden felhajtás nélkül dobta piacra az Nvidia a GeForce RTX 5070 Laptop GPU 12 GB-os konfigurációját egy egyszerű illesztőprogram-módosítás formájában...

szerda 17:45

A bitcoinpiac lefagyott: közeleg a válság?

A bitcoin piaca most kifejezetten nyugodtnak tűnik, miközben a napi kereskedési volumen 8 milliárd dollár (kb...

szerda 17:34

A szűk elit tarol a Polymarketen: a nyereség fele náluk

💸 Fontos kérdés, hogy kik uralják valójában a politikai fogadási piacokat, és milyen esélyei vannak az átlagos kereskedőknek...

szerda 17:23

Az Arc Turbine: az új rém felkutatása és likvidálása az Arc Raidersben

🚧 Az Arc Raiders legfrissebb Riven Tide frissítésében felbukkanó Arc Turbine egészen más ligát képvisel az ellenségek között – az igazi izzasztó hajrákat pont akkorra időzíti, amikor már az idő szorít, és a menekülőútvonalad sincs mindig garantálva...

szerda 16:56

A láthatatlan hálózatok így veszik célba az otthoni routereket

🔒 A globális kiberbiztonsági hivatalok egyre nagyobb figyelmet fordítanak az otthoni routerekre, amelyek a legújabb célpontjai lettek a Kína által támogatott, úgynevezett rejtett hálózatoknak...

szerda 16:34

Az új szerződés a Yellowstone-univerzumban tartja Kayce Duttont

🤠 Kayce Dutton nélkül már elképzelhetetlen a Yellowstone (Yellowstone) világa — egy idő után azonban mégis felmerült a kérdés, meddig marad a karakter...

szerda 16:24

Az ökológiai áttörések kétélű kardja: megmenthető a természet?

Például ami először apróságnak tűnt, gyakran jelentős hatással lehet az egész természetre: egyetlen döntés, egy apró változás, és máris beindul egy láncreakció, amely alapjaiban alakítja át a tájat...

szerda 16:01

Az intézményi bitcoin végre beindul: megérkeztek az új hozamtrezorok

A Mezo legújabb fejlesztése alapjaiban változtatja meg, ahogy a nagy szereplők tekintenek a bitcoinra...

szerda 15:56

Az üzemanyagárak az egekben: megállíthatatlanul drágul a benzin

🚗 Az iráni háború a harmadik hónapjába lépett, miközben a béketárgyalások továbbra is holtpontra jutottak...

szerda 15:45

Az elveszett fejezet titka: előkerült a rejtett Resident Evil-tartalom

Különösen igaz ez akkor, ha egy sikeres játékról derül ki, hogy még több meglepetést rejtegethetett volna...

szerda 15:34

Az áttörést hozó kriptopénztárca meghódítja Latin-Amerikát

💰 Erre utal többek között az, hogy a latin-amerikai digitális pénztárca, a Belo 5 milliárd forint (14 millió amerikai dollár) tőkét szerzett legutóbbi befektetési körében, amelyet a stabilcoin-kibocsátó Tether vezetett...

szerda 15:23

Az új Bitcoin-rali küszöbén: újra rohamra indul az árfolyam

💰 A Bitcoin erősödést mutat, miközben a 75 600 dolláros (körülbelül 27,7 millió forintos) szintnél támaszt talált, és elérte a 77 700 dollárt (28,5 millió forint)...

szerda 15:12

Itt az áttörés: közel a hibamentes kvantumszámítógép kora

⚡ A kvantumszámítógépek fejlődésének egyik legnagyobb akadálya a rendszerben megjelenő zavaró hibák leküzdése...

szerda 15:02

Az elveszett séf az Arc Raidersben: így tárd fel Safe Harbor titkát

A Stella Montisból származó különleges kutatási adatok és technológia most átkerültek a Riven Tides térképre, ahol nem szokványos módon egy hotel éttermének konyhai személyzete által hátrahagyott nyomokat kell követni egy elásott Exodus-alkatrészig...

szerda 14:56

A GTA 6 hamarosan berobban: az év játéka érkezik

Kérdés, mikor kezdődik végre a várva várt Grand Theft Auto 6 hivatalos marketingkampánya...

szerda 14:45

Az okostévé, ami követ: Dreame R8000F a nappalidban

📺 Érdemes megvizsgálni, hogy a Dreame legújabb innovációja, az Innix Aura mini‑LED R8000F milyen újdonságokat hoz az okosotthonok világába...