2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 13:56

A Denon DP-500BT, a Bluetooth-os lemezjátszó, ami odaver

🎵 A Denon most dobja piacra a DP-500BT nevű lemezjátszót, ami egyszerre hozza a klasszikus vinyl-élményt és a menő, nagy felbontású Bluetooth-streamelést...

MA 13:34

Az ADHD-s agy ébren is álomszerű transzba eshet

Különös agyi működést figyeltek meg a kutatók azoknál, akik figyelemhiányos hiperaktivitás-zavarral (ADHD) élnek: miközben látszólag éberek, agyuk mégis időnként álomszerű, alváshoz hasonló állapotba kerül...

MA 13:24

Az elveszett Doggerland erdei újraélednek az Északi-tenger mélyén

🌲 Az Északi-tenger mélyén rejtőzik Doggerland, egykor Nagy-Britanniát és Európát összekötő földsáv, amely 16 ezer évvel ezelőtt buja erdőkkel és változatos állatvilággal teli élőhelyet kínált – jóval korábban, mint azt eddig gondolták...

MA 11:56

Az Nvidia új csodafegyvere: végre biztonságos lesz az OpenClaw?

🛡 Az Nvidia komoly lépést tett az MI-biztonság terén: bemutatta a NemoClaw platformot, amely vállalati szintű MI-ügynökök futtatását teszi lehetővé saját, helyben működő hardveren...

MA 11:45

Egy elterjedt növényvédőszer drámaian megduplázhatja a Parkinson-kór kockázatát

🐛 Egy friss kutatás szerint a klórpirifosz nevű, világszerte elterjedten használt növényvédőszer hosszan tartó hatása összefüggésbe hozható a Parkinson-kór jelentős kockázatnövekedésével...

MA 11:34

Az új kriptóláz: minden zuhan, csak a Bitcoin hasít

📈 Fontos kérdés, hogy a kriptovaluták piacát mi mozgatja ezekben a kaotikus hetekben...

MA 11:22

A halálos meningitisz-járvány tarol az angliai egyetemeken

😷 Két diák már életét vesztette Angliában egy heveny bakteriális fertőzés miatt, további tizenegyen pedig súlyos állapotban vannak kórházban...

MA 11:13

Az MI sötét oldala: káosz, perek, milliárdos veszteségek fenyegetik a cégeket

⚠ A vállalatok mind a mai napig keresik a helyes módszereket, hogyan integrálhatják az MI-t a saját működésükbe, és ez nem is baj – hiszen idő kell ahhoz, hogy átlássák az MI által generált kód és tartalom valós problémáit...

MA 11:01

A Pokémon Go ártatlan játéka indította be a futárrobot-forradalmat

A Pokémon Go-játékosok fényképezési szokásai, amelyek először apróságnak tűntek, mára robotforradalmat indítottak el...

MA 10:57

A hatalmas föld alatti vezeték Québecből árammal látja el New Yorkot

Egy több mint 545 km hosszú, 6 milliárd dolláros (kb. 2 200 milliárd forint) föld alatti vezetékrendszer, a Champlain Hudson Power Express az elkövetkező hónapokban már képes lesz ellátni New York City-t a Montreal térségéből származó megújuló vízenergiával...

MA 10:37

A namíbiai Nagy Fehér Hely szellemtavait feltáró űrfotó lenyűgözi a világot

Namíbia északnyugati részén, a végtelennek tűnő Etosha Pan szélén meghökkentő, szivárványszínű tavak jelentek meg egy 2011-es katasztrofális árvíz után...

MA 10:23

Az OpenClaw tényleg a biztonsági rendszerek rémálma?

Például elképzelhető, hogy egyetlen utasítást rejt el egy támadó egy továbbított e-mailben...

MA 10:02

A világegyetem ősi fénye titokzatosabban csavarodik, mint gondoltuk

💫 A világegyetem legrégebbi fényében felfedezett finom csavarodás új lendületet adhat azoknak a kutatásoknak, amelyek az univerzum legnagyobb kérdéseire keresik a választ...

MA 09:57

Az Nvidia chipje az egybillió dolláros álomhatár kapujában

💰 Jensen Huang egy pillanatig sem fogta vissza magát a színpadon, amikor a vadonatúj Blackwell- és Vera Rubin-csipekről áradozott – és na most kapaszkodj, mert olyan számokat dobott be, hogy az ember csak pislog...

MA 09:43

Az Nvidia gyeplőre fogná az MI-ügynököket

🐒 Tipikus eset, amikor a technológiai játékosság komoly megoldásokat rejt: az Nvidia legújabb fejlesztése, a NemoClaw már nemcsak a jövőkutatók kedvenc témája, hanem valós segítséget jelenthet a vállalati MI-ügynökök biztonságának kezelésében...

MA 09:36

A Waymo betör és tarol: önvezetők felforgatják a fuvarpiacot

🚗 Hadd ordítsam bele a levegőbe, hogy itt az új főnök: a Waymo berobbant az utazásmegosztó buliba, és mindenkit lesöpör — Uber, Lyft, Tesla, szoronghattok!..

MA 09:29

Az Nvidia kétfrontos offenzívája: biztonságosabb MI, kevesebb para?

Az Nvidia legújabb GTC keynote-ján bedobta a köztudatba a NemoClaw-t, egy vadonatúj biztonsági réteget, ami extra védelmet ad az OpenClaw MI-ügynökeihez...

MA 09:22

Az MI-kriptók szárnyalnak: jön az ügynökalapú hullám

Az MI-alapú kriptovaluták értéke kiugró növekedést mutatott, miután az Nvidia vezérigazgatója, Jensen Huang vázolta a vállalat következő lépéseit az MI-infrastruktúra terén a GTC fejlesztői konferenciáján...

MA 08:57

A természet megőrült: hóvihar, árvíz és hőhullám egyszerre

Március szeszélyes arculatát idén is bizonyítja: miközben a Hawaii-szigeteket özönvízszerű esőzések sújtják, az Egyesült Államok középnyugati területein a hó vastagon borít mindent, máshol soha nem látott meleg tombol, az ország keleti részein pedig viharoktól és tornádóktól rettegnek...

MA 08:45

Az Nvidia Vera Rubin platformja hét chippel új MI-korszakot nyit

Egy lényeges szempont, hogy az Nvidia ismét felforgatta a MI-iparágat: bemutatták a Vera Rubin nevű hétchipes platformot, amely minden eddiginél nagyobb teljesítménnyel és energiahatékonysággal kecsegtet, és amely mögött olyan óriások sorakoztak fel, mint az OpenAI, az Anthropic, a Meta vagy a Mistral AI...

MA 08:38

Az Nvidia asztali szuperszámítógépe: trilliós paraméterű MI mindenkinek, felhő nélkül

💻 Nvidia új DGX Station gépe egy teljesen új korszakot nyit az asztali számítástechnikában...

MA 07:57

Az Nvidia felturbózza a játékokat: itt a DLSS 5, az AI‑csodaszűrő

Elképesztő, mit tud a DLSS 5: a legújabb Nvidia AI-alapú felskálázási technológia nem egyszerűen élesebb képet ad, hanem teljesen új szintre emeli a látványt — ráadásul úgy, hogy közben minden részlet valósághűbbnek hat...

MA 07:50

Az EU-t elárasztja a robotaxi-láz: Bolt és NVIDIA összefog

🚗 Nem hiszem el, de a Bolt összefogott az NVIDIA-val, hogy Európában is berobbanhasson a robotaxi-biznisz...

MA 07:43

Az xAI-botrány: tizenévesek perelik a Grokot szexuális visszaélésért

🔴 Három tennessee-i tinédzser pert indított Kaliforniában az xAI ellen, mert szerintük a Grok nevű MI a fotóikat felhasználva gyermekbántalmazásnak minősülő képeket készített...

MA 07:36

Az új Sony-csoda: extrém képminőség PS5 Pro-n

Képzeld el, hogy a PS5 Pro mostantól még durvább képminőséget hoz ki a kedvenc játékaidból – és nem kell hozzá 4 millió forintos tévé sem!..

MA 07:23

A Samsung új Privacy Displayje tényleg csökkenti a kijelző fényerejét?

💡 A Samsung Galaxy S26 Ultra egyik legizgalmasabb újdonsága a Privacy Display nevű funkció, amely bizonyos nézési szögekből korlátozza a kijelző láthatóságát...

MA 07:15

Az Nvidia friss dobásai: MI-ügynök, lélegzetelállító grafika és Vera CPU

Az Nvidia ismét új szintre emeli a jövő technológiáját. Egyetlen eseményen mutatták be azt az MI-alapú fejlesztést, amely forradalmasíthatja a játékélményt és a professzionális adatközpontokat, ráadásul bemutatták a Vera CPU-t, ami minden eddiginél nagyobb teljesítményt ígér a mesterséges intelligencia korszakában...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Juggly Ball (iPhone/iPad)Ez a fizika alapú ügyességi játék próbára teszi a labdazsonglőr tudásodat...

MA 07:08

Az új Boox Go berobban: ultravékony, világítós E Ink tablet Android 15-tel

A legújabb Boox Go 10.3 Lumi tablet jelentősen bővíti az E Ink eszközök lehetőségeit...