2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 08:00

Az IBM kvantumszámítógépe végre bizonyít: nem csak ígér, teljesít.

Nem hiszem el, de az IBM kvantumszámítógépe most először képes volt egy valódi mágneses anyagot szimulálni úgy, hogy az eredmény tökéletesen egyezett a laborkísérletek eredményeivel...

MA 07:50

Az új Chrome újjászületett: 5 Gemini-trükk, ami mindent átír

A Chrome hosszú ideje kínálja ugyanazt az élményt, miközben a rivális böngészők, mint az Arc vagy a Dia, sokkal frissebbnek hatottak...

MA 07:43

A mesterséges intelligencia hozhat áttörést a nukleáris erőmű-építésben

⚡ A globális energiaigény korábban elképzelhetetlen szintre nőtt, de a nukleáris projektek még mindig hónapokat, gyakran éveket késnek, mielőtt megkezdődhetne az építkezés...

MA 07:36

Az amerikai ingatlanpiac egyharmada lejtőn: esnek az árak

📉 Miközben sokan az amerikai ingatlanpiac újabb felfutására számítottak, az árak országos szinten alig változtak: mindössze 0,4%-os növekedést mutattak január 2025 és január 2026 között...

MA 06:57

Az MI-re bíznád az adóbevallásod? Várj még egy kicsit!

🚫 Ki ne érezné évente, hogy az adóbevallás maga a pokol? Lassú, unalmas, matekos szerencsétlenkedés, és ki érti, mit akar a NAV a bonyolult szabályaiból?..

MA 06:50

A Samsung Galaxy S26 leggyakoribb hibái – és így orvosolhatod

🔧 A Samsung Galaxy S26 idén a megszokottnál kissé korábban jelent meg, de rövid piaci jelenléte ellenére máris akad néhány bosszantó hibajelenség...

MA 06:43

Az első AI-szemüveg, ami végre jól áll a dioptriásoknak

Jön két új Meta Ray-Ban AI-szemüveg, amelyeket kifejezetten dioptriás lencsét használókra szabtak...

MA 06:37

Az olaj után most a műanyagok hajtják fel az árakat?

🚨 Az olaj drágulása újabb láncreakciót indít el a világgazdaságban, de ezúttal nem az üzemanyagárakon keresztül lép be a hétköznapokba a hatása...

MA 06:29

Az emberiség fordulópontja: nukleáris rakéták, űrbéli szaporodás, klímakatasztrófa

Elképesztő tudományos felfedezések tarkították az elmúlt hetet: megrengették az emberi test működéséről alkotott eddigi elképzeléseket...

MA 06:21

A nagy intézményi szereplők már a Kalshinál játszanak igazán nagyban

🎲 A Kalshi mostantól nem csupán egyszerű predikciós piac, hanem olyan hely, ahol az intézményi befektetők már marzsos (margin) kereskedést is folytathatnak...

MA 06:15

Az okos pénz a bitcoinra szavaz: kisebb a bukó esélye

Az elmúlt hetekben az olaj- és gázárak kiugró drágulása miatt fellángoltak az inflációs várakozások, ami a befektetők körében komoly átrendeződést hozott...

MA 06:08

Kipukkan az MI-lufi? Riasztó párhuzamok a dotkomlufi előestéjéről

Ebből következően érdemes megérteni, hogy a nagy befektetői lelkesedés szinte mindig túlzásokhoz vezet, legyen szó MI-ről vagy bármilyen korábbi technológiai forradalomról...

MA 06:05

Történelmi események a mai napon (Március 29.)

Fordulópontok és sorsfordító pillanatok: ettől a naptól pezseg a történelem. A szikraként fellobbanó indiai lázadás, a polgárháború lezárását előkészítő manőverek, Vietnam lezárása és a Terrakotta hadsereg felfedezése mind ide köthető...

szombat 21:57

Az óceán mentőövei: okos hálók védik a tengeri teknősöket

Világszerte hatalmas hálók, hosszú horogsorok és apró csalik határozzák meg a halászatot, de ezzel együtt nem kívánt áldozatok is csapdába esnek: teknősök, delfinek, cápák és tengeri madarak kerülnek hálókba évről évre...

szombat 21:45

Az Infinity Stealer hamis CAPTCHA-val fosztja ki a Mac gépeket

🔒 Egyre trükkösebb módszerekkel támadják a Mac-felhasználókat: az Infinity Stealer nevű új kártevő Python-alapú, és a Nuitka-fordítóval natív macOS-binárissá csomagolva jut el az áldozatokhoz...

szombat 21:34

Az iPhone Lockdown módján még egy kémprogram sem jutott át

Az Apple szerint a Lockdown mód, vagyis a szuperbiztonságos üzemmód bevezetése óta egyetlen kémprogramnak sem sikerült iPhone-on feltörnie...

szombat 21:23

Az új szénanyag forradalmat hozhat a szén-dioxid megkötésében

Különösen igaz ez akkor, ha a klímaváltozás elleni harcban minél olcsóbb, energiatakarékosabb megoldásokat keresünk...

szombat 21:13

A bulik királya: a Soundcore Nebula X1 Pro mindent visz

Bár a házimozi- vagy buli­projektor kifejezés sok mindent takarhat, a Soundcore Nebula X1 Pro minden eddiginél jobban ötvözi a moziélményt és a partihangulatot egyetlen, kerekeken guruló, összecsukható monstrumdobozban...

szombat 21:02

Az Airbnb-árak elszálltak: foci-vb lakáspanik söpör végig a városokon

🏘 Érdemes látni, hogy a 2026-os labdarúgó-világbajnokság körül Amerikában teljes lakásbérleti láz söpört végig, különösen a New Yorkot, New Jerseyt és Connecticutot magába foglaló régióban...

szombat 20:56

Az ultrapontos nukleáris órák átírhatják az időmérés szabályait

A fizika világában forrongás van kialakulóban: soha nem látott pontosságot ígérnek az új nukleáris órák, amelyekben nem a megszokott elektronátmeneteket, hanem atommagátmeneteket használnak az idő mérésére...

szombat 20:45

Az Apple Lockdown módja eddig minden kémprogramon kifogott

🔒 Többek között a Lockdown módnak (Lockdown Mode) köszönhetően az Apple-nek továbbra sincs tudomása arról, hogy bármelyik, e védelmet használó eszközt sikerrel feltörték volna kémprogrammal...

szombat 20:24

A RoboSense végre nyereséges: berobbanó LiDAR és az MI-robotika kora

Első alkalommal termelt negyedéves nyereséget a RoboSense, miután digitális LiDAR-szállításai ugrásszerűen megnőttek a robotikai piacon...

szombat 20:12

A nagy dobás: a Meta-vezérek akár 330 milliárdot kaszálhatnak

A Meta vezetősége előtt soha nem látott lehetőség nyílt: ha a cég 2031-re hatszorosára növeli értékét, minden érintett felsővezető akár 330 milliárd forintos (921 millió dolláros) részvénycsomagot is zsebre tehet...

szombat 20:02

Az antianyag végre megmozdult: a világ legdrágább anyaga átment a teszten

A CERN-nél végre megtörtént, amire eddig senki sem vállalkozott: sikerült 92 antiprotont elszállítani teherautóval egy szupertrükkös, mágneses dobozban...

szombat 19:57

Az a pénzügyi csapda, amely nők millióit sújtja – így kerülheted el

💰 A házasságban felborult bizalom, a váratlan szakítás és az anyagi bizonytalanság mindenkit megrázhat, de különösen veszélyezteti azokat a nőket, akik háttérbe szorítják saját pénzügyeiket...

szombat 19:45

Az első nukleáris űrhajó helikopterekkel hódítja meg a Marsot

Az amerikai űrkutatás új mérföldkőhöz érkezik: a NASA 2028 végéig útnak indítja a Space Reactor-1 Freedom űrhajót, amely nukleáris energiával hajtva halad majd a Mars felé...

szombat 19:34

Az irodai géppark titkai: itt az idő lecserélni a régi PC-ket?

💻 Lényeges szempont, hogy a munkahelyi számítógépek jelentős része elavult szoftvert futtat, ezzel folyamatosan veszélyezteti a vállalati biztonságot, és nehezíti a zavartalan munkavégzést...

szombat 19:23

A mesterséges intelligenciára bíznád az adóbevallásod? Gondold meg kétszer!

Adóbevallást kitölteni annyira szórakoztató, mint amikor a körmöd alá szálka megy...

szombat 18:01

Az Apple elkaszálja a Launchpad-alternatívák frissítéseit Macen

A Mac-felhasználók közül sokan fájlalják, hogy eltűnt a Launchpad, de eddig több alternatív alkalmazás segített pótolni a hiányt...