2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 07:57

Az áttörés még várat magára: a Bitcoin újra beszakadt

A Bitcoin árfolyama csütörtök délelőtt hirtelen esett vissza, miután sorozatosan kudarcot vallott a 27,5–28 millió forintos (75 000–76 000 USD) árfolyamszint áttörésében...

MA 07:43

Az IBM-et 6 milliárdos DEI-botrány rázza meg

Erre utal többek között az, hogy az IBM 6 milliárd forint (17 millió dollár) összegben kötött megállapodást egy, a sokszínűség, esélyegyenlőség és befogadás (DEI) programjai miatt indult vizsgálat ügyében...

MA 07:36

Az elhízást tényleg legyőzheti egy természetes hormon?

🥗 Ami először apróságnak tűnt, most áttörésnek számít a tudósok szerint: egy természetes hormon, az FGF21 képes visszafordítani az elhízást egerekben...

MA 07:29

A Robloxot milliárdos bírság sújtja, szigorodik a gyerekvédelem

Az egyik legnépszerűbb online játékplatform, a Roblox összesen több mint 4,4 milliárd forintot (12 millió USD) fizet, és új biztonsági intézkedéseket vezet be, miután Nevadában per elé került a gyermekvédelem hiányosságai miatt...

MA 07:15

Az MI szolgálatában álló hekkerek kifosztották Mexikót

Felmerül a kérdés, meddig vagyunk biztonságban a digitális világban: Mexikó történetének egyik legsúlyosabb kiberbiztonsági támadását egy maroknyi hacker hajtotta végre mesterséges intelligencia segítségével...

MA 07:08

Az Opera turbózza a böngészést: AI-chatbotok egy kattintásra

Élvezetes újítás érkezett az Opera böngészőhöz, aminek garantáltan örülni fognak azok, akik imádják a mesterséges intelligenciával felturbózott netezést...

MA 07:01

Az iPhone–Visa rémálom: 4 millió forint tűnt el pillanatok alatt

💸 Egy trükkös módszerrel teljesen zárolt iPhone-ról sikerült 4 millió forintot ellopni, ráadásul anélkül, hogy a tulajdonos bármi gyanúsat észrevett volna...

MA 06:57

Az ivóvíz új réme: veszélyben a víztisztítók

Egy most felfedezett kártevő, a ZionSiphon kifejezetten az ipari vezérlőrendszerek ellen készült, és víztisztító- és sótalanító üzemek működését fenyegeti...

MA 06:51

Az első holdbázis közelebb van, mint gondolnád

🌚 Amikor az Artemis II legénysége megközelítette a Holdat, könnyen rácsodálkoztak arra, milyen hihetetlen érzés egy karnyújtásnyira lenni tőle...

MA 06:43

Az új Thunderbolt MI‑kliens felforgatja a helyi infrastruktúrát

⚡ A Mozilla legújabb fejlesztéseként bemutatta a Thunderbolt MI-klienst, amely lehetővé teszi, hogy magánszemélyek és vállalkozások saját, helyben futó MI-infrastruktúrát építsenek ki, teljesen függetlenül felhőalapú külső szolgáltatóktól...

MA 06:36

Az OpenAI berobban: jön a biológiára hangolt MI

Az OpenAI bemutatta legújabb nyelvi modelljét, a GPT-Rosalindot, amelyet kifejezetten biológiai kutatásra fejlesztettek...

MA 06:29

Az Intel végre új életet lehel az alap Core processzorokba

💻 Az Intel hosszú idő után frissíti a nem-Ultra Core processzorokat, amelyekre eddig a korosodó Raptor Lake architektúrára épülő meglévő Core-szériák voltak jellemzők...

MA 06:22

Elkészült az univerzum eddigi legnagyobb, legélesebb 3D-s térképe

💫 Áttörő eredményt értek el a csillagászok: elkészült a valaha készült legnagyobb felbontású 3D-s térkép az univerzumról...

MA 06:15

A mesterséges intelligencia lehet az amerikai kriptófelügyelet megmentője?

Az amerikai Commodity Futures Trading Commission (CFTC) élén Mike Selig egyre növekvő felügyeleti feladatokkal néz szembe, miközben az ügynökség létszáma az utóbbi években jelentősen csökkent...

MA 06:09

A tokenizáció forradalma: kézzelfogható eszközök, valódi lehetőségek?

💰 Az elmúlt másfél évben a tokenizáció robbanásszerű fejlődésen ment keresztül: eddig csak koncepció volt, de ma már a portfólióépítés legitim eleme lett...

MA 06:05

Történelmi események a mai napon (Április 17.)

Kiemelkedő nap a történelemben: szerződés, lázadás, köztársaság és űrdrámából csoda. A legemlékezetesebb pillanatok között ott van a Republic of Ireland kikiáltása, a The Canterbury Tales (Canterbury mesék) első udvari előadása és az Apollo 13 biztonságos hazatérése...

MA 06:01

Az okos robotmadarak új életet lehelnek a Grand Teton madárvilágába

A Grand Teton Nemzeti Parkban elképesztő módon léptek fel a fogyatkozó fürjtyúk-populáció megmentéséért: nemcsak hagyományos madárcsali figurákat használnak, hanem rendkívül ötletes, robotizált példányokat is...

csütörtök 21:46

Az MI-ügynökök új rémálma: foltozás után is szivárognak a bizalmas adatok

🚩 A legfrissebb kutatások rávilágítanak arra, mennyire sérülékenyek maradtak a vállalati MI-ügynökök, hiába foltozták be a friss biztonsági réseket...

csütörtök 21:13

Az igazi kvantumgyerek: kilencéves csodagyerek podcastel a jövőről

Érdekes, hogy a kilencéves Kai Moskvitch hobbiból podcastet indított, amelyben azt kutatja, miként változtatja meg a mindennapjainkat a kvantumtechnológia...

csütörtök 21:02

Az Anna’s Archive 115 milliárdos kártérítést fizet a Spotifynak és kiadóknak

💸 Az Anna’s Archive nevű nyílt könyvtárat és keresőmotort 115 milliárd forint (322 millió dollár) kártérítés megfizetésére kötelezték, miután állítólag letöltötte és elmentette a Spotify teljes zenegyűjteményét...

csütörtök 20:56

Az EU tiniappja tényleg megoldja az életkor-ellenőrzést adatpara nélkül?

Közeleg az az idő, amikor az uniós tinik nemcsak szívüket, hanem életkorukat is egy appban hordozzák: az új digitális igazolványalkalmazás lehetővé teszi, hogy bárki igazolja a korhatáros tartalmakhoz való hozzáférési jogosultságát, miközben személyes adatai titokban maradnak...

csütörtök 20:45

Az Alzheimer-gyógyszerek szinte semmit sem érnek?

🤔 Fontos kérdés, hogy az utóbbi években áttörésként ünnepelt Alzheimer-kór elleni gyógyszerek mennyire képesek valóban lassítani vagy megelőzni a betegség előrehaladását...

csütörtök 20:12

A Google amerikai adatátadása botrányt kavart Svájcban

🚧 Felmerül a kérdés, mennyire bízhatunk az online óriáscégek adatkezelésében, ha azonnal teljesítik az állami szervek kéréseit...

csütörtök 20:02

Az MI már a Google Fotóidból is képeket generál

🤖 Például ha régóta vágytál rá, hogy MI-modellek a saját preferenciáid, emlékeid vagy Google Fotóid alapján alkossanak képeket, ez most valóra válhat...

csütörtök 19:46

A bolondok aranyában lítiumkincs rejtőzik

A modern világ egyik kulcsfontosságú alapanyaga, a lítium meglepő helyen bukkant fel: ősi palák és ipari hulladékok tartalmazhatják ezt az értékes fémet...

csütörtök 19:34

A Google új fegyvere: a Gemini MI levadássza a csaló hirdetéseket

A Google tavaly 8,3 milliárd rosszindulatú hirdetést állított le, és közel 25 millió hirdetői fiókot függesztett fel – köztük 602 ezret csalással összefüggésben...

csütörtök 19:23

Az MI-láz fűti a kvantumrészvények új őrületét

💸 Érdekes fejlemény, hogy a kvantumszámítógépes vállalatok részvényei szárnyalni kezdtek, amint az Nvidia bemutatta új, nyílt forráskódú MI-modelljeit, amelyek a kvantumtechnológia gyorsítását célozzák...

csütörtök 19:12

A tenger mélyén lappangó metán felpörgetheti a klímaválságot

💧 Érdemes megérteni, hogy a világ óceánjai eddig rejtett szerepet játszhattak a klímaváltozás felgyorsításában...

csütörtök 18:57

Az elsőként felfedezett fekete lyuk táncoló sugárnyalábokat lövell az űrbe

A Földtől mindössze 7000 fényévre található Cygnus X-1 az elsőként felfedezett és megerősített fekete lyuk, amely most is komoly meglepetésekkel szolgál...