2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 21:56

Az MI-szuperszámítógép lehet a brit fúziós áttörés kulcsa

Minden eddiginél nagyobb teljesítményű, MI-alapú szuperszámítógép épül nyáron az oxfordshire-i Culham kutatóközpontban, amely a remények szerint lendületet adhat a brit fúziósenergia-fejlesztésnek...

MA 21:45

Az iráni háború felforgatja az olajpiacot – Meddig bírják a gazdaságok?

Fontos kérdés, mennyire tud ellenállni a világgazdaság az olajválságnak, amelyet az iráni háború indított el...

MA 21:34

Az amerikai partoknál már pörögnek az új szélerőművek

Az Egyesült Államok keleti partvidékén két új offshore szélfarm is elindult, amelyek jelentősen növelik a régió zöldenergia-ellátását...

MA 21:23

A Wing FTP kritikus hibája az állami szervereket fenyegeti

⚠ Az Egyesült Államok kormányzati ügynökségeit sürgősen figyelmeztették, hogy a Wing FTP Server szoftverükben lévő veszélyes sérülékenységet mielőbb javítsák, mivel hackerek már aktívan kihasználják...

MA 21:12

A techóriások összefognak: végre együtt csapnak le az online csalókra

A Google, a Microsoft, a LinkedIn, a Meta, az Amazon, az OpenAI, az Adobe és a Match Group most közös frontot alkotnak az online átverők ellen...

MA 21:02

Az áttörés: szívgyógyító injekció egereknél és sertéseknél

Egyetlen speciális injekció heteken át képes beindítani a szívizom öngyógyítását – legalábbis egerekben és disznókban...

MA 20:56

Az új AirPods Max 2: még jobb zajszűrés, okosabb extrák

🎧 A kaliforniai Apple bemutatta az AirPods Max 2-t, amely jól ismert, fület körülölelő formáját most még jobb aktív zajszűréssel, magasabb hangminőséggel és intelligens újításokkal ötvözi...

MA 20:45

Az új Google TV-frissítés véget vet a reklámmentes élménynek?

📺 A Google TV újabb frissítése kisebb fennforgást okozott azok körében, akik szeretik testreszabni az okostévéjük felületét...

MA 20:34

Az MI áttörése: Itt a bizonyítások automatizálásának kora?

A matematika világa épp most forradalmasodik: ahogy a mesterséges intelligencia egyre gyorsabban fejlődik, a matematikusok is egyre nehezebben látják előre, milyen szerepük marad a jövőben...

MA 20:25

A Yahoo feltámadása: visszatér a web régi kedvence

A Yahoo az elmúlt évtizedek egyik legnagyobb hullámvasútját járta be az internet világában: fénykorából, amikor még az egész világhálót segített feltérképezni, az elhúzódó válságig és a Verizon nevű mobilóriás keblébe olvadásáig sok mindenen keresztülment...

MA 20:12

Az unalmas stabilcoin-részvény, amely tarol a kriptopiacon

Habár a stabilcoinokat általában a kriptovilág szürke eminenciásainak tartják, most mégis a Circle részvénye tarol: egyetlen hónap alatt több mint 100%-kal emelkedett az árfolyama...

MA 19:45

Az OpenAI kacérkodik az erotikával, de a pornótól hátrál

😉 Mostantól lehet majd pajzánul beszélgetni a ChatGPT-vel, de ne számíts 18+-os képekre, hangokra vagy videókra...

MA 19:34

Az xAI újraindul: megbotlott Musk egója a siker küszöbén?

Elon Musk alig egy hónappal azután, hogy alapította saját MI-startupját, az xAI-t, máris teljes átszervezésbe kezdett...

MA 19:24

A százéves rejtély: hová tűnt Nell, az első folyékony hajtóanyagú rakéta?

🚀 1926. március 16-án egy jeges mezőn emelkedett a magasba Robert Goddard úttörő rakétája, amely elsőként használt folyékony hajtóanyagot...

MA 17:56

A szék, ami végre megoldja a félig hordott ruhák gondját

👖 Felmerül a kérdés, mit kezdjen az ember azokkal a ruhákkal, amelyeket már egyszer felvett, de még nem kell kimosni – a padlón való gyűjtésük helyett most felbukkant egy kreatív megoldás...

MA 17:46

A Legyőzhetetlen 4. évada végre berúgja az ajtót

🔥 A világ sorsa forog kockán, amikor elindul a Legyőzhetetlen negyedik évada – Mark Grayson pedig kénytelen végezni egy ártatlan emberrel...

MA 17:23

A jó szándék kevés: az akadálymentesség rejtett csapdái

👁 A digitális világban ma már mindenki hallott arról, mennyire fontos a weboldalak akadálymentessége, mégis a gyakorlatban gyakran hatalmas szakadék tátong a tudatosság és a megvalósítás között...

MA 17:12

A tiltott elmélet, amely átírná a kvantummechanikát

⚠ Már több mint száz éve, hogy a kvantummechanika forradalmasította a fizikát...

MA 17:03

A Wi‑Fi 7 száguld, de alig akad, aki kihasználja

Sokan nem tekintik sürgős feladatnak a router cseréjét, pedig lehet, hogy ezzel jól járnának – főleg azok, akik gyakran küzdenek szakadozó, instabil internettel...

MA 16:56

Az árnyékban burjánzó MI: súlyos következményei lehetnek, ha nem figyelsz

🕴 A vállalatoknál egyre több digitális eszköz és alkalmazás épül be a mindennapi működésbe, így ma már szinte minden dolgozó használ valamilyen MI-alapú megoldást...

MA 16:45

Az óceán elveszett hangja: előkerült a valaha rögzített első bálnadal

Egy különleges, 1949-ben rögzített bálnadal került elő, amely minden eddiginél mélyebb bepillantást enged ezeknek az óriási állatoknak a kommunikációjába...

MA 16:24

Az új Bitcoin-láz: már a 75 ezer dollárt ostromolja

A hét elején újabb lendületet kapott a kriptopiac: a bitcoin árfolyama újra megközelítette a 75 000 dolláros (kb...

MA 14:03

Az iPhone-od lesz a jogosítványod? Itt a nagy áttörés!

Például reggel elindulsz dolgozni, az iPhone-od a zsebedben, de otthon hagyhatod a vastag pénztárcádat – már a jogosítványodat sem kell vinned...

MA 13:56

A Google most letiltotta az egyik legnépszerűbb Chrome-bővítményt

🚫 Érdekes fejlemény, hogy a Save as Image Type bővítmény, amely sokaknak megkönnyítette a képek mentését különböző formátumokban, váratlanul eltűnt a Chrome-ból...

MA 13:45

Az amerikai tőzsdefelügyelet elállt a BitClout-alapító elleni pertől

A New York-i déli kerületi szövetségi bíróságon március 12-én végleg lezárták az amerikai tőzsdefelügyelet (SEC) polgári eljárását, amelyben Nader Al-Najit, a BitClout és a DeSo blokkláncplatformok létrehozóját vádolták meg...

MA 13:35

Az atomi frusztráció forradalmasíthatja a kvantumfizikát

⚡ A Kaliforniai Egyetem kutatói egy egészen különleges kvantumállapot létrejöttére bukkantak, amikor egy kristály atomi szerkezetében kétféle, egymással versengő frusztráció – mágneses és kötési – egyidejűleg jelenik meg...

MA 13:23

Az új csodadallam tényleg 24 perc alatt elűzi a szorongást?

🎵 Egy friss klinikai vizsgálat szerint már 24 percnyi, speciálisan megtervezett zenehallgatás is jelentősen enyhítheti a szorongás tüneteit...

MA 12:04

Az elavult rendszerektől a Cloudflare One-ig: Leáldozott az egylépéses átállások korának

A hálózati rendszermérnökök számára kevés dolog stresszesebb, mint amikor egy hétvége alatt kell átalakítani egy teljes infrastruktúrát, különösen, ha ez egy 30 ezres cégnél, több mint 1000 elavult alkalmazás új rendszerre való átkapcsolását jelenti...

MA 11:56

A káosznak vége: mobilon is rendezheted Spotify-listáidat

📷 Egy lényeges újdonság, hogy a Spotify mobilos alkalmazása hamarosan olyan funkcióval bővülhet, amelyre a felhasználók már 15 éve várnak: a lejátszási listák mappáinak kezelése közvetlenül telefonról is elérhető lesz...