2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 21:45

Az igazság a hawaii madarak kihalásáról: dől a tévhit

🏝 Hawaii őshonos vízimadarainak eltűnéséről évtizedeken át szinte megkérdőjelezhetetlen mítosz tartotta magát: sokáig mindenki azt hitte, hogy az őslakosok vadászata vezetett ezeknek a fajoknak a kihalásához...

MA 21:34

Az új Samsung Micro RGB tévék milliárdnyi színt adnak, tükröződés nélkül

A Samsung következő generációs Micro RGB LCD-tévéi végre megérkeztek elérhetőbb méretben és árban...

MA 21:23

A temető alatt zümmög 5,6 millió méh

🐝 Minden eddiginél nagyobb föld alatti méhkolóniára bukkantak a kutatók New York államban, egy régi temető alatt...

MA 21:11

Az OpenAI újabb nagy fogása: a pénzügyeidre is ráteszi a kezét?

Na most kapaszkodj, mert az OpenAI újra lecsapott: alig egy hónapon belül másodjára vásárolt fel egy startupot...

MA 20:57

A GoPro Mission 1: 8K, cserélhető objektív, lehengerlő teljesítmény

A GoPro látványosan új szintre emeli az akciókamerák világát a Mission 1 szériával, amely három különböző modellt kínál: a Mission 1, a Mission 1 Pro és a Mission 1 Pro ILS készülékeket...

MA 20:46

A fertőtlenítők árnyoldala: elszaporodó szuperbaktériumok a kórházakban

💉 A kórházi fertőtlenítőszerek, mint például a klórhexidin, napokig képesek megmaradni különböző felületeken, még alapos tisztítás után is...

MA 20:34

Az aranybefektetők is beszállnak: itt az osztalékos bitcoin ETF

A Goldman Sachs újabb lépést tesz a kriptopiac felé: most egy olyan tőzsdén kereskedett alap (ETF) bevezetésére készül, amely bitcoinhoz kötött opciók eladásával igyekszik jövedelmet generálni a befektetőknek...

MA 20:23

A pokoli hőt túlélő chip megnyitja az utat a Vénuszhoz

A Dél-kaliforniai Egyetem kutatói olyan memrisztor-alapú memóriát fejlesztettek, amely akár 700 Celsius-fokos hőmérsékleten is hiba nélkül működik...

MA 20:03

A memóriaháború fáj: elszálltak a Surface laptopok árai

💸 Fontos kérdés, hogy meddig képesek még megfizethetők maradni a laptopok a mostani globális memóriahiány mellett...

MA 19:56

Az Amazon átírja a fedélzeti internetezés szabályait

Az elmúlt években a repülőgépen elérhető Wi‑Fi inkább bosszantó marketingfogás volt, mint használható szolgáltatás: az üzenetküldés nehezen ment, a videostreamelésről nem is beszélve...

MA 19:45

A Google hadat üzen a visszagomb-csapdázó weboldalaknak

🛠 A neten az egyik legidegesítőbb jelenség, amikor egy weboldal nem enged szabadon távozni...

MA 19:35

A lenyűgöző MI-képek titka: a részletekben rejlik

Az MI-alapú képgenerálásban hónapok óta a Gemini képgenerátorát használom, mert már első próbálkozásra közelebb jut a kívánt végeredményhez, mint a ChatGPT...

MA 19:23

A láthatatlan hackerek: így fosztják ki az e‑mail fiókodat

🔓 A hackerek egy meglepően gyakori, megdöbbentően hatékony módszerrel tartják magukat láthatatlanul a feltört e-mail-fiókokban...

MA 19:12

Az űrmemória, amely a Vénusz poklát is túléli

🚀 A laptopokat hűtőventilátorok, speciális hűtőbordák védik a túlmelegedéstől, de ezek a megoldások mit sem érnek extrém forróságban, például a Vénuszon, ahol a hőmérséklet eléri a 400 °C-ot...

MA 19:01

Az immunrendszer felturbózása: áttörés a rák elleni harcban

💪 A kutatók áttörést értek el abban, hogyan lehet a szervezet T-sejtjeit még hatékonyabbá tenni a daganatos sejtek elleni harcban...

MA 18:56

Az élet nem kiegyensúlyozott: a Coca-Cola-vezér szerint túlélni kell

🍸 A sikerhez vezető út gyakran jóval inkább kitartáson múlik, mint előrelátó tervezésen...

MA 18:46

A Pokémon világa meglepő öko-tanulságokat kínál mindenkinek

🌱 A Pokémon-univerzum legalább annyira szól a tudományról és a természetvédelemről, mint az izgalmas csatákról és a gyűjtésről...

MA 18:34

Az áttörés: a megújulók megelőzték a gázt Amerikában

Márciusban először fordult elő az Egyesült Államokban, hogy a megújuló energiaforrások – vagyis a nap-, szél-, víz- és bioenergia – több áramot termeltek, mint a földgáz...

MA 18:23

Az Amazon lecsap: bekebelezi a Globalstart, űrbizniszbe robban

🚀 Az Amazon igazán nagy dobásra készül: összeolvad a Globalstarral, vagyis azzal a műholdas szolgáltatóval, amely az iPhone-ok és az Apple Watchok híres SOS-rendszere mögött áll...

MA 17:56

Veszélyben az MI: súlyos sebezhetőség a wolfSSL-ben

⚠ A wolfSSL egy kifejezetten beágyazott rendszerekre, ipari eszközökre, routerekre, IoT- és autóipari rendszerekre, sőt akár katonai berendezésekre fejlesztett, C nyelvű, könnyűsúlyú TLS/SSL-könyvtár...

MA 17:01

Súlyos új támadás fenyegeti az OpenAI macOS-hitelesítését

⚠ Többek között átfogó biztonsági intézkedésekkel reagál az OpenAI egy közelmúltbeli ellátási lánc elleni támadásra, amely során egy rosszindulatú Axios-csomag is lefutott a cég GitHub Actions automatizált folyamataiban...

MA 16:58

Az oslói beteg: áttörés jöhet a HIV végleges legyőzésében?

Egy 63 éves férfi, akit csak „az oslói betegként” emlegetnek, jó eséllyel végleg megszabadult a HIV-től – méghozzá egy szokatlan csontvelő-átültetésnek köszönhetően, amely teljesen átalakította az immunrendszerét...

MA 16:45

A villanyautód lehet a házad következő zöld erőműve!

Amíg te csak parkolni hagyod az elektromos kocsidat, lehet, hogy észre sem veszed, milyen elképesztő lehetőség lapul az orrod előtt...

MA 16:23

Az új Gmail-fióknévvel végre búcsút inthetsz a ciki e‑mailcímeknek

Erre utal többek között az, hogy végre búcsút inthetsz annak a kínos Gmail-címnek, amelyet még tinédzserként választottál magadnak, és mindeddig kísértett az álláskereséstől kezdve az ügyintézésig...

MA 16:13

Az LG két olcsó OLED-tévével rukkolt elő – döbbenetes a különbség

😲 Az LG új generációs OLED televízióinak ára már elérhetővé vált az Amazonon, és két modellt is találunk a kínálatban: a B65-öt és a B6E-t...

MA 16:01

Az újabb Rockstar-botrány: több millió adat szivárgott ki

🕵 Ismét támadás érte a Rockstar Games-t: több mint 78,6 millió belső analitikai rekord szivárgott ki, miután az Anodot nevű adatfelügyeleti cégnél történt biztonsági incidens miatt a ShinyHunters zsarolócsoport megszerezte a hozzáférést...

MA 15:56

A nagy bitcoinláz: jön a 75 ezres áttörés?

💰 A bitcoin újra megközelítette a 75 000 dolláros (27,3 millió forintos) szintet, amelyet február eleje óta többszöri próbálkozásra sem sikerült tartósan áttörnie...

MA 15:12

Az elszabadult japán rakétadarab katasztrófát okozott

A japán H3 rakéta legutóbbi indulása súlyos kudarcba torkollott, amikor a fedélzeten szállított navigációs műhold odaveszett...

MA 14:57

Az új Pixel 10 modem tényleg biztonságban tartja a mobilod?

A modern okostelefonok egyre fejlettebb biztonsági védelemmel rendelkeznek, mégis éppen ott sérülékenyek, ahol a legkevésbé számítanánk: a modem szoftverében...