2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 11:45

Az Apple összecsukható iPhone-jának debütálása csúszhat

📱 Az Apple régóta várt összehajtható iPhone-ja a vártnál több technikai akadályba ütközött, emiatt hónapokkal is csúszhat a piacra dobása...

MA 11:35

Az elektromos zacskóforrasztó tényleg megmenti a csipszet?

A nassolás szerelmesei jól ismerik azt a bosszúságot, amikor a frissen bontott csipsz vagy perec pár óra vagy nap alatt elveszíti ropogós állagát, és hamar állottá válik...

MA 11:01

Az első kétarcú mobil: színes E‑Ink találkozik az LCD-vel

A Bigme nevű E-Ink márka új szintre emeli az okostelefonos olvasás élményét: forradalmian új, kétkijelzős mobilt ígér, amely egy színes E-Ink panelt és egy hagyományos LCD-képernyőt kombinál...

MA 10:59

A mesterséges intelligencia sikere a betonbiztos alapokon múlik

Mindenki a mesterséges intelligencia (MI) gyors elterjedéséről beszél, de a valóság az, hogy a legtöbb vállalat – legyen szó óriásokról vagy startupokról – hajlamos kihagyni a legfontosabb lépést: az alapok tisztességes lerakását...

MA 10:50

A Pixel, ami csak Japáné: exkluzív színek, egyedi kiadás

A Google egy egyedi kiadású Pixel 10a telefont dobott piacra, amely kifejezetten a Pixel készülékek tízéves évfordulójára készült...

MA 10:43

A Disney+ beszáll az e-sportba – tényleg kell ez nekünk?

Nem hiszem el, de a nemzetközi League of Legends KeSPA-kupa innentől a Disney+-on lesz elérhető exkluzívan!..

MA 10:35

Az Artemis II-vel ember még nem járt ilyen messze a Földtől

Négy űrhajósból álló csapat történelmet írt: az Artemis II legénysége jelenleg távolabb jár a Földtől, mint bármely más emberes küldetés során valaha...

MA 10:29

Az Artemis II legénysége űrből nézte a lélegzetelállító napfogyatkozást

🌌 Mindössze néhány ezer kilométeres magasságból, a Hold felett, teljesen új oldaláról mutatkozott be a napfogyatkozás négy űrhajós számára...

MA 10:22

A németek rábukkantak az orosz zsarolóvírus-főnökökre

🕵 Jellemző példa erre, hogy a német szövetségi rendőrség (BKA) hosszú nyomozás után két orosz állampolgárt nevezett meg a hírhedt GandCrab és REvil nevű zsarolóvírus-hálózatok vezetőjeként...

MA 10:08

Az új chip 700 °C-on is működik – jön az MI-forradalom?

A modern elektronika világa egyre forróbb helyeken hódít, legyen szó okostelefonokról, autókról vagy éppen űreszközökről...

MA 10:01

Az Artemis II legénysége megdönti az emberi távolságrekordot – üzenetváltás a világegyetem pereméről

Megfeszített tempóval, elképesztő energiával haladt előre az Artemis II küldetés, miközben a NASA űrhajósai – Reid Wiseman, Victor Glover, Christina Koch és a kanadai Jeremy Hansen – túlszárnyalták az 1970-es Apollo–13 történelmi csúcsát, vagyis több mint 400 342 kilométerre jutottak a Földtől...

MA 09:57

A hírességek megszégyenítése holnap minket is utolér

👀 A szenzációhajhászás, amely Tiger Woods és Justin Timberlake ittas vezetés miatti letartóztatásának felvételeit körülveszi, jóval túlmutat a híres emberek megszégyenítésén...

MA 09:50

A GPUBreach-támadás mindent fenyeget: veszélyben a teljes rendszer

A legfrissebb kutatások szerint az egyetemi fejlesztésű GPUBreach támadás képes kihasználni a Rowhammer-sebezhetőséget, immár nemcsak a rendszermemóriában, hanem korszerű grafikus kártyák GDDR6-memóriájában is...

MA 09:44

Az Artemis II történelmi Hold-kerülése: ilyet még soha nem láttunk

A négyfős Artemis II legénység elérte a Holdat, és hamarosan a kapcsolatot is elveszítik a Földdel, amikor elhaladnak az ismeretlen túlsó oldal mellett...

MA 09:36

Az ETF-ek új csúcsra repítik a bitcoint: rekord beáramlás

🚀 A bitcoin ára továbbra is 25,3 millió forint (68 780 USD) körül mozog, de április 6-án az amerikai spot bitcoin ETF-eken keresztül érkező tőke lendülete kiemelkedően erős volt...

MA 09:15

Az Amazon új dobása nagyot üt a postán, de nem világvége

Az Amazon most visszafogott, de azért érezhetően odacsap a jó öreg postának: végül 20 százalékkal vágja vissza az amerikai posta (USPS) kézbesítéseit...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/7

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     ASMR Playbook (iPhone/iPad)Az ASMR Playbook: Satisfying Games egy olyan digitális játékalkalmazás, amelyet a stressz oldására és a koncentráció erősítésére fejlesztettek ki...

MA 09:08

A mesterséges intelligencia már a népszerű Unix-nyomtatószervert is feltöri

Hihetetlen, de mégis igaz, hogy biztonsági kutatók MI‑ügynökök segítségével újabb két kritikus sebezhetőséget találtak a Common Unix Printing System (CUPS) szoftverben, amely a legtöbb Linux- és Apple‑eszköz alapértelmezett nyomtatórendszere...

MA 09:02

Az MI még kíméli a kínai dolgozókat – de meddig?

📈 Senki sem várta volna, hogy miközben az amerikai technológiai cégek egyik napról a másikra tömeges elbocsátásokba kezdenek az MI miatt, addig Kínában jóval kisebbek a hullámok...

MA 08:57

Az Apple hajtogatható iPhone-ja hamarabb érkezhet, mint gondolnád

🚀 Az összehajtható telefonok piaca újabb nagy meglepetés előtt áll: friss hírek szerint már elindult az első összehajtható iPhone gyártása a Foxconn gyártósorain...

MA 08:50

Az Anthropic óriási égése: kiszivárgott a teljes Claude Code forráskódja

🔥 Egy figyelmetlen hiba miatt elérhetővé vált az Anthropic forradalmi Claude Code parancssoros alkalmazásának teljes forráskódja...

MA 08:43

Az LG titokzatos gördülő mobilja: miért bukott el végül?

A soha meg nem jelent LG Rollable készülék szétszerelése végre feltárja, miért is tűntek el a gördülő telefonok ötletei...

MA 08:38

Az 1-es típusú cukorbetegség legyőzése már a küszöbön?

Annak vizsgálata, milyen közel jár a tudomány az 1-es típusú cukorbetegség teljes gyógyításához, különösen az őssejtalapú kezelések és az immunrendszert befolyásoló gyógyszerek gyors fejlődésének fényében...

MA 08:22

A lehetetlen óriásbolygó, amely mindent felforgat

Ámulatba ejtő felfedezés tartja izgalomban a csillagászokat: a James Webb-űrtávcső egy szokatlan exobolygó, a TOI-5205 b tanulmányozásával igazi fejtörőt okozott a szakembereknek...

MA 08:08

Az ember ismét a Holdnál: rekorddöntő Artemis II átrepülés

Több mint öt évtized után ismét ember hajózott a Hold közelébe...

MA 08:01

A Waymo megérkezik Londonba: jönnek az önvezető taxik

🚗 Áprilisban London utcáin is megjelennek a Waymo önvezető taxijai, amelyek szeptembertől teljes körűen elérhetők lesznek...

MA 07:50

Az Outlook-rémálomnak vége: megérkezett a várva várt javítás

😃 Néhányan komolyan megszívták, amikor a régi, jól bevált Classic Outlook egyszer csak elkezdte visszadobálni a leveleket, mégpedig teljesen véletlenszerűen...

MA 07:22

Az Apple botránya: lopott videókból tanította MI-jét — állítják YouTuberek

🔥 Három ismert YouTuber – h3h3 Productions, MrShortGameGolf és Golfholics – most közösen beperelték az Apple-t, mert szerintük a vállalat törvénysértően használta fel a videóikat az MI fejlesztéséhez...

MA 07:15

A finn homokakku áttörése fenekestül felforgathatja az energiatárolást

Finnországban egy új típusú akkumulátort tesztelnek, amely a megújuló energia tárolását és villamos energiává történő visszaalakítását ígéri...