2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 16:34

A Solana ellentámad: 100 milliárdos DeFi-hack után jön a biztonsági fordulat

🛡 Öt nappal azután, hogy a Drift Protocolt feltörték, és 270 millió dollár (kb...

MA 16:23

Az új Windows-fenyegetés: a BlueHammer totális káoszt okozhat

Egy elégedetlen biztonsági kutató szivárogtatta ki a „BlueHammer” nevű, súlyos Windows-sebezhetőség kihasználására alkalmas kódot, amely lehetővé teszi, hogy a támadók rendszergazdai vagy SYSTEM-jogosultsághoz jussanak...

MA 16:11

Az első kínai hidrogénhajtású turbólégcsavaros repülő már a levegőben

Miközben a világ szépen visszaállna a szokásos tempóra, Kína most beintett mindenkinek: felszállt az AEP100 nevű, hidrogénnel hajtott turbólégcsavaros gépük!..

MA 16:01

Az Anthropic többmilliárdos MI-megállapodást kötött a Google-lal és a Broadcommal

Az Anthropic bejelentette, hogy 2027-től kezdődően közel 3,5 gigawatt számítási kapacitást vesz igénybe, amelyet a Google fejlett tensorprocesszorai (TPU-k) biztosítanak...

MA 15:56

Az amerikai közlekedésbiztonsági hatóság végre túllépett a Tesla Smart Summon-botrányon

Hosszú hónapok vizsgálata után lezárta a Nemzeti Közúti Közlekedésbiztonsági Hivatal (NHTSA) a Tesla távoli parkolást megvalósító Smart Summon funkciójának ügyét, mivel a feltárt balesetek java része csupán apró koccanás volt – ráadásul mind alacsony sebességnél történt...

MA 15:45

Az MI-láz mellékhatásai: fizessenek a robotok, jöjjön a négynapos hét!

Oké, szóval az OpenAI most odavágott egy csomó zsírúj ötlettel, hogy kezeljük az MI miatt elszabaduló káoszt...

MA 15:36

Az MI forradalmasítja az ügyfélkutatást: gyorsabb, mélyebb, olcsóbb

A vállalatok számára a fogyasztók véleményének és viselkedésének megértése régóta kardinális kérdés, de az ehhez szükséges adatok összegyűjtése sok időt és pénzt igényelt...

MA 15:24

Az allergiaszezon előtt: Tartsd távol a pollent az otthonodtól

Ahogy beköszönt a tavasz, egyre többeket gyötörnek a pollenallergia tünetei: tüsszögés, orrfolyás, bedugult orr, kaparó torok, viszkető, könnyező szemek...

MA 15:13

A mesterséges intelligenciát tényleg kutyaürülékkel, pornóval és közösségi profilokkal tömik?

Tízezrek dolgoznak a Meta tulajdonában álló Scale AI nevű vállalatnál egy különleges feladaton: a mesterséges intelligenciát tanítják olyan adatanyagokkal, mint Instagram-képek, Facebook-profilok, sőt, szerzői jog alatt álló művek és pornográf hanganyagok...

MA 15:01

Az Anthropic rekordméretű MI-chipbeszerzése a Google-tól

💻 Az Anthropic hatalmas ugrást jelentett be: a vállalat éves bevétele már meghaladja a 11 000 milliárd forintot (kb...

MA 14:58

Az új Wegovy-tabletta berobban: tömegek kapkodnak a fogyás csodapirulájáért

💪 Évekig tartó próbálkozások után Jane Zuckerman felismerte, hogy a hagyományos fogyókúra nem mindenki számára hoz eredményt...

MA 14:45

Az antianyag végre útra kelt – kamion hátán!

🚗 Érdemes megvizsgálni, hogy a tudósoknak először sikerült teherautóval antianyagot szállítaniuk, ami jelentős előrelépés: lehetővé teszi, hogy ez a különösen instabil anyag eddig elképzelhetetlen pontosságú kísérletekben játsszon szerepet...

MA 14:34

A legújabb LinkedIn-botrány: kémkedik a böngészési adataid után?

A LinkedIn mostanában komoly vádakkal néz szembe, miután egy német digitális jogvédő szervezet, a Fairlinked aggasztó adatvédelmi gyakorlatokra hívta fel a figyelmet...

MA 14:23

Az MI-óriások fellendítik vagy kiszívják a szuflát a tőzsdéből?

A privát technológiai szektor soha nem látott tempót diktált az elmúlt negyedévben: rekordot döntött az induló vállalatokba fektetett globális tőke, az MI-témájú cégek szinte mindent visznek...

MA 13:56

Az okos trükk, amivel ujjlenyomatoddal bármit elindíthatsz a Samsungodon

🔐 Sokan csak felületesen használják a Samsung-telefonok testreszabási lehetőségeit, pedig az ujjlenyomat-olvasóval sokkal többre vagyunk képesek, mint gondolnánk...

MA 13:25

Az emberiség új űrrekordja: soha nem voltunk ilyen távol

🚀 Az Orion űrhajó fedélzetén ülve, nyolc órányi, szinte álomszerű holdmegfigyelés után vészesen elfogytak a szavak a NASA Artemis II küldetésének parancsnokánál...

MA 13:01

Az élet eredetének új nyomára bukkantunk egy elveszett világban

🔍 Dél-Kínában feltárt, lenyűgöző fosszíliák alapjaiban írják át az összetett állati élet kialakulásának történetét...

MA 12:56

Mégsem Snapdragon 8 Elite került az első kézikonzolba?

🙄 A tavaly bemutatott AYN Odin 3 kézikonzolt eredetileg az első olyan eszközként harangozták be, amely a Snapdragon 8 Elite processzorral jelenik meg...

MA 12:45

Az iráni háború árnyéka: drágulás és gazdasági lassulás jön

🛡 A világgazdaság újabb, komoly pofont kapott az iráni háború miatt: az energiaárak kilőnek, miközben a gazdasági növekedés belassul...

MA 12:24

Az új chipcsomagolásra tesz fel mindent az Intel

💻 Fontos kérdés, miként lehet lépést tartani az egyre gyorsuló számítási igényekkel, amelyeket főként a mesterséges intelligenciára építő technológiák hajtanak előre...

MA 11:57

Megmenthetik-e az MI-robotok Japánt a munkaerőhiánytól?

🤖 Japán jókora munkaerőhiánnyal küzd, amely az elöregedő társadalom következményeként csak egyre súlyosbodik...

MA 11:45

Az Apple összecsukható iPhone-jának debütálása csúszhat

📱 Az Apple régóta várt összehajtható iPhone-ja a vártnál több technikai akadályba ütközött, emiatt hónapokkal is csúszhat a piacra dobása...

MA 11:35

Az elektromos zacskóforrasztó tényleg megmenti a csipszet?

A nassolás szerelmesei jól ismerik azt a bosszúságot, amikor a frissen bontott csipsz vagy perec pár óra vagy nap alatt elveszíti ropogós állagát, és hamar állottá válik...

MA 11:01

Az első kétarcú mobil: színes E‑Ink találkozik az LCD-vel

A Bigme nevű E-Ink márka új szintre emeli az okostelefonos olvasás élményét: forradalmian új, kétkijelzős mobilt ígér, amely egy színes E-Ink panelt és egy hagyományos LCD-képernyőt kombinál...

MA 10:59

A mesterséges intelligencia sikere a betonbiztos alapokon múlik

Mindenki a mesterséges intelligencia (MI) gyors elterjedéséről beszél, de a valóság az, hogy a legtöbb vállalat – legyen szó óriásokról vagy startupokról – hajlamos kihagyni a legfontosabb lépést: az alapok tisztességes lerakását...

MA 10:50

A Pixel, ami csak Japáné: exkluzív színek, egyedi kiadás

A Google egy egyedi kiadású Pixel 10a telefont dobott piacra, amely kifejezetten a Pixel készülékek tízéves évfordulójára készült...

MA 10:43

A Disney+ beszáll az e-sportba – tényleg kell ez nekünk?

Nem hiszem el, de a nemzetközi League of Legends KeSPA-kupa innentől a Disney+-on lesz elérhető exkluzívan!..

MA 10:35

Az Artemis II-vel ember még nem járt ilyen messze a Földtől

Négy űrhajósból álló csapat történelmet írt: az Artemis II legénysége jelenleg távolabb jár a Földtől, mint bármely más emberes küldetés során valaha...

MA 10:29

Az Artemis II legénysége űrből nézte a lélegzetelállító napfogyatkozást

🌌 Mindössze néhány ezer kilométeres magasságból, a Hold felett, teljesen új oldaláról mutatkozott be a napfogyatkozás négy űrhajós számára...