2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 11:46

Az új OnePlus Nord 6 meglepően könnyű és tűkarcsú

Lényeges, hogy az új OnePlus Nord 6-ot kézbe véve nem az fogad, amit egy hatalmas, 9 000 mAh-s akkumulátorral szerelt telefon alapján várnál: a készülék meglepően könnyű és vékony, abszolút nem nevezhető téglának...

MA 11:23

A kimúlt LFP-akkumulátor boncolása három felvonásban

⚜ Csak pár tucat töltési ciklus után kuka lett egy LFP-akkumulátor, még úgy is, hogy a csatlakozóin teljesen normális feszültség virított...

MA 11:12

Az emberiség visszatér a Holdhoz: nézd élőben az Artemis II indítását

🚀 Fontos kérdés, mikor és hogyan követhetjük élőben, ahogy négy űrhajós történelmi útra indul a Hold felé...

MA 11:01

Az amerikai űrhajósok újra a Hold felé tartanak

Több mint ötven év után újra amerikai asztronauták indultak a Hold felé: a NASA történelmi Artemis II missziója ragyogóan startolt el Cape Canaveralból, és lelkes nézők ezrei töltötték meg a kilövőközpont környékét...

MA 10:58

A Meta nagy dobása: meglesz a 3400 ezermilliárdos cégérték?

💸 Meta Platforms most olyan prémium juttatásokat kínál vezetőinek, amelyek hatalmas ösztönzőt adnak a vállalat értékének feltornászására...

MA 10:50

Az okosórákra is lecsap a kötelező 64 bites korszak

Fontos kérdés, hogy mikor teszik meg a gyártók a végső lépést a régóta emlegetett 64 bites átállás felé...

MA 10:37

Az Instagram és a YouTube percsatája átírhatja a közösségi média jövőjét

Egy Los Angeles-i esküdtszék ítélete precedens nélküli hullámokat keltett a közösségi média világában...

MA 10:22

Az új EvilTokens-készlet söpör végig: célkeresztben a Microsoft-fiókok

Az EvilTokens nevű új támadóeszközzel a kiberbűnözők könnyedén törhetnek be Microsoft-fiókokba...

MA 10:01

A daganatok titkos lakói hozhatják el az áttörést

🤖 Különösen említést érdemel, hogy a vastagbélrák – amely az Egyesült Királyságban a negyedik leggyakoribb daganat, és a daganatos halálozás második fő oka – meglepő módon egyedi mikrobiális „ujjlenyomattal” rendelkezik...

MA 09:42

Az első holdkörüli buli: visszatér a NASA, mindenki menne

Az Artemis II végre kilőtt, 53 év után először jutnak el újra emberek a Hold környékére – és nem is akármilyen legénységgel...

MA 09:36

Az Apple CarPlay mostantól ChatGPT-vel válaszol – mersz kérdezni?

🚗 Megérkezett a régóta várt iOS 26.4 frissítés, amely először teszi lehetővé harmadik féltől származó MI-chatbotok használatát az Apple CarPlay rendszerében...

MA 09:30

Az elveszett jégkorszak titkai: óriáslajhár és oroszlánméretű tatu Texas barlangjaiban

🧚 Ilyen esetről van szó, amikor két kutató egy texasi föld alatti patakban úszva véletlenül páratlan jégkorszaki fosszíliákra bukkantak...

MA 09:22

Az emberi színlátás titka: miért fókuszálunk másként a színekre?

👁 A szemünk képes milliónyi színt érzékelni, de egyszerre csupán egyetlen szín hullámhosszára tud élesen fókuszálni...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 4/2

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Dungeon Survival (iPhone/iPad)A játék minden alkalommal új, véletlenszerűen generált barlangszinteket kínál, így mindig más kaland vár...

MA 09:08

Az új Nomad Tracking Card Air: okos nyomkövetés a pénztárcádban

A Nomad bemutatta legújabb Tracking Card Air-jét, amely már támogatja a Google Eszközkeresés (Find My Device) hálózatát is, és egyetlen töltéssel akár hét hónapig működik...

MA 08:50

Az új T‑Mobile 5G mentőinternet: ki jár vele igazán jól?

📶 Tipikus eset, amikor egy szolgáltató módosít a szabályain, és ezzel egyszerre örömet szerez egyeseknek, míg másokat bosszant...

MA 08:44

Az első exkluzív holdkerülő túra: irány a Hold, Artemis II!

Megtörtént, amire minden űrrajongó régóta várt: négy bátor űrhajós elstartolt a floridai Kennedy Űrközpontból, és belekezdtek egy tíznapos, felsőkategóriás körútra a Hold körül...

MA 08:16

A kiszivárgott Claude Code forráskódja leleplezi az Anthropic titkos MI-terveit

Több mint félmillió sornyi forráskód szivárgott ki az Anthropic Claude Code MI-rendszeréből, amely eddig ismeretlen újításokat és rejtett funkciókat leplezett le...

MA 07:57

Az energiaforradalom félbemaradt: még mindig a fosszilisek diktálnak

Különösen igaz ez most, amikor a megújuló energia egyre nagyobb szeletet hasít ki a világ energiaellátásából, miközben a fosszilis energiahordozók továbbra is markánsan jelen vannak...

MA 07:51

Az öngyilkos üstökös: először láttak önmagát pusztító, pörgő égitestet

🚀 Érdemes megvizsgálni, léteznek-e az űr mélyén olyan égi jelenségek, amelyek látszólag áthágják a fizika eddig ismert törvényeit...

MA 07:43

A mesterséges intelligencia másodpercek alatt klónozza a nyílt forráskódot – rémálom vagy zsenialitás?

Két szoftveres kutató most különösen pimasz módon mutatta be, milyen gyorsan képes a modern mesterséges intelligencia egész nyílt forráskódú projekteket újjáalkotni...

MA 07:36

A United alkalmazás már mutatja a reptéri várakozást – ha nem késik

✈ Végre megérkezett az a menüpont, amire mindenki vágyott: a United mostantól mutatja a beszállás előtti biztonsági ellenőrzések várakozási idejét az appban – vagyis, ha épp eszméletlenül hosszú sorok kígyóznak, pontosan tudhatod, mennyit fogsz unatkozni multitasking közben a poggyászoddal...

MA 07:29

A TrueConf hibája miatt ezrével csaptak le videókonferenciákra

📺 A hackerek egy súlyos, eddig ismeretlen biztonsági rést kihasználva támadták meg a TrueConf videókonferencia-szervereket...

MA 07:22

Az Nvidia végre véget vet a shader-fordítási kínoknak – de csak félig

💻 Amikor a PC-d éppen unatkozik, az Nvidia szerint igazán kihasználhatná az időt arra, hogy előre lefordítsa a játékokhoz szükséges shadereket...

MA 07:17

A Claude Code szelleme visszatért: kísért az MI-kód

Egyetlen óvatlan pillanat elég volt, hogy a vállalati biztonsági vezetők rémálma valóra váljon...

MA 07:09

Az ember visszatér a Holdra: elrajtolt az Artemis II küldetés

🚀 A floridai Kennedy Űrközpontból szerdán új korszak indult, amikor három amerikai és egy kanadai űrhajós útnak indult a Hold felé...

MA 07:01

A MOL és a Hitachi építheti Japán első lebegő adatközpontját

Japánban egyre komolyabban veszik a lebegő adatközpontok fejlesztését. A Mitsui OSK Lines (MOL) és a Hitachi most együttműködést kötött, hogy 2027-re egy használt hajóból alakítsanak ki egy úszó szerverfarmot, amely hűtéséhez tengervizet vagy folyóvizet használna...

MA 06:58

Az Apple kíméletlen döntései: miért buknak el egyes újdonságaik?

Tim Cook több mint tízéves vezérigazgatói pályafutása alatt az Apple-t a világ egyik legsikeresebb vállalatává emelte...

MA 06:50

Az új CrystalRAT: adatlopás és káosz egy csomagban

Egyre figyelemreméltóbb fenyegetést jelent a nemrég megjelent CrystalRAT, amelyet már Telegramon és YouTube-on is hirdetnek...