2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 14:03

Végleg búcsút inthetünk a titokzatos steril neutrínónak?

A neutrínók a lehető legelhanyagolhatóbb részecskék közé tartoznak: szinte semmi tömegük, nincs sem elektromos, sem színtöltésük, így a természet legtöbb erői gyakorlatilag nem hatnak rájuk...

MA 13:56

Az emberi DNS rejtett második kódja kapcsolja ki a géneket

🔑 Az emberi DNS egy bonyolult, hárombetűs egységekből álló rendszer; ezek az egységek négyféle nukleotidból épülnek fel...

MA 13:44

Az összehajtható iPhone jön? Szeptemberre készül a nagy Apple-hajtogatás

Nincs unalmasabb annál, mint amikor egy techóriás csak tologatja az újdonságokat – na de komolyan, most tényleg beindultak Cupertinóban!..

MA 13:34

A Ghost Murmur: valódi kémkütyü vagy csak sci-fi?

🕵 Noha a Ghost Murmur eszközről szóló történetek izgalmasak, a tudomány jelenlegi állása szerint meglehetősen valószínűtlen, hogy ilyen kvantumkémkedési technológia létezne vagy működne a leírtak szerint...

MA 13:24

Az MI körüli viták fékezik a vállalatok növekedését

Ilyen eset például, amikor egy vállalat rengeteg pénzt és erőforrást önt az MI-be, de a várt áttörések elmaradnak...

MA 13:01

Az ember 60 ezer éve meghódította Ausztráliát

🚶 Az emberiség vándorlásának egyik legnagyobb rejtélyére sikerült rávilágítani, méghozzá a DNS nyomozásával: már bizonyíték van arra, hogy az emberek körülbelül 60 ezer évvel ezelőtt érték el először Ausztráliát és Új-Guineát – sokkal korábban, mint azt néhány újabb elmélet eddig sejtette...

MA 12:57

Az öböl kapuja hetekig, akár hónapokig is zárva marad

🚢 Különösen igaz ez akkor, ha a világ energiaellátását fenyegető útvonalak kerülnek veszélybe...

MA 12:45

A nagy fordulat: a John Deere visszakozik, a gazdák nyernek

Évek óta dúl a vita: a gazdák szabadon szerelhetnék a saját gépeiket, vagy csak a John Deere drága szervizei babrálhatnak a traktorokkal?..

MA 12:34

Az Adobe Reader súlyos veszélyben: négy hónapja tart a hackerostrom

Aggasztó fejlemény, hogy már legalább négy hónapja kihasználnak hackerek egy súlyos, eddig nem javított, úgynevezett zero-day sebezhetőséget az Adobe Readerben...

MA 12:23

Az eddigi leggyorsabb töltés: BYD és KFC összefog Kínában

Tipikus eset, amikor két óriás egymásra talál: a kínai elektromosautó-gyártó BYD és a KFC különleges együttműködésbe kezdett, hogy közösen nyissák meg az ország első, kilenc perc alatt letudható gyorséttermi töltőállomásait...

MA 12:01

Az MI-ügynökök megjöttek – és velük a káosz

Például néhány éve még csak csevegtünk egy barátságos chatbottal, ma pedig már érezhető, hogy a mindennapokban is jelen van a mesterséges intelligencia...

MA 11:56

A gigantikus Bitcoin ATM-hálózatot milliós kibertámadás rázta meg

💸 A világ egyik legnagyobb Bitcoin ATM-hálózatát üzemeltető Bitcoin Depot súlyos pénzügyi károkat szenvedett el, miután hekkerek márciusban betörtek a rendszerükbe, és mintegy 1,4 milliárd forint (3,665 millió dollár) értékű Bitcoint loptak el a cég tárcáiból...

MA 11:46

Az orrában fejlődő légylárva – döbbenetes görög eset

Egy görög szigeten élő, 58 éves nő elképesztő egészségügyi problémával szembesült: hosszan tartó arcfájdalom, majd heves köhögés kínozta, miközben egyre rosszabbul érezte magát...

MA 11:34

Az okosórád már a termékenységet is figyeli: megérkezett a Garmin új funkciója

A Garmin legújabb fejlesztésével már a termékenységi adatok is elérhetők az okosórákon...

MA 11:01

Az Xbox végre forradalmasítja az elavult Achievement-rendszert

Az Xbox Achievement-rendszer évek óta nem kapott érdemi frissítést, mostanra azonban látványosan megújul: az Xbox Insider program résztvevői már tesztelhetik az új funkciókat, amelyek hamarosan mindenkihez megérkeznek...

MA 10:44

A mesterséges intelligencia háborút indít az üzleti adataidért

🤓 A digitalizáció rohamosan átalakítja, hogyan dolgoznak a vállalkozások minden iparágban, miközben az MI-alapú megoldások egyre mélyebben beépülnek a mindennapi munkafolyamatokba...

MA 10:22

A PS5 új menüje: végre használhatóbb lesz a felület

😃 A PlayStation 5-tulajdonosok évek óta várnak egy apró, de bosszantó problémát orvosló fejlesztésre a konzol kezelőfelületén...

MA 10:01

Az Ozempic és társai: fogyás, hányinger, gének – mi számít?

A népszerű fogyókúrás gyógyszerek, az Ozempic, a Wegovy vagy a Zepbound mégsem működnek egyformán mindenkinél, hiába robbantak be a köztudatba...

MA 09:58

A nagy adatvédelmi botrány: titokban pásztázza böngésződet a LinkedIn

Különösen igaz ez akkor, ha egy olyan technológiai óriás kerül reflektorfénybe, mint a LinkedIn, amelyet most két jelentős csoportos per is célba vett...

MA 09:50

A Meta új MI-elméje: megérkezett a Muse Spark

A világot meghódító MI-fejlesztési verseny legújabb szereplője a Meta Superintelligence Lab első nyilvános modellje, a Muse Spark...

MA 09:44

Az élelmiszerár-robbanás új réme: közeleg a szuper El Niño

🌵 Egymásra tornyosulnak a kockázatok a világ élelmiszer-ellátásában, miközben a meteorológusok egy soha nem látott erejű, úgynevezett szuper El Niño kialakulására figyelmeztetnek az év végére...

MA 09:36

A váratlan holdkráter felfedezése mindenkit megdöbbentett

🕶 A Hold felszíne régóta ismert számunkra, mégis időről időre új és látványos változásokon megy keresztül...

MA 09:30

Az igazi márkaerő: így csinál pénzt a vevők véleménye

Ha a vevőkről van szó, gyakran felmerül a kérdés: miért ragaszkodnak egyesek annyira egy márkához, hogy akár jelentős pénzösszeg fejében sem válnának meg tőle?..

MA 09:15

Az iráni hekkerek megbénítik az amerikai infrastruktúrát

⚠ Az utóbbi hetekben jelentősen megszaporodtak azok a támadások, amelyek Iránhoz köthető hekkercsoportokra vezethetők vissza, és az Egyesült Államok kritikus infrastruktúráját veszik célba...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/9

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     KR8-0 Drum Machine (iPhone/iPad)A KR8-0 egy élő fellépésekhez tervezett drum machine...

MA 09:01

Az új hekkercsoport a Zendeskből halássza az ügyféladatokat

🕵 A legújabb támadások célpontjai az üzleti folyamatokat támogató szolgáltatók (BPO-k), ahol a hekkercsoport, az UNC6783, a vállalatok támogatási rendszerébe bejutva érzékeny adatokat szerez meg...

MA 08:44

Az RGB LED tévék kavarják a piacot, trónon maradhat az OLED

💡 Az utóbbi években egyre nagyobb várakozás övezte az RGB háttérvilágítású tévéket...

MA 08:36

Az új Galaxy S25 Ultra: vízálló, de sós vízben nem

💧 A Galaxy S25 Ultra mostantól Ocean móddal vadonatúj, víz alatti fotózási élményt hoz, amit eleinte csak korallzátonyokon búvárkodó óceánkutatók használhattak...

MA 08:29

Itt az első valóban kvantumbiztos Bitcoin-pénztárca-mentő prototípus

A Bitcoin egyik vezető fejlesztője, Olaoluwa „Roasbeef” Osuntokun most először bemutatott egy működő prototípust, amely vészhelyzeti frissítés esetén megmentheti a felhasználók pénztárcáit, ha a hálózatot valaha kvantumszámítógépes támadás ellen kellene védeni...