2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 20:21

A szörny-neutrínó felfedi az ősi fekete lyukak titkát?

🔬 A Földet három évvel ezelőtt különös kozmikus alkotóelem, egy rendkívül nagy energiájú neutrínó találta el, amely egészen a Földközi-tenger mélyére hatolt, és jelet keltett a félig üzemkész KM3NeT neutrínódetektorban Szicília partjainál...

MA 20:01

Az álomhoz nem kell mindig melatonin: ezek a bevált alternatívák

A melatonin sokak számára az álmatlanság első számú ellenszere, de sokan tapasztalnak kellemetlen mellékhatásokat, például nappali kábultságot vagy fejfájást – főleg, ha túl nagy adagot szednek, vagy túl későn veszik be...

MA 19:55

Az ősi Marsot félig óceán borította – új képek árulkodnak

A Mars ma poros és kopár, de új kutatások szerint egykor kék bolygóként tündökölhetett...

MA 19:39

A világegyetem legnagyobb fekete lyukai: a James Webb forradalma

Évtizedeken keresztül rejtély övezte, hogyan keletkeztek az univerzum legnagyobb, legősibb fekete lyukai, amelyek tömegükkel akár több milliárdszorosan is meghaladják a Napot...

MA 19:19

Az ásványvíz, amiben bízunk, lehet a legnagyobb veszély

Érdemes megvizsgálni, hogyan mérgezhetik a legnépszerűbb ivóvízforrások a mindennapjainkat anélkül, hogy észrevennénk...

MA 19:02

A halálos arktikus fagy lecsap – de a fák nem robbannak

🥶 Amerika északi régióit egy erős arktikus hidegfront sújtja, amely jelentős lehűlést és tartós téli vihart okoz...

MA 18:56

Az MI már unja a saját interjúit?

Felmerül a kérdés, hogy mit csináljon egy cég, ha a saját MI-je sorra túlszárnyalja azokat az állásinterjúkat, amelyeket éppen a legjobb fejlesztők kiválasztására dolgozott ki...

MA 18:19

A valaha talált legteljesebb Homo habilis-csontváz került elő Kenyában

👷 Észak-Kenyában, a Turkana-tó medencéjében megtalált részleges csontváz messze a legteljesebb maradvány, amely valaha előkerült a több mint kétmillió éves Homo habilis fajból...

MA 18:03

A Lucid Air Touringgal végre teljes a luxusélmény

Az elektromos autópiacot egyre többen próbálják meghódítani, de a fiatal gyártók előtt rengeteg akadály tornyosul...

MA 17:55

Az új Witcher lehet minden idők legdrágább játéka?

CD Projekt Red következő nagy dobása, a Vaják 4 (The Witcher 4), minden eddiginél nagyobb költségvetéssel készülhet...

MA 17:37

A mesterséges intelligencia már a hírcímeket is elrontja – a Google kitart

A Google egyre több hírportál cikkeinek címeit cseréli le mesterségesintelligencia-generálta, félrevezető vagy kattintásvadász változatokra...

MA 17:19

Az ülés nem ellenség: így tarthatod frissen az agyadat

Az ülő életmódot régóta egészségtelennek tartják, de egy friss összefoglaló elemzés 85 kutatás eredményeit áttekintve árnyaltabb képet fest...

MA 17:02

Az Apple kiakadt: az EU szívatja őket az alkalmazásbolt miatt

😡 Az Apple ismét összetűzésbe került az Európai Bizottsággal egy alternatív alkalmazásbolt bezárása után...

MA 16:56

A Walmart Apple Pay nélkül: így dühítik a vásárlókat

Fontos kérdés, hogy miért nem lehet 2026-ban sem Apple Pay-jel fizetni a Walmart amerikai üzleteiben...

MA 16:37

Az európai kriptópiacért újra ringbe száll a Binance Görögországban

Az egyik legismertebb kriptotőzsde, a Binance hivatalosan is lépéseket tett az új európai piacok visszaszerzéséért: bejelentette, hogy Görögországot választja az Unió frissen életbe lépő kriptoeszköz-piaci szabályozása, a MiCA keretrendszer alapján működésének alapjául...

MA 16:19

Az új Teams azonnal leleplezi a telefonos csalókat

📞 Közeleg egy új biztonsági funkció a Microsoft Teamsben, amely figyelmeztet, ha egy külső hívó ismert márkát próbál utánozni, vagyis márkautánzással próbálkozik...

MA 16:01

Az aranyláz New Yorkban: a Ledger értéke 1,5-ről 4 milliárdra ugrik

💰 A francia Ledger, amely hardveres kriptotárcáiról ismert, arra készül, hogy idén megjelenjen a New York-i tőzsdén, és akár 4 milliárd dolláros (aktuális árfolyamon közel 1 450 milliárd forintos) értékelést is elérhet...

MA 15:55

A mesterséges intelligencia kinyírta a curl hibavadász programját

💀 A népszerű curl parancssori segédprogram és könyvtár fejlesztője úgy döntött, január végén leállítja a projekt hivatalos hibavadász programját, miután az MI által generált, értéktelen sérülékenységi jelentések túlterhelték a csapatot...

MA 15:37

A nappalid új sztárja: a Sennheiser TV-fejhallgató

🎬 A Sennheiser bemutatta legújabb RS 275 TV-fejhallgatóját, amelyet mostantól BTA1 digitális vevővel együtt kínál...

MA 15:20

Az opciók szabad kezet adnak, tovább izmosodnak a bitcoin ETF-ek

Jelentős változás előtt állnak az amerikai bitcoin- és ether-tőzsdén kereskedett alapok (ETF-ek): a kereskedési opciókra eddig érvényes, 25 ezres szerződéshatárt eltörölték...

MA 15:01

Az ausztrál föld mélye felfedi a nióbium titkát

🔍 Ausztrália mélyében rejtőző ritka kőzetek segítettek megfejteni, hogyan alakult ki a világ egyik legfontosabb nióbiumforrása, amely kulcsszerepet játszik az acél erősítésében és a tisztaenergia-technológiákban...

MA 14:57

A legősibb kéznyom: 67 800 éves barlangfestmény Sulawesi szigetén

A világ legrégebbi ismert műalkotását, egy kézsziluettet találtak meg egy indonéziai barlang falán, amelyet mintegy 67 800 évvel ezelőtt készítettek...

MA 14:37

Az oltás és a rekedtség között nincs bizonyított kapcsolat

Robert F. Kennedy Jr., amerikai politikus és jogász, ismert oltáskritikus, újra vitát kavart, amikor azt állította: a szezonális influenza elleni védőoltás idézhette elő rekedtségét és hangképzési zavarát...

MA 14:20

Az ősi állkapocs, amely újraírja az emberi evolúció történetét

Egy 2,6 millió éves állkapocscsont felfedezése Etiópiában teljesen átírja az emberi őstörténetről alkotott képet...

MA 14:02

Az idei téli vihar felkavar mindent: készülj fel időben!

Amerika-szerte mindenki a közelgő téli viharról beszél – akár csoportos beszélgetésekben, akár a boltban vagy a benzinkúton: mindenhol ez a téma...

MA 13:57

Az új tablettás Wegovy: tényleg ideje eldobni az injekciót?

A Wegovy, a népszerű testsúlycsökkentő gyógyszer már nemcsak injekció formájában, hanem tablettaként is elérhető az Egyesült Államokban...

MA 13:37

Az új Fortinet-hiba a legfrissebb tűzfalakat is sebezhetővé teszi

🔒 Tűzfalaik újabb támadáshullámáról számolnak be a Fortinet-felhasználók, annak ellenére, hogy az eszközeik a legfrissebb javításokat kapták meg...

MA 13:19

Tombol az új kriptoláz, de 90 ezer dollár alatt ragad a bitcoin

💸 Az ázsiai tőzsdék meneteltek felfelé, a dollár gyengült, de a nagyobb kriptodevizák, köztük a bitcoin, továbbra is küszködnek egy mozgalmas hét után...

MA 13:02

Az új Google Fotók: MI épít videófalat, támad a TikTok-hatás

A Google Fotók (Google Photos) hamarosan megújulhat, és a TikTokhoz hasonló, MI-vezérelt videóválogatással bővülhet...