2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 21:22

Az agy boldogsághormonja titokban gerjesztheti a fülzúgást

😱 Már régóta ismert, hogy a fülzúgás – vagyis az állandó, zavaró csengés, búgás vagy zúgás a fülben – milliók mindennapjait nehezíti meg világszerte...

MA 21:12

A Googlebook berobban: kilép a Chromebook árnyékából?

Az Apple innovációi után a Google és az Intel is lépett: együtt mutatták be közös notebookjukat, amelyet egyelőre csak Googlebook néven emlegetnek...

MA 21:01

A Zee TV bárhol a világon: így nézheted VPN-nel

Zee TV-t szeretnél nézni Indián kívül, akár külföldi utazás vagy tartósabb kintlét alatt?..

MA 20:57

A ConcernedApe új játéka nagyobb, sötétebb és kegyetlenebb

Eric Barone, a Csillagharmat-völgy (Stardew Valley) megalkotója az utóbbi években minden energiáját következő játékára, a Kísértetjárta Csokoládékészítőre (Haunted Chocolatier) fordítja...

MA 20:45

A nagy tőzsdék vizsgálatot sürgetnek a Hyperliquid manipulációs kockázatai miatt

📊 A Hyperliquid nevű decentralizált derivatív tőzsde egyre nagyobb figyelmet kelt az amerikai pénzügyi óriások, a CME Group és az Intercontinental Exchange (ICE) körében...

MA 20:33

Az 5%-os hozam visszatért a hosszú amerikai állampapírra, 2007 óta először

💰 Először 19 év után ismét 5%-os hozammal kínáltak 30 éves amerikai államkötvényt, ami jelentős fordulatot hozott a befektetői piacon...

MA 20:23

A tudósok megfejtették az antarktiszi tengeri jég rejtélyes összeomlását

Egy lényeges szempont, hogy az Antarktisz körüli tengeri jégtakaró szinte példátlan gyorsasággal kezdett eltűnni 2015-től, pedig azt megelőzően évtizedekig stabilnak tűnt...

MA 19:56

A láthatatlan koleszterinveszély, amelyről minden ötödik ember nem tud

Többek között több mint 20 000 önkéntes adatait elemezték kutatók, és kiderült: számos embernél akkor is fennáll a szív- és érrendszeri betegségek kockázata, ha a hagyományos kezeléseket megfelelően kapják...

MA 19:45

Az RTX 5090 még drágább lehet: jöhet a százezres drágulás?

Ha valaki mostanában tervezte, hogy új grafikus kártyára vált, valószínűleg jobban teszi, ha még vár: az RTX 5090 eddig sem volt olcsó, de a legújabb hírek szerint az Nvidia további, akár 100 ezer forintos áremelést fontolgat...

MA 19:34

A kínai tiltás marad: Nvidia MI-chipekre továbbra sincs engedély

Donald Trump, Jensen Huang és több nagyvállalati vezető is Kínába utazott, hogy javítsák az országok közötti kereskedelmi kapcsolatok helyzetét...

MA 19:23

A Kanye West-koncertet Indiában biztonsági okokból felfüggesztették

Kanye West indiai fellépésére ismét nem kerül sor: a május 23-ra tervezett, az újdelhi Jawaharlal Nehru Stadionban tartandó koncertet a szervezők biztonsági aggályok miatt törölték...

MA 19:12

Az OpenAI rákapcsol: Távoli hozzáférés a Codexhez iPhone-on, iPaden és Androidon

📱 Érdekes fejlemény, hogy egyre több fejlesztő mostantól a telefonjáról felügyelheti és irányíthatja a kódolási feladatait, bárhol is jár éppen...

MA 19:02

Az MI-chatbotok felerősítik a nőkkel és lányokkal szembeni erőszakot – sürgős szabályozás kell

Az automatizált csevegőrobotok elárasztották az internetet, átalakítva a nőket és lányokat érő bántalmazás formáit, miközben egészen új, veszélyes módszereket is teremtenek...

MA 18:45

A B2-vitamin árnyoldala: segítheti a rákos sejtek túlélését

😷 Felmerül a kérdés, vajon minden, ártalmatlannak tartott vitamin valóban csak jótékony hatással van-e a szervezetünkre...

MA 18:34

A halált is kijátszotta: Emilia Clarke két agyvérzést élt túl

💪 A világhírű színésznő, Emilia Clarke a mai napig hihetetlennek tartja, hogy életben maradt két súlyos agyvérzés után, amelyeket a Trónok harca (Game of Thrones) forgatása alatt szenvedett el...

MA 17:23

Az olcsó Alienware kemény vádirat a PC-s játékhardver állapotáról

Külön említést érdemel, hogy a 2026-os Alienware 15 megjelenése komoly kérdéseket vet fel a gamer laptopok világában...

MA 16:45

Az OpenAI perelné az Apple-t: válságban a Siri-szövetség

🔥 Érdemes megérteni, hogy két óriás, az Apple és az OpenAI régóta együtt dolgozik, hogy Siri, az Apple hangasszisztense még okosabb és hasznosabb legyen...

MA 16:02

Az antarktiszi Don Juan-tó, amely még mínusz ötven fokban sem fagy be

💦 Az Antarktiszon, a McMurdo-szárazvölgyek fagyott vidékén terül el a Don Juan Pond, amely különös tulajdonságairól híres: ebben a mindössze 10 centiméter mély, hat focipályányi tavacskában annyi só, pontosabban kalcium-klorid található, hogy még mínusz 50 Celsius-fokos hidegben sem fagy be a víz...

MA 15:45

A Wall Street felfigyel a kripto legokosabb MI-fogadására

Nof1 egyik legújabb kezdeményezése, az Alpha Arena egyre nagyobb figyelmet kap a pénzügyi világban...

MA 15:12

A Dutton Ranch ingyen nézhető – íme a rejtett kiskapu

🤸 Hatalmas várakozás előzi meg a Yellowstone (Yellowstone) sorozat új mellékszálát, a Dutton Ranchot, ami már most az év egyik legkeresettebb streamingtartalma...

MA 15:01

Az OpenAI megerősítette a TanStack ellátásilánc-támadását, nem szivárogtak felhasználói adatok

Két OpenAI-munkatárs gépét érte támadás a TanStack ellátási láncát érintő Mini Shai-Hulud incidens során, de a vállalat szerint a történtek nem okoztak érdemi fennakadást a működésben...

MA 14:56

Az MI torzíthatja a pályaválasztást, figyelmeztet a Raspberry Pi-alapító

A technológia és programozás világa egyre kevésbé vonzó a fiatalok számára, mivel a mesterséges intelligencia folyamatosan átveszi a kezdő munkaköröket...

MA 14:45

Az Artemis II űrhajósai belülről mesélik el a felfoghatatlan napfogyatkozást

Érdekes felvetés, hogy milyen módon változtathatja meg egy űrutazás az ember szemléletét a világról...

MA 13:34

Az STRC 1,5 milliárd dolláros rekordforgalommal 11 707 bitcoin vételét fedezi

💰 Lényeges, hogy a Strategy által kibocsátott STRC-részvények forgalma minden eddigit felülmúlva elérte az 1,53 milliárd dollárt (kb...

MA 13:01

Az idei nyár pénztárcabarát futófülhallgatói: kezdőknek, tempóváltáshoz

Kezdő futóként gyakran csapdába esik az ember: túlárazott, csúcskategóriás fülhallgatókat nem akar venni, de a saját lihegése nem elég motiváló társ az edzéshez...

MA 12:34

A Nothing-vezér kiosztja a Sonyt az Xperia 1 VIII bénázó MI-je miatt

A Sony legújabb zászlóshajó mobilja, az Xperia 1 VIII nagy vihart kavart egy egyszerű közösségi poszttal...

MA 11:23

A zombi sejtek nyomában: áttörés az öregedés ellen

👽 Az életkor előrehaladtával testünkben egyre több olyan sejt halmozódhat fel, amelyek már leálltak az osztódással, de ahelyett, hogy elpusztulnának, makacsul kitartanak – ezek az úgynevezett „zombi sejtek”, vagyis szeneszcens sejtek...

MA 10:46

Az Xbox Elite 3 kiszivárgott képei: fura extra, nehéz lesz helytállni

🎮 Érdemes megvizsgálni, mire lehet képes a hamarosan debütáló Xbox Elite 3 kontroller az új piaci viszonyok között...

MA 10:36

Már 35 fölött megindul az erőnlét és a fittség hanyatlása

💪 Egyedülálló svéd kutatás közel fél évszázadon át követte az emberek fizikai állapotát, eredménye pedig merőben új képet ad az öregedésről...