2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 21:12

A Discord nagy dobása a Steam Decken, de jön a korellenőrzés?

🚀 Ez a jelenség jól illusztrálható azzal, hogy a Discord Linuxra kiadott legújabb frissítése radikális változásokat hozott a játékosok számára...

MA 20:56

A szülésbe majdnem belehalt – Hayden Panettiere megrázó vallomása

Hayden Panettiere új memoárjában őszintén beszél élete egyik legnehezebb időszakáról, amikor kislánya, Kaya születése életveszélyes szövődményekhez vezetett...

MA 20:12

A gyilkossági ítéletek eltörlése után Alex Murdaugh beperli a bírósági jegyzőt

Első pillantásra úgy tűnt, hogy Alex Murdaugh számára végre megcsillant a remény, amikor a Legfelsőbb Bíróság hatályon kívül helyezte a kettős gyilkosság miatti elítélését...

MA 19:34

A Bitcoin ATM-óriás bedőlt: a szabályozás tette padlóra

💸 Kezdetben a 2016-ban alapított Bitcoin Depot volt Észak-Amerika legnagyobb bitcoin-ATM-hálózatának üzemeltetője, de most a georgiai székhelyű vállalat önkéntes csődeljárást indított...

MA 19:02

Az új Fekete Zászló-jelenetek súlyt adnak Edward Kenway belső harcának

Matt Ryan, Edward Kenway megformálója, majdnem tizennégy év elteltével visszatér az Assassin’s Creed IV: Fekete Zászló – Újraszinkronizálva (Assassin’s Creed IV: Black Flag – Resynced) felújított változatához, amelyben nemcsak a technikai újítások, hanem bővített történeti tartalom is várja a játékosokat...

MA 18:56

A történelem legnagyobb rakétáját elszabadítja Elon Musk, űrbeli hazárdjáték

🚀 Elon Musk minden korábbinál nagyobb űrrakétával készül új fejezetet nyitni az űrutazás történetében...

MA 18:34

Az okostávcső, amely 10 ezer madárfajt ismer fel, 4K videóval, 30x zoommal

Kezdetben a távcsövek világa szinte változatlan maradt: megszokhattuk a súlyos, de nagy nagyítást kínáló készülékeket, amelyekhez, ha fényképezni is akartunk, bonyolult adapterre és külön kamerára volt szükség...

MA 18:02

A néhány napja felfedezett aszteroida hajszál híján elkerüli a Földet

Április 13-án egy nagyjából 15–30 méter átmérőjű aszteroida száguld el a Föld mellett, alig 91 593 kilométeres távolságra...

MA 17:56

A kullancscsípések berobbantak: megteltek a sürgősségi osztályok – térképen a gócpontok

Az idei tavasz szokatlanul meleg időjárása miatt soha nem látott mértékben ugrott meg a kullancscsípések száma, főként az USA északkeleti és középnyugati régióiban...

MA 17:23

Az egész ország egy évig ingyen kapja a ChatGPT Plust

Ez azt jelenti, hogy a Földközi-tenger közepén fekvő máltai sziget minden lakója egy évig ingyen használhatja a ChatGPT Plus-t...

MA 16:56

A kimchi segíthet kiüríteni a mikroműanyagokat a szervezetből

🥒 Jellemző példa erre, hogy a mindennapi étrend részeként fogyasztott fermentált ételek meglepő szerephez juthatnak a mikroműanyagok szervezetből való eltávolításában...

MA 16:34

A GTA V elsöprő sikerének titka: a közösségi élmény ereje

🔥 Több mint egy évtized telt el a Grand Theft Auto V (Grand Theft Auto V) megjelenése óta, de a játék népszerűsége továbbra is töretlen...

MA 16:23

A Standard Chartered felvásárolja a Zodia Custody megmaradt részesedését

💰 A Standard Chartered döntése értelmében teljes egészében megszerzi kriptovaluta-megőrzéssel foglalkozó leányvállalatát, a Zodia Custody-t...

MA 16:12

Az Ebola visszatért: világméretű versenyfutás, az USA hazatelepít néhány állampolgárt

😷 Ekkor derült fény arra, ami addig rejtve maradt: az Ebola-járvány ismét felütötte a fejét a Kongói Demokratikus Köztársaságban (KDK) és Ugandában, ahol már több száz embert fertőzött meg, és száznál is több gyanús halálesethez vezetett...

MA 15:45

Az álörökösnő visszatér: Anna Delvey memoárt és dokumentumfilmet forgat

Anna Delvey, polgári nevén Anna Sorokin, most először saját szemszögéből meséli el életét, hiszen memoárt és a hozzá kapcsolódó dokumentumfilmet készít...

MA 15:24

A Keychron K2 HE Concrete Edition: látványos dizájn, prémium ár – megéri?

💪 Különösen említést érdemel, hogy a Keychron K2 HE Concrete Edition egyszerre impozáns, extravagáns és erőteljes gaming billentyűzet, amely azonnal magára vonja a figyelmet...

MA 15:12

A Lego Batman: A Sötét Lovag öröksége legókockák közt

👑 A Lego Batman: Legacy of the Dark Knight a DC-univerzum rajongóit igyekszik elcsábítani egy olyan kalanddal, amely egyszerre nosztalgikus és friss...

MA 15:02

A Windows 11 Start menüje, tálcája végre fejlődik, de nem erre vágyom

😐 A Windows 11 mostantól régóta várt funkciókkal bővül, amelyek jelentősen javítják a felhasználói élményt...

MA 14:56

Az ex-Google-vezért kifütyülték: stadionnyi diák az MI-beszéd ellen

Több ezer diák gyűlt össze a Casino Del Sol Stadionban, ahol Eric Schmidt, a Google egykori vezérigazgatója tartott beszédet a technológia világhódításáról...

MA 14:34

Az AMD technológiája eltünteti az első indítási akadásokat – csak néhány játékban

Érdemes megvizsgálni, mennyit változott a játékélmény azzal, hogy az Advanced Shader Delivery technológia megérkezett az AMD legújabb videokártyáira...

MA 14:23

A Schrödinger-óra: az idő egyszerre gyorsul és lassul?

Kevés fogalom olyan rejtélyes és sokat vitatott, mint maga az idő...

MA 14:01

A dauniai kyathos: pancsolás, mámor és egy kigúvadt szemű fickó

Dél-Olaszországban, évszázadokkal a római hódítás előtt, a daunok különleges kerámiákat és sírköveket alkottak, melyek máig őrzik misztikus kultúrájuk emlékét...

MA 13:56

A tudósok szerint végre megfejtették az emberi jobbkezesség rejtélyét

Az emberiség egyik legizgalmasabb evolúciós rejtélye kapott új magyarázatot: miért használják az emberek ilyen elsöprő többségben a jobb kezüket?..

MA 13:45

Az audiofil álom: egyedi, kilenc meghajtós, karbon fülmonitorok hárommillióért

🎧 Felmerül a kérdés, hogy mennyi pénzt hajlandó fizetni valaki a lehető legjobb zenei élményért...

MA 13:34

A Google I/O előtt a Wear OS 7-nek öt ütős újítás kell

👍 Az okosórák világa folyamatosan fejlődik, és a Google nem dőlhet hátra: a Wear OS 7 már a küszöbön áll, miközben a Garmin és az Apple Watch is minden eddiginél erősebb versenytársak...

MA 13:01

A hatvan éve kihaltnak hitt ausztrál növény váratlanul visszatért

Egy véletlen, a vadonban készült fotó egészen új fejezetet nyitott a természetkutatásban: Ausztrália eldugott északi részén újra előkerült egy olyan növény, amelyet 1967 óta mindenki kihaltnak hitt...

MA 12:57

Az igazi Disco Elysium-utód, amely magasra teszi a lécet

Zero Parades: For Dead Spies képes arra, amire nagyon kevés kortárs szerepjáték mer vállalkozni: finom részletességgel vizsgálja az emberi természetet és a politikai filozófiát, miközben bátran feszegeti a klasszikus CRPG-formulát...

MA 12:45

A James Webb megrajzolta az univerzum rejtett megaszerkezeteinek eddigi legnagyobb térképét

👀 Az elképzelhetetlenül távoli múltba pillanthattak bele a csillagászok, amikor a James Webb űrtávcső segítségével minden eddiginél részletesebben térképezték fel az univerzum kozmikus hálóját...

MA 12:23

A kísérleti zsákutcából a skálázásig: az ügynökalapú MI stratégiái

🚀 A Davosban megrendezett Világgazdasági Fórum óta észrevehetően átalakult az MI-ről szóló párbeszéd: a jóslatok és áttörések helyett egyre inkább arra koncentrálnak a vállalatok, hogyan lehet az MI-t valóban a szervezet mindennapjaiba beépíteni – ráadásul biztonságosan és nagy léptékben...