2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

kedd 21:57

Az élet építőkövei a Ryugu aszteroidán megbújtak

🚀 Például az emberi örökítőanyag, a DNS és az RNS alkotóelemei nélkülük nem létezhetnének...

kedd 21:46

A Galaxy Z TriFold pillanatok alatt elkapkodták a boltokból

Miután alig két hónapig lehetett kapni az Egyesült Államokban, a Samsung leállítja a Galaxy Z TriFold forgalmazását...

kedd 21:36

Az alattomos vesebaj, amely ellen végre felcsillant a remény

💉 Ötvenes éveiben járó férfi érkezik az orvosi rendelőbe, vastag paksaméta leletekkel a hóna alatt...

kedd 21:23

Az Nvidia 2028-ig 360 billió forintért adna AI-chipeket – Elképesztő biznisz?

Az Nvidia vezére, Jensen Huang idén San Joséban, a GTC-konferencia megnyitóján bedobott néhány vad számot, de az igazi bombát egyértelműen a pénzügyek között robbantotta: szerinte 2028-ig legalább 1 billió dollárra, vagyis kb...

kedd 21:01

Az új ChatGPT-láz: már az ingyenes is meglepően okos

🚀 Itt az új menőség a ChatGPT-ben: a GPT-5.4 mini szinte szárnyakat ad a Free- és Go-felhasználóknak, akiket eddig a fizetősök lenéztek...

kedd 20:56

A nagy dobás: olcsóbb utalás a PayPal új eszközével

Emellett a PayPal most 70 országban tette elérhetővé a dollárhoz kötött digitális pénzét, a PayPal USD-t (PYUSD-t), ezzel több milliárd felhasználónak kínálva olcsóbb és gyorsabb nemzetközi fizetési lehetőséget...

kedd 20:45

Az égből csapott le egy meteorit, megrendítve a régiót

Kedden reggel hatalmas dörrenés rázta meg Északkelet-Ohiót és Pennsylvania egyes részeit, ami sokakat az ágyból is kiugrasztott...

kedd 20:34

A Google Gemini már mindenkinek személyre szabja a melót – vagy túl sok?

Mostantól az USA-ban mindenki – nem csak az előfizetők – szabadon kipróbálhatja a Gemini alkalmazást és a Chrome böngésző személyes intelligenciáját...

kedd 20:13

A következő vakcinaforradalom: a DNS-origami előzheti az mRNS-t

🧪 Érdemes megérteni, hogy az mRNS-alapú oltások a COVID-19 idején emberek millióinak életét mentették meg, ám ezek sem tökéletesek...

kedd 19:56

A Fortnite visszatért, és letarolja a Google Play Áruházat

🚀 Végre vége a marakodásnak: március 19-én világszerte visszatér a Fortnite a Google Play Áruházba!..

kedd 19:46

A filléres IP KVM-ek tárt kaput nyitnak a támadóknak

🔒 Kicsi, olcsó és korántsem ártalmatlan eszközök veszélyeztethetik a céges IT-rendszereket: az IP KVM-ek – amelyeket rendszerint 11 ezer és 36 ezer forint közötti áron lehet beszerezni – lehetővé teszik, hogy rendszergazdák távolról kezeljenek számítógépeket, akár BIOS- vagy UEFI-szinten is, még az operációs rendszer betöltődése előtt...

kedd 19:34

A futball YouTube-ra költözik – a FIFA legújabb dobása

⚽ A 2026-os világbajnokság körül már most óriási a pezsgés – legalábbis ami azt illeti, hol nézhetjük majd a meccseket...

kedd 19:23

Az Intel új csúcsprocesszorokkal turbózza a gamer laptopokat

🖥 Az Intel ismét erősíti a prémiumkategóriás gamer laptopok mezőnyét két frissített csúcslapkával: a Core Ultra 9 290HX Plus-szal és a Core Ultra 7 270HX Plus-szal...

kedd 18:01

Az új Switch 2 új életet lehel a régi játékokba

A Nintendo Switch 2 frissítése egy olyan újdonságot hozott, ami rengeteg rajongónak kedvezhet...

kedd 17:56

Az elátkozott Samsung-gépeken visszatért a C meghajtó

💀 Bizonyos, Windows 11‑et futtató Samsung‑laptopokon komoly problémák jelentkeztek a C‑meghajtó elérésével, fájlok megnyitásával és alkalmazások indításával kapcsolatban...

kedd 17:46

A belső óra ereje: az időzítés forradalmasítja a gyógyítást

Az utóbbi időben egyre több kutatás támasztja alá, hogy a szervezet belső órája, vagyis a cirkadián ritmus nemcsak az alvásra vagy étkezésre van hatással, hanem a gyógyszerek hatékonyságára is...

kedd 17:35

Az áttörés: így verik vissza a vese rejtett ellenségeit

A vese megbetegedései sokáig csendben, szinte észrevétlenül támadnak, különösen akkor, ha gyógyszerek hatására alakulnak ki az első problémák...

kedd 17:23

Az MI vezetői válságot hoz: hová tűnnek a főnökök?

Jó, jó, persze, hogy mindenki az MI-lázról beszél, de most tényleg jön a Nagy Lapítás...

kedd 17:12

Az aszteroida, ami genetikailag megelőzhet minket: becsapódik a Ryugu?

Ryugu, a Földtől 300 millió kilométerre keringő aszteroida, igazi űrbéli sztár lett, miután a japán Hayabusa2 űrszonda két mintát is hazahozott róla: egyet a felszínről, egy másikat a mélyebb rétegekből...

kedd 17:03

Az új gravitációs hullámok az univerzum rejtett dallamát játsszák

🎶 Például egy hatalmas csillagrobbanás vagy két szupernehéz fekete lyuk összeolvadása olyan zörejeket kelt a világegyetemben, amelyek a földi léptékkel felfoghatatlan távolságokon is átsöpörnek...

kedd 16:57

Az MI-ügynökök védelmének öt kőkemény aranyszabálya

🛡 Az MI-ügynökök megjelenése új korszakot nyit a vállalati működésben. Ezek a rendszerek nem egyszerű segédprogramok, nem pusztán fejlettebb chatbotok, hanem autonóm szereplők, amelyek önállóan képesek tervezni, dönteni és végrehajtani...

kedd 16:46

Az éjszakai tűzoltó drónok végre megérkeznek Aspenbe

🛰 Aspenben új fejezetéhez érkezik a csúcstechnológiás tűzoltás, ahol idén nyáron bevetik az első, kifejezetten erdőtüzek elleni harcra tervezett drónokat...

kedd 16:35

Az El Niño tombolása: példátlan hőhullámok közelednek

🔥 A légkörkutatók egy különösen erős, úgynevezett szuper El Niño kialakulására figyelmeztetnek, amely akár már a 2026-os hurrikánszezon végére is bekövetkezhet...

kedd 16:23

A Microsoft visszakozik: nem tolja rá a Copilotot a gépekre

December elején a Microsoft automatikusan elkezdte telepíteni a Microsoft 365 Copilot nevű MI-asszisztenst tartalmazó alkalmazást minden olyan Windows-gépre, ahol a Microsoft 365 irodai programcsomag megtalálható volt, kivéve a jogszabályok miatt az Európai Gazdasági Térség országaiban...

kedd 13:56

A Denon DP-500BT, a Bluetooth-os lemezjátszó, ami odaver

🎵 A Denon most dobja piacra a DP-500BT nevű lemezjátszót, ami egyszerre hozza a klasszikus vinyl-élményt és a menő, nagy felbontású Bluetooth-streamelést...

kedd 13:34

Az ADHD-s agy ébren is álomszerű transzba eshet

Különös agyi működést figyeltek meg a kutatók azoknál, akik figyelemhiányos hiperaktivitás-zavarral (ADHD) élnek: miközben látszólag éberek, agyuk mégis időnként álomszerű, alváshoz hasonló állapotba kerül...

kedd 13:24

Az elveszett Doggerland erdei újraélednek az Északi-tenger mélyén

🌲 Az Északi-tenger mélyén rejtőzik Doggerland, egykor Nagy-Britanniát és Európát összekötő földsáv, amely 16 ezer évvel ezelőtt buja erdőkkel és változatos állatvilággal teli élőhelyet kínált – jóval korábban, mint azt eddig gondolták...

kedd 11:56

Az Nvidia új csodafegyvere: végre biztonságos lesz az OpenClaw?

🛡 Az Nvidia komoly lépést tett az MI-biztonság terén: bemutatta a NemoClaw platformot, amely vállalati szintű MI-ügynökök futtatását teszi lehetővé saját, helyben működő hardveren...

kedd 11:45

Egy elterjedt növényvédőszer drámaian megduplázhatja a Parkinson-kór kockázatát

🐛 Egy friss kutatás szerint a klórpirifosz nevű, világszerte elterjedten használt növényvédőszer hosszan tartó hatása összefüggésbe hozható a Parkinson-kór jelentős kockázatnövekedésével...