2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

szerda 21:56

Az Apple II most MS-DOS-t futtat – kapaszkodj!

💻 Képzeld el az Apple II-t, amelyben valaki nem törődött bele az idő vasfogának munkájába, és összebarkácsolta a lehetetlent: új életet lehelt az AD8088 koprocesszor-kártyába, így az öreg gép MS-DOS 2...

szerda 21:45

A rejtőzködő fehér törpe leplezte le a csillag titkát

Nincs még egy olyan szabad szemmel is látható csillag, mint a Cassiopeia csillagképben ragyogó Gamma Cassiopeiae, amely csaknem ötven éve zavarba ejti a kutatókat...

szerda 21:34

A Pinterest forradalma: végre az inspiráció a főszerepben

A Pinterest vezére, Bill Ready most nekiment annak a mélyen gyökerező hisztériának, amelyet a legtöbb közösségi oldal szinte az anyatejjel szívja magába...

szerda 21:26

Az Apple bekeményít: szigorúbb korhatárellenőrzés, új szabályok érkeznek

Különösen igaz, ha iPhone-t használsz az Egyesült Királyságban: a legújabb iOS-frissítéssel milliókat kérnek arra, hogy igazolják, betöltötték a 18...

szerda 21:01

A Meta újabb leépítései keményen sújtják a dolgozókat

A Meta ismét több száz dolgozót bocsátott el, ezúttal főként a Reality Labs részlegből, amely a cég VR- és metaverzum-projektjeit irányítja...

szerda 20:57

A vörös bolygó rubinokat és zafírokat rejthet – az élet nyomait?

A Mars felszíne apró, drágakőhöz hasonló kristályokat rejt, többek között rubinokat és talán még zafírokat is...

szerda 20:47

A metaverzum sírba szállt – bukás vagy nagy visszatérés?

Az elmúlt évek egyik legnagyobb technológiai ígérete, a metaverzum fejlesztése és a körülötte kialakult felhajtás mára szinte teljesen elhalt...

szerda 20:35

Az űr következő nagy dobása: NASA-holdbázis és nukleáris űrhajó érkeznek

🚀 Érdemes megvizsgálni, hogy a NASA soha nem látott ambíciókkal és elképesztő tempóban készül átalakítani a következő évtized űrkutatását...

szerda 20:23

Az antianyag kamionra szállt – az év tudományos kalandja

🚗 A CERN kutatói először vitték ki az antianyagot a laboratóriumból, és ezzel egy kamionnyi, pontosan 92 antiproton szállítására alkalmas csúcstechnológiás csapdát gördítettek végig a kutatóközpont területén...

szerda 20:13

Az alvilág új kedvence: az MI-fiók

Az utóbbi időben a mesterséges intelligencia (MI) eszközök gyorsan beépültek a mindennapokba, legyen szó tartalomgyártásról, szoftverfejlesztésről vagy éppen üzleti folyamatokról...

szerda 20:01

Az OpenAI Sora-fiaskója miatt bukott a Disney milliárdos üzlete

A Disney váratlanul visszavonult az OpenAI-jal kötött tervezett, 1 milliárd dolláros (kb...

szerda 19:56

Az elektromos motorokat tényleg ijesztően könnyű feltörni?

⚠ Az elektromos motorokat gyártó Zero Motorcycles azt hirdette, hogy járműveik feltörhetetlenek – végül kiderült, hogy óriásit tévedtek...

szerda 19:45

Az Android rakétára kapcsolt: ő lett a mobilnet királya

Elképesztő tempót diktál mostanában az Android, ha mobilos böngészésről van szó...

szerda 19:34

Az új Citrix-sebezhetőségek: frissítés nélkül célponttá válsz

Két súlyos sérülékenységre derült fény a NetScaler ADC és NetScaler Gateway eszközökben...

szerda 19:23

Az első nagy per a közösségi média ellen: bajban a techóriások

A Los Angeles-i esküdtszék történelmi döntést hozott: a Meta és a YouTube jelentősen felelősek egy fiatalkorú közösségi média-függőségéért...

szerda 18:01

Az MI pénzgyára dübörög: érkeznek az Arm titkos, izgalmas processzorai

💸 Az Arm vezérigazgatója, René Haas új irányba fordítja az eddig főleg IP-licenceléstől függő brit chipfejlesztő vállalatot...

szerda 17:56

Az Android új Terminálja végre halad a korral

💻 Az Android legfrissebb Canary-verziójában teljesen megújul a Linux-terminál alkalmazás, amely eddig is a Pixel-telefonok egyik leghasznosabb, ám keveset emlegetett extrája volt...

szerda 17:45

A Ring 4K-s, napelemes kapucsengőkkel hódít

🚕 A Ring új magasságokba repíti akkumulátoros videókapucsengőit, és nem kispályásan: a legújabb Battery Doorbell Pro (2...

szerda 17:35

Az újabb brutális leépítési hullám söpör végig a Metánál

Érdekes, hogy néhány év alatt a Meta számára gyakorlatilag csak egy fő irány maradt: az MI...

szerda 17:24

Az OpenAI elkaszálja a Sora MI‑videóalkalmazást

Az OpenAI bejelentette, hogy megszünteti a Sora nevű MI‑alapú videóalkalmazását és a hozzá tartozó fejlesztői API‑t...

szerda 17:02

A mámorító nektár titka: méhek és kolibrik egész nap isznak

🍹 A virágporozók, mint a méhek és a kolibrik, nemcsak nektárral táplálkoznak, de tudtukon kívül folyamatosan kis mennyiségű alkoholt is fogyasztanak a természetben...

szerda 16:57

Az amerikai dolgozók bíznak magukban, de elbuknak az adathalász-teszten

Sokan magabiztosnak érzik magukat, ha adathalász e-mailekről van szó, mégis meglepő eredményekre jutott egy friss felmérés...

szerda 16:46

Az eltűnt tetoválás: a nyakára tetovált kereszt végzetes nyomot hagyott

Egy húszéves férfi különleges esete rámutat, hogy a tetoválásokhoz ma is társulhat ritka szövődmény...

szerda 16:34

Az új Firefox 149 érkezik: osztott ablak, beépített VPN, még több kényelem

🛠 Megérkezett a Firefox 149-es verziója, amely látványos újdonságokat tartogat. Mostantól két weboldal nézhető egymás mellett a böngészőben, így a párhuzamos munkavégzés sosem volt még ilyen egyszerű...

szerda 16:24

Az eltűntnek hitt nyúl teteme most váratlan reményt hozott

Évtizedek óta először sikerült azonosítani a Hajnan szigetén honos, kritikusan veszélyeztetett hajnani nyúl maradványait egy szokatlan helyen – de sajnos már csak egy elgázolt tetem formájában...

szerda 14:01

Az Archer routerekben óriási biztonsági rések tátonganak

Az Archer NX sorozatú routereken komoly biztonsági rést találtak: a TP-Link sürgős frissítést javasol felhasználóinak, mert a hibának köszönhetően támadók mindenféle jogosultság nélkül tölthetnek fel új firmware-t, illetve teljesen átvehetik az eszköz irányítását...

szerda 13:56

A Harvey jogi MI-startupja már 4000 milliárd forintot ér

🧐 Még mindig akadnak ígéretes MI-alapú cégek, amelyeknek nem kell aggódniuk az OpenAI vagy az Anthropic óriási térnyerése miatt...

szerda 13:25

Az MI átveszi a Mac felett az irányítást: itt a Claude

🤖 Anthropic újabb áttörést jelentett be az MI-alapú ügynökök frontján: a Claude nevű chatbot mostantól képes egy Mac számítógép teljes irányítására...

szerda 11:57

A sarkvidéki hideg drámai betörése Floridába

❄ Egy szokatlanul intenzív hidegfront felkavarta a tengerfenék üledékét Florida partjainál, amelynek eredményeként meseszép, világoskék üledékfelhő fodrozódott végig a Mexikói-öböl délnyugati térségében...