2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

szerda 21:45

Az új Recall újabb botrányt hozott a Microsoftnak

💥 A Windows 11-hez kapcsolódó Recall 2024-es debütálása óta soha nem nyerte el a felhasználók bizalmát...

szerda 21:24

A holdbázisig 73 leszállás és kőkemény akadály vár a NASA-ra

🚲 Ilyen tévhit például, hogy emberes holdbázist építeni már csak technikai kérdés...

szerda 20:57

Az Alzheimer-botrány: zsákutcába futott az amiloid-elmélet?

Több mint száz éve ismerjük az Alzheimer-kórt, de a betegséget véglegesen visszafordító kezelés még mindig várat magára...

szerda 20:44

Az Amazon 10,8 milliárd dollárért bekebelezi a Globalstart az űrinternetért

Nem hiszem el, de most tényleg: az Amazon 10,8 milliárd dollárért (kb...

szerda 20:24

Az MI és a GitHub nagy érdemlopási csapdája: mire nem figyeltek?

🤔 A közelmúltban komoly aggodalomra adott okot, hogy a GitHubon futó népszerű MI-ügynökök könnyedén kicsalhatják a felhasználók hitelesítő adatait anélkül, hogy erről megfelelő figyelmeztetést kapnának az érintettek...

szerda 19:56

Az áprilisi frissítés után BitLocker-kulcsot kérnek a Windows-szerverek

🔒 Előfordul, hogy a legfrissebb Windows Server 2025 frissítések telepítése után egyes szerverek BitLocker-helyreállítási módba lépnek, és a rendszer a helyreállítási kulcs megadását kéri...

szerda 19:45

A Spotify-on már könyveket is vehetsz – nem vicc!

A Spotify újabb meglepetéssel állt elő: mostantól fizikai könyveket is vásárolhatsz az alkalmazáson belül...

szerda 19:34

Az új Windows Task Host-hiba: tényleg van okunk aggódni?

A Windows Task Host nevű rendszerkomponens súlyos sérülékenysége miatt ismét veszélybe kerülhetnek a felhasználók és szervezetek: a sebezhetőség kihasználásával rosszindulatú támadók akár teljes rendszergazdai jogosultságot szerezhetnek a megfertőzött eszközökön...

szerda 19:23

Az USA légterében zöld utat kaptak a drónvadász lézerfegyverek

Az Amerikai Szövetségi Légügyi Hivatal (FAA) hivatalosan is jóváhagyta a drónok elleni nagyenergiájú lézerfegyverek bevetését az Egyesült Államok légterében...

szerda 19:12

A vadonatúj Gemini végre igazi Mac-élményt hoz

💻 Érdemes megvizsgálni, hogy mennyivel könnyebb és gyorsabb lett a Google Gemini használata Macen: mostantól nem kell böngészőt nyitni, elég letölteni a natív macOS-alkalmazást – így közvetlenül az asztalról indítható a Google MI-chatbotja...

szerda 18:46

Az Adobe nagy dobása: egy MI irányítja az összes kreatív szoftvert

Az Adobe ma új korszakot nyitott a kreativitásban: bemutatta a vadonatúj Firefly MI Assistantot, amely képes egyszerre irányítani a cég összes zászlóshajó-alkalmazását – legyen szó Photoshopról, Premieréről vagy Illustratorról...

szerda 18:34

Az élet nyomai: földönkívüliek rejtőzhetnek a mintákban

A kutatók egyik legnagyobb kihívása az, hogy miként azonosítható az élet idegen bolygókon, amikor a klasszikus jelek, például a biomarkerek vagy bizonyos gázok, más folyamatokból is származhatnak...

szerda 18:23

Az önvezető autók igazi tűzpróbája: London káosza

🚗 Érdekes felvetés, hogy az amerikai utakon már jól vizsgázó önvezető autók mire mennek London szűk utcáin...

szerda 17:23

A zsebben elfér: a világ legkisebb e-könyv-olvasója

Az a miniatűr e-könyv-olvasó, amelyet egy lelkes YouTuber, Paul Lagier fejlesztett ki 3D-nyomtatott házzal és házilag összeállítható elektronikai alkatrészekkel, alig nagyobb egy felnőtt hüvelykujjánál...

szerda 17:01

Az asztalra kattintasz, és eltűnnek: a Windows 11 utoléri a Macet

Ebből következően érdemes megérteni, hogy a Windows 11 most egy meglepően alap, de annál kényelmesebb funkcióval bővült: egy kicsi, ötletes segédprogrammal, amely leveszi az állandó ablakzsonglőrködés terhét, főleg, ha túl sok program fut egyszerre...

szerda 16:45

Az automata Windows-frissítés megint bakizott, de nem lesz 2025-ös a szervered

Az elmúlt évben sok rendszergazda szembesült azzal, hogy a Windows Server 2019 vagy 2022 rendszerük egyik napról a másikra, szinte varázsütésre Windows Server 2025-re frissült – ráadásul sokszor anélkül, hogy bárki licencet szerzett volna rá...

szerda 16:24

A mesterséges intelligencia nemcsak a Szilícium-völgyé: Demis Hassabis londoni diadala

💻 Vannak, akik már gyermekkorukban is komoly tehetségről tesznek tanúbizonyságot. Demis Hassabis is közéjük tartozik: hatévesen még csak szülei bátorítását hallgatta, de már ekkor elgondolkodott azon, hogy mit is jelent igazán a legjobbat nyújtani...

szerda 16:14

Az Apple Watch vagy a Whoop Band: melyik illik hozzád jobban?

Az okosórák és fitnesz-karkötők piaca hatalmas ugrásokon megy keresztül, különösen olyan innovációknak köszönhetően, mint a mesterséges intelligencia, amely a nyers egészségügyi adatokat hasznos tanácsokká alakítja át...

szerda 16:01

Az aranyszínű grafén átírja a fizika egyik alaptörvényét

A tudományban ritka pillanat, amikor az anyagok viselkedése teljesen átír egy jól ismert fizikai törvényt...

szerda 15:56

Az új MI-ikonokat imádják a Pixel-tulajok, mégis hiányzik valami

😍 A Google legutóbbi újítása, a Pixel Launcher MI által generált egyedi ikonjai, azonnal megnyerték a felhasználók többségének tetszését...

szerda 15:46

Az ősi szerszámok titka: kapcsolódott-e a Homo erectus a kozmoszhoz?

🔬 Izraelben rendkívüli régészeti leletre bukkantak: a Sakhnin-völgyben legalább tíz olyan őskori kőbaltát találtak, amelyeket nem véletlenszerűen, hanem tudatosan, különleges ásványi anyagok, kövületek és geodák felhasználásával készítettek...

szerda 15:34

Az új Steam árfigyelő mindenkinek beválik, vagy megint félmegoldás?

💸 A Valve nagy erőkkel dolgozik a Steam Machine piacra dobásán, de miközben a RAM- és tárhelyhiány miatt a konzol-PC bevezetése csúszhat, a cég folyamatosan készíti elő a digitális bolt fontos funkcióit is...

szerda 15:13

Az agytorna késleltetheti az Alzheimer-kórt – ez lehet a kulcs?

Az élet során végzett, szellemileg megterhelő tevékenységek, mint az olvasás, az írás vagy idegen nyelvek tanulása, jelentősen befolyásolhatják az időskori agy egészségét...

szerda 15:01

A hajlítható iPhone: Fold helyett Ultra érkezik?

Az Apple alaposan felkavarja az okostelefonos állóvizet: hamarosan bemutatkozhat az első hajlítható iPhone, amely minden előzetes találgatással szemben nem iPhone Fold, hanem iPhone Ultra néven érkezik...

szerda 14:56

A csúcs egyszerre mérföldkő és plafon: visszacsúszik a bitcoin

📈 Tipikus eset, amikor a piac izgatottan vár egy kiemelt szint áttörésére, mégsem sikerül: a bitcoin ismét elakadt a 75 000 dolláros (27,2 millió forint) csúcsnál, és lefordult a keddi, közel 76 000 dolláros (27,6 millió forint) kísérlet után; jelenleg 73 900 dollár (26,8 millió forint) körül forog...

szerda 14:46

Az otthoni biztonsági kamerák 8 leggyakoribb vakfoltja, amire a betörők pont számítanak

Ez a jelenség jól illusztrálható azzal, hogy a legtöbb háztulajdonos azt hiszi, egy biztonsági kamera felszerelésével hátradőlhet, pedig egy rossz helyre helyezett kamera csak dísz a falon...

szerda 14:35

Az igazság a 12-3-30 módszerről: csodaszer vagy lufi?

🧐 Fontos kérdés, hogy létezik-e olyan mozgásforma, amely minimális idő- és energiaráfordítással maximális eredményt hoz...

szerda 14:23

A kényelem ára: csapda lehet az Anthropic új MI-je a cégeknek?

A vállalatoknak egyre nagyobb kihívást jelent a mesterséges intelligenciára épülő ügynökök bevezetése és működtetése, különösen, amikor ezek összetett irányítási rendszereket igényelnek...

szerda 14:01

Az új Gemini: csevegőtársból igazi kolléga lett?

🤖 A Gemini hamarosan túlléphet a hagyományos csevegőfunkción: a legújabb fejlesztésekkel képes lehet komplex munkafolyamatok kezelésére, amelyek eddig csak emberi közreműködést igényeltek...