2025. 02. 28., 13:29

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!

Újfajta nyelvi mesterséges intelligencia: induljunk ki a zajból!
Az Inception Labs csütörtökön mutatta be új AI nyelvi modelljét, amely diffúziós technikákat használ a szövegek hagyományos modellekhez képest gyorsabb létrehozására. Míg a hagyományos modellek szóról szóra építik fel a szöveget, a Mercury-hez hasonló diffúziós alapú modellek teljes válaszokat generálnak egyszerre, egy kezdetben maszkolt állapotból finomítva azokat összefüggő szöveggé. Ez jelentős előrelépést jelent az AI-alapú szöveggenerálás területén, ahol a sebesség kritikus tényező lehet a gyakorlati alkalmazások során.

Hagyományos vs. diffúziós modellek: Az új megközelítés

A hagyományos nagy nyelvi modellek balról jobbra építik a szöveget, egyszerre csak egy tokent (szövegegységet) feldolgozva. Az “autoregresszió” nevű technikát használják, ahol minden szónak meg kell várnia az összes előző szót, mielőtt megjelenne. A képgenerálási modellektől inspirálva, a szöveg diffúziós nyelvi modellek, mint a LLaDA (amelyet a Renmin Egyetem és az Ant Group kutatói fejlesztettek) és a Mercury maszkolás-alapú megközelítést használnak. Ezek a modellek teljesen elzajosított tartalommal kezdenek, és fokozatosan “zajtalanítják” a kimenetet, így egyidejűleg fedik fel a válasz minden részét, nem pedig sorban.

Míg a kép diffúziós modellek folyamatos zajt adnak a pixelértékekhez, a szöveg diffúziós modellek nem tudnak folyamatos zajt alkalmazni a diszkrét tokenekre (szövegadatok darabjaira). Ehelyett speciális maszk tokenekkel helyettesítik őket, ami a szöveges megfelelője a zajnak. A LLaDA esetében a maszkolási valószínűség szabályozza a zaj szintjét, ahol a magas maszkolás magas zajt, az alacsony maszkolás pedig alacsony zajt jelent. A diffúziós folyamat a magas zajtól az alacsony zaj felé halad. Bár a LLaDA ezt maszkolási terminológiával írja le, a Mercury pedig zajterminológiát használ, mindkettő hasonló koncepciót alkalmaz a szöveggenerálásra, amely a diffúzióban gyökerezik.

Hogyan készülnek a szöveg diffúziós modellek?

A képszintézis-modellek létrehozásához hasonlóan a kutatók úgy építik fel a szöveg diffúziós modelleket, hogy neurális hálózatot tanítanak részlegesen elhomályosított adatokon, a modellel megjósoltatják a legvalószínűbb befejezést, majd összehasonlítják az eredményeket a tényleges válasszal. Ha a modell helyesen válaszol, a neurális hálózat azon kapcsolatai, amelyek a helyes válaszhoz vezettek, megerősödnek. Elegendő példa után a modell olyan kimeneteket tud generálni, amelyek elég valószerűek ahhoz, hogy hasznosak legyenek például programozási feladatokhoz.

Az Inception Labs szerint megközelítésük lehetővé teszi a modell számára, hogy finomítsa a kimeneteket és kezelje a hibákat, mivel nem korlátozódik csak a korábban generált szöveg figyelembevételére. Ez a párhuzamos feldolgozás teszi lehetővé a Mercury állítólagos 1000+ token/másodperces generálási sebességét.

Teljesítmény és sebesség: Lenyűgöző számok

Ezek a diffúziós modellek gyorsabban vagy hasonlóan teljesítenek a hasonló méretű hagyományos modellekhez képest. A LLaDA kutatói szerint 8 milliárd paraméteres modelljük a GPT-3-hoz hasonlóan teljesít különféle teljesítménymérések során, versenyképes eredményekkel olyan feladatokban, mint az MMLU, ARC és GSM8K.

Ugyanakkor, a Mercury drámai sebességnövekedést mutat. Mercury Coder Mini modelljük 88,0 százalékot ér el a HumanEval-on és 77,1 százalékot az MBPP-n – a GPT-4o-hoz hasonlóan –, miközben állítólag 1109 token/másodperc sebességgel működik, szemben a GPT-4o Mini 59 token/másodperces sebességével. Ez körülbelül 19-szeres sebességelőnyt jelent a GPT-4o Mini-vel szemben, miközben hasonló teljesítményt nyújt a kódolási teljesítményméréseken.

A Mercury dokumentációja szerint modelljei “több mint 1000 token/másodperces sebességgel futnak Nvidia H100-asokon, ami korábban csak egyedi chipekkel” volt lehetséges olyan specializált hardvergyártóktól, mint a Groq, a Cerebras és a SambaNova. Más sebességre optimalizált modellekkel összehasonlítva a feltételezett előny továbbra is jelentős – a Mercury Coder Mini állítólag körülbelül 5,5-ször gyorsabb, mint a Gemini 2.0 Flash-Lite (201 token/másodperc) és 18-szor gyorsabb, mint a Claude 3.5 Haiku (61 token/másodperc).


Új határok a nagy nyelvi modellek világában

A diffúziós modellek azonban néhányújabb kompromisszumra kényszerülnek . Általában több előremeneteli áthaladást (feldolgozási ciklust) igényelnek a hálózaton keresztül egy teljes válasz generálásához, szemben a hagyományos modellekkel, amelyeknek csak egy menet szükséges tokenenként. Mivel azonban a diffúziós modellek párhuzamosan dolgozzák fel az összes tokent, ezen többletmunka ellenére is nagyobb áteresztőképességet érnek el.

Az Inception szerint a sebességelőny hatással lehet a kódkiegészítő eszközökre, ahol az azonnali válasz befolyásolhatja a fejlesztői termelékenységet, a társalgási AI alkalmazásokra, az erőforrás-korlátozott környezetekre, például a mobilalkalmazásokra, és az AI-ügynökökre, amelyeknek gyorsan kell reagálniuk.

Ha a diffúzió-alapú nyelvi modellek megőrzik a minőséget a sebesség javítása mellett, megváltoztathatják az AI szöveggenerálás fejlődését. Eddig az AI-kutatók nyitottak voltak az új megközelítésekre.

Néhány kérdés fennmarad

Továbbra is kérdéses, hogy a nagyobb diffúziós modellek képesek-e felvenni a versenyt olyan modellekkel, mint a GPT-4o és a Claude 3.7 Sonnet, megbízható eredményeket tudnak-e produkálni sok konfabuláció nélkül, és hogy a megközelítés képes-e kezelni az egyre összetettebb szimulált gondolkodási feladatokat. Egyelőre ezek a modellek alternatívát kínálhatnak a kisebb AI nyelvi modellek számára, amelyek nem áldozzák fel a képességet a sebesség érdekében.

  • Te hogyan értékeled az alternatív architektúrák kísérletezését a transzformereken túl?
  • Mit gondolsz, a diffúziós modellek milyen hatással lehetnek a jövőbeli AI fejlesztésekre?
  • Te hogy érzel az AI szöveggenerálás fejlődésével kapcsolatos gyors technológiai változásokról?


Legfrissebb posztok

MA 14:24

Az iOS 26.4 forradalmi? Mutatjuk, mi változik igazán

Már letölthető az iOS 26.4, amely az utóbbi idők talán legfontosabb frissítése az iPhone-ok számára...

MA 13:56

A Bitcoin-csúcsok varázsa megtört: közeleg a józan korszak

💸 A Bitcoin árfolyama mostanra visszatért korábbi csúcsértéke közelébe, ami jelentős változást jelez a piac viselkedésében...

MA 13:46

A ravasz trójai az egész internetet fenyegeti – te is érintett?

Felmerül a kérdés, hogy az internet egyik legalapvetőbb építőkockájában hogyan jelenhet meg egy komoly támadás, ráadásul úgy, hogy az érintett fejlesztők mindent a szabályok szerint csináltak...

MA 13:36

Az OpenClaw félmillió példánya szabadult el, vészleállító nélkül

💀 Az OpenClaw MI-asszisztens elterjedése elképesztő tempót diktál – immár közel 500 ezer példány fut világszerte, komoly biztonsági fékek nélkül...

MA 13:23

Az önvezető taxik káoszt hoznak: újabb balesetek Vuhanban

🚗 Ez a jelenség jól illusztrálható azzal, hogy Vuhan városában több Apollo Go robotaxi váratlanul megállt a forgalom kellős közepén...

MA 13:12

A ChatGPT már CarPlayen fut, az Android Auto kimarad

🚗 Az iPhone-t használók a legújabb frissítés óta már a ChatGPT-vel beszélgethetnek az Apple CarPlay-en keresztül, így vezetés közben anélkül tehetnek fel kérdéseket a MI-nek, hogy a telefonjukat kézbe kellene venniük...

MA 13:02

Az új Slackbot harminc MI-trükkel forradalmasítja a munkahelyeket

🚀 2026 tavaszán a Slack történetének legnagyobb frissítését jelentette be. A Slackbot mostantól több mint harminc új MI-funkcióval segíti a munkát...

MA 12:56

Az új Google Drive automatikusan blokkolja a zsarolóvírus-támadásokat

🔒 A Google egy jelentős frissítéssel erősítette meg a Google Drive biztonságát: minden fizetős felhasználó számára alapértelmezetté vált az MI-alapú zsarolóvírus-felismerés...

MA 12:23

Az Egyesült Királyság bekeményít: új Microsoft-trükköket vizsgálnak

A brit Verseny- és Piacfelügyeleti Hatóság (CMA) 2026 májusától átfogó vizsgálatot indít a Microsoft szoftverei kapcsán, amelyek között ott van a Windows operációs rendszer, az Office alkalmazáscsomag és a Copilot MI-asszisztens is...

MA 12:00

A döbbenetes pillanat: egy Starlink-műhold önmegsemmisült az űrben

Valami szokatlan történt a SpaceX egyik Starlink-műholdjával: 560 km-rel a Föld felett elvesztette a kapcsolatot az irányítókkal, minden jel szerint egy belső, nagy energiájú esemény miatt, nem pedig ütközés következtében...

MA 11:34

Az első HKD-stabilcoin-licencre még mindig vár Hongkong

Márciusban életbe lépett volna Hongkong vadonatúj szabályozása, amely a hongkongi dollárhoz kötött stabilcoin-kibocsátókat engedélyezné...

MA 11:23

Az eltűnt net: tényleg hoppon maradnak a Google Fi-ügyfelek?

Na most kapaszkodj, mert egész sor Google Fi-előfizető kapott hidegzuhanyt: a mobilnet egy csapásra megszűnt, mintha a SIM-kártyájuk eltűnt volna a semmibe...

MA 11:13

Az MI strukturált kérdései átírják a kódellenőrzés szabályait

🤖 Első pillantásra úgy tűnt, hogy a mesterségesintelligencia-ügynökökkel végzett kódellenőrzés szinte megoldhatatlan probléma: minden egyes kódtárhoz költséges és bonyolult szimulált futtatási környezetet (sandboxot) kell felépíteni, emiatt folyamatosan nőnek az infrastrukturális terhek...

MA 11:03

A sarkvidék váratlan mellékhatása: tisztább lett Kína levegője

Kína a közelmúltban drasztikusan csökkentette a légszennyezést okozó aeroszol-kibocsátását. Ez a lépés nemcsak hazai szinten hozott látványos változásokat, hanem egészen a sarkvidékig hullámzott tovább, meglepő következményeket okozva...

MA 11:00

Eltűnt az ázsiai szmog, mégis veszélyben az északi-sarki jég

Kína az elmúlt évtizedben radikális lépéseket tett a légszennyezés visszaszorítása érdekében, ennek nyomán azonban meglepő hatások jelentek meg az Északi-sarkvidéken...

MA 10:50

Az év munkahelyi élménye: most ingyen kipróbálhatod a tech support poklát

Ha szeretnél nevetve (vagy épp rettegve) próbára tenni a barátságodat valakivel, itt egy új játék, ami garantáltan kizökkent a komfortzónádból...

MA 10:01

A hatalmas Anthropic-baki: kiszivárgott a Claude Code titka

Képzeld el: 500 ezer sornyi kód, majdnem 2 ezer fájl, és mindez csak úgy kikerült egy szimpla reggelen – mintha valaki véletlenül feltenné a titkos naplóját az Insta-sztorijába!..

MA 09:50

Az Anthropicnál véletlenül kikerült a Claude Code forráskódja

Az Anthropic nagy hibát követett el: a nyílt forráskód iránti elköteleződésük ellenére a Claude Code eddig szigorúan zárt forrású volt, ám egy mai frissítés során véletlenül elérhetővé vált a teljes belső programkód...

MA 09:43

Az új WhatsApp-trükk, amivel megszerzik az irányítást a géped fölött

A napokban egyre több olyan WhatsApp-üzenet terjed, amely mögött veszélyes támadássorozat áll...

MA 09:38

A 11 Apple-szlogen, amelyek fél évszázadra pecsétet ütöttek

🖊 Érdemes megvizsgálni, hogy egyetlen vállalat hogyan képes formálni a digitális korszakot – nemcsak eszközeivel, hanem a róluk szóló mondatokkal is...

MA 09:29

A régi Gmail-címedet végre lecserélheted

Első pillantásra úgy tűnt, hogy a Gmail-cím örökre kísér, de hosszú évek várakozása után most már lehetőség van a felhasználónév megváltoztatására...

MA 09:22

Az Aluminium OS kiszivárgott háttérképei: ragyogás, álmok és vagány laptopos újdonságok

Neonzöld, magenta, narancs, és olyan absztrakt cuccok, hogy attól is beindulsz, ha a géped csak az asztalon áll...

MA 09:16

Az amerikai hadsereg célkeresztjében a Hold

🌔 A NASA nagyszabású Hold-programja, az Artemis II új fejezetet nyit az űrutazás történetében...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 4/1

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

MA 09:08

Itt a lehetőség: lecserélheted a ciki Gmail-címedet!

👤 Eljött az idő: 22 év várakozás után a Gmail végre lehetőséget ad arra, hogy megváltoztasd a régóta nyögvenyelős e-mail címedet anélkül, hogy emiatt elveszítenéd a leveleidet, vagy teljesen új fiókot kellene nyitnod...

MA 09:01

A Nagy-Sóstó mélyén rejtőzik az óriási édesvízkincs titka

🌊 Utah állam legendás Nagy-Sóstója csak sósvízi óriásként ismert, de most kiderült, hogy jóval többet rejt: mélyen a tó feneke alatt a friss kutatások szerint hatalmas édesvízkészlet húzódhat...

MA 08:57

Az új Proton Meet: videóhívás, ahol a titok titok marad

🔐 A Proton bemutatta legújabb videokonferencia-platformját, a Meetet, amelyet kifejezetten a magánszféra védelmére fejlesztett ki...

MA 08:50

Az MI célkeresztjében a Bitcoin – közeleg az új kriptóláz

A Google legfrissebb kutatása szerint már egy 500 000 kvantumbittel (qubittel) rendelkező kvantumszámítógép képes lehet feltörni a Bitcoin elliptikus görbékre épülő titkosítását – ehhez korábban jóval nagyobb értéket becsültek a szakértők...

MA 08:43

Az iráni kibertámadások új hulláma tarolja le a közel-keleti önkormányzatokat

💥 Feltételezhetően iráni hackercsoportok százával támadják a közel-keleti önkormányzatok Microsoft 365-fiókjait gyenge jelszavak tömeges próbálgatásával...