Kína mesterséges intelligenciája, amelyet 110 millió forintból fejlesztettek

A DeepSeek R1 nevű nagyméretű nyelvi modell (LLM) óriási visszhangot keltett, amikor 2024 januárjában elérhetővé vált, és új irányt mutatott a mesterséges intelligencia fejlesztésében. Az egyik legfontosabb újdonsága, hogy fejlesztése során nem más, rivális MI modellek kimeneteire támaszkodott, hanem saját, önálló tanulási stratégiával épült fel. A Hangzhou-ban működő DeepSeek startup úttörőként vállalta, hogy elsőként publikálja szakmailag lektorált tanulmányban az R1 alapjait, valamint azt is, mennyi pénzből építették fel ezt a piacrengető eszközt. Érdemes kiemelni, hogy az MI-közösség platformján, a Hugging Face-en eddig már 10,9 millióan töltötték le az R1-et, és ezzel messze a legnépszerűbb nyílt súlyú modell lett.

Jóval olcsóbban hozták ki, mint az amerikai versenytársak

A DeepSeek R1 tréningköltsége mindössze 294 ezer dollár (kb. 110 millió forint) volt, miközben a hasonló modellek fejlesztése az USA-ban több milliárd forintot is felemészt. Bár a bázismodell fejlesztése 2,2 milliárd forintba került, a teljes összeg így is csak töredéke például az OpenAI vagy a Google költségvetésének. Az amerikai exportkorlátozások miatt ugyan az újabb Nvidia H800 chipeket már nem vásárolhatták meg Kínában, de a DeepSeek ezek nélkül is eredményesen tudta végigvinni a fejlesztési fázist.

A szakmai lektorálás új korszakot hozhat

Az R1 az első, széles körben ismert nyelvi modell, amely átment a tudományos szakmai lektorálás szigorú folyamatán. Ez különösen jelentős lépés, hiszen ilyen transzparencia mellett jobban értékelhetők az MI-kockázatok, és a fejlesztők felelőssége is világosabb. A szakmai kritikákra reagálva a DeepSeek csökkentette a modell emberszerűsítő kifejezéseinek használatát, pontosabban definiálta, milyen adatokat használtak fel, és kiemelten ügyelt a biztonsági szempontokra.

Forradalmi tanítási módszer és önálló gondolkodás

A DeepSeek legnagyobb újítása, hogy “tiszta megerősítéses tanulást” (pure reinforcement learning) alkalmaz. Itt a modell kísérletezve, jutalomértékek alapján, önállóan alakította ki a helyes következtetési sémákat az ember által kijelölt példák követése helyett. Saját megoldásait maga pontozta, külön algoritmus nélkül, a csoportos relatív politika-optimalizálás módszerével. Azóta sok versenytárs MI-fejlesztés is átvette ezt a hozzáállást.

Vita a tréningadatokról, de tiszta a lelkiismeret

Felmerült, hogy esetleg az OpenAI modelljeinek kimeneteit is felhasználták az R1 tanításához, de a DeepSeek kutatói ezt cáfolták a lektorálás során. Úgy nyilatkoztak, hogy csak annyira használtak MI-generált tartalmat, mint bármely más webes adatot – vagyis minimálisra szorították az ilyen típusú információk befolyását. Az MI-közösség visszajelzései alapján a DeepSeek módszere önmagában is elég hatékony a kimagasló teljesítményhez.

Jövőformáló hatás

Mindezt figyelembe véve a DeepSeek R1 a kutatók szerint nemcsak versenyképes, hanem új korszakot is teremt a matematika, programozás és más tudományos feladatok MI-alapú automatizálásában. Több laborban már dolgoznak azon, hogy a DeepSeek tanítási technikáit más nyelvi modellek képességeinek fejlesztésére is felhasználják – és könnyen lehet, hogy épp ez indít el egy új MI-forradalmat.

2025, adminboss, www.scientificamerican.com alapján