
Óriási előrelépés a kódírásban és problémamegoldásban
A Sonnet 4.5 immár minden fejlesztő számára elérhető, legyen szó az API-n keresztüli hozzáférésről vagy saját fejlesztésű MI-kódoló ügynökök építéséről. Az Anthropic magabiztosan állítja: jelenleg ez a világ legjobb kódolásra optimalizált MI-je. A modell kifejezetten erős összetett ügynökök építésében, a számítógépek kezelésében, valamint logikai és matematikai feladatokban is folyamatosan fejlődik.
Ezt nemcsak saját hangzatos kijelentéseikkel, hanem mérésekkel is alátámasztják: a Sonnet 4.5 például a HumanEval mércén 77,2%-os eredményt ért el, míg a valós kódolási hatékonyságot mérő Coding Efficiency Skill (CES) teszten 61,4%-kal vezet – mindkettő meghaladja az OpenAI Codexét (74,5%) és a Google Gemini 2.5 Pro (Gemini 2.5 Pro) 67,2%-át. A matematikai teszteken, valamint 14 idegen nyelvi ismereti próbán ugyancsak jelentős fejlődést mutat. A pénzügyi elemzői feladatokra való alkalmasságát a FinEval-teszten elért 92%-os eredmény igazolja, ami már-már a kezdő szintű elemzőket is meghaladja.
Komoly újítások: fejlesztőbarát kiegészítők és böngészési képességek
A Sonnet 4.5 bevezetésével párhuzamosan az Anthropic több új fejlesztést is bemutatott. A Claude Code parancssoros fejlesztői ügynök már képes megszakítás nélküli munkavégzésre, checkpointokat alkalmaz, így a fejlesztők bármikor visszaléphetnek korábbi állapotokhoz, ráadásul új Visual Studio Code kiterjesztést is kaptak. Az MI mostantól magán a webes vagy alkalmazásfelületen belül is képes kódot futtatni, fájlokat létrehozni, valamint táblázatokat és prezentációkat generálni.
Mindezek dacára a legtöbb MI-modellnél alapvető gond, hogy a teszteredmények könnyen manipulálhatók, vagy az adathalmaz szennyeződhet, vagyis a modell korábban már találkozott a megoldásokkal. Épp ezért érdemes megőrizni az óvatosságot minden benchmark önálló értékelésekor. Ebből kifolyólag még a szkeptikusok is elismerik: a 4.5-ös verzió komoly előrelépés a 4.0-hoz képest.
Gyors fejlődés, növekvő elvárások
Az MI-fejlesztők minden új iterációt igyekeznek programozói próbáknak alávetni, mert bár a kódolásban hatalmas ugrást hoztak, más területeken (például a kreatív szövegírásban vagy társalgásban) objektív mérést sokkal nehezebb végezni. Ennek ellenére a felhasználók továbbra is széles körben alkalmazzák a Claude-ot általános asszisztensként.
Az árak változatlanok: egymillió input token feldolgozása 1100 Ft, egymillió output tokené pedig 5400 Ft – tehát a legújabb tudás bárki számára könnyedén hozzáférhető.
Biztonság és hitelesség: új iránytű az MI-asszisztensek között
A Sonnet 4.5 fejlesztése során az Anthropic jelentősen csökkentette az úgynevezett „szervilizmus”, a megtévesztés, önhatalmúság és téves illúziógerjesztés veszélyét. Fontos szempont, hogy a modell jelek szerint kevésbé hajlamos mindenáron bólogatni a felhasználó ötleteire, különösen akkor, ha azok hibásak vagy kifejezetten kockázatosak.
Simon Willison veterán fejlesztő is elismerően fogalmazott blogján: szerinte a Sonnet 4.5 szebb, gyorsabb, okosabb kódszerkesztő, és jelenleg túlteljesíti a piac többi szereplőjét – igaz, a MI-k világában sosem lehet tudni, meddig tart ez a dominancia.
Ezért az Anthropic újdonsága nem csupán újabb fejlesztői segédeszköz: biztonságosabb, pontosabb partnerré válhat minden felhasználó számára – és ez a digitális világban valóban nagy szó.