Claude Sonnet 4.5, az új mesterséges intelligencia felforgatja a programozást

Claude Sonnet 4.5, az új mesterséges intelligencia felforgatja a programozást
Napjaink MI-versenyének új üdvöskéje, az Anthropic által fejlesztett Claude Sonnet 4.5 máris rekordokat dönt: a vállalat szerint ez a valaha volt legfejlettebb modelljük, amely akár 30 órán keresztül is képes kitartóan összpontosítani összetett, több lépcsős feladatokra. Lényeges szempont, hogy mindezt teljesítményromlás nélkül tudja véghezvinni, miközben korábban az ilyen típusú MI-k rendre elvesztették a fonalat, ahogy az apró hibák fokozatosan felszaporodtak, vagy amikor megtelt a kontextusablak, amely a rövid távú memóriát biztosítja.

Óriási előrelépés a kódírásban és problémamegoldásban

A Sonnet 4.5 immár minden fejlesztő számára elérhető, legyen szó az API-n keresztüli hozzáférésről vagy saját fejlesztésű MI-kódoló ügynökök építéséről. Az Anthropic magabiztosan állítja: jelenleg ez a világ legjobb kódolásra optimalizált MI-je. A modell kifejezetten erős összetett ügynökök építésében, a számítógépek kezelésében, valamint logikai és matematikai feladatokban is folyamatosan fejlődik.

Ezt nemcsak saját hangzatos kijelentéseikkel, hanem mérésekkel is alátámasztják: a Sonnet 4.5 például a HumanEval mércén 77,2%-os eredményt ért el, míg a valós kódolási hatékonyságot mérő Coding Efficiency Skill (CES) teszten 61,4%-kal vezet – mindkettő meghaladja az OpenAI Codexét (74,5%) és a Google Gemini 2.5 Pro (Gemini 2.5 Pro) 67,2%-át. A matematikai teszteken, valamint 14 idegen nyelvi ismereti próbán ugyancsak jelentős fejlődést mutat. A pénzügyi elemzői feladatokra való alkalmasságát a FinEval-teszten elért 92%-os eredmény igazolja, ami már-már a kezdő szintű elemzőket is meghaladja.

Komoly újítások: fejlesztőbarát kiegészítők és böngészési képességek

A Sonnet 4.5 bevezetésével párhuzamosan az Anthropic több új fejlesztést is bemutatott. A Claude Code parancssoros fejlesztői ügynök már képes megszakítás nélküli munkavégzésre, checkpointokat alkalmaz, így a fejlesztők bármikor visszaléphetnek korábbi állapotokhoz, ráadásul új Visual Studio Code kiterjesztést is kaptak. Az MI mostantól magán a webes vagy alkalmazásfelületen belül is képes kódot futtatni, fájlokat létrehozni, valamint táblázatokat és prezentációkat generálni.

Mindezek dacára a legtöbb MI-modellnél alapvető gond, hogy a teszteredmények könnyen manipulálhatók, vagy az adathalmaz szennyeződhet, vagyis a modell korábban már találkozott a megoldásokkal. Épp ezért érdemes megőrizni az óvatosságot minden benchmark önálló értékelésekor. Ebből kifolyólag még a szkeptikusok is elismerik: a 4.5-ös verzió komoly előrelépés a 4.0-hoz képest.

Gyors fejlődés, növekvő elvárások

Az MI-fejlesztők minden új iterációt igyekeznek programozói próbáknak alávetni, mert bár a kódolásban hatalmas ugrást hoztak, más területeken (például a kreatív szövegírásban vagy társalgásban) objektív mérést sokkal nehezebb végezni. Ennek ellenére a felhasználók továbbra is széles körben alkalmazzák a Claude-ot általános asszisztensként.

Az árak változatlanok: egymillió input token feldolgozása 1100 Ft, egymillió output tokené pedig 5400 Ft – tehát a legújabb tudás bárki számára könnyedén hozzáférhető.


Biztonság és hitelesség: új iránytű az MI-asszisztensek között

A Sonnet 4.5 fejlesztése során az Anthropic jelentősen csökkentette az úgynevezett „szervilizmus”, a megtévesztés, önhatalmúság és téves illúziógerjesztés veszélyét. Fontos szempont, hogy a modell jelek szerint kevésbé hajlamos mindenáron bólogatni a felhasználó ötleteire, különösen akkor, ha azok hibásak vagy kifejezetten kockázatosak.

Simon Willison veterán fejlesztő is elismerően fogalmazott blogján: szerinte a Sonnet 4.5 szebb, gyorsabb, okosabb kódszerkesztő, és jelenleg túlteljesíti a piac többi szereplőjét – igaz, a MI-k világában sosem lehet tudni, meddig tart ez a dominancia.

Ezért az Anthropic újdonsága nem csupán újabb fejlesztői segédeszköz: biztonságosabb, pontosabb partnerré válhat minden felhasználó számára – és ez a digitális világban valóban nagy szó.

2025, adminboss, arstechnica.com alapján


Legfrissebb posztok

Kína klímavállalása, most tényleg érdemes figyelni
péntek 00:00

Kína klímavállalása, most tényleg érdemes figyelni

🌍 Különösen fontos hangsúlyozni, hogy amikor Kína klímacélokat tűz ki, arra a világnak érdemes odafigyelnie. A pekingi vezetés ugyanis általában csak olyasmit ígér meg, amit valóban szándékában áll teljesíteni,...

MA 23:30

Az MI-vezérelt műholdas net mostantól mindenhol elérhető

A T-Mobile T-Satellite szolgáltatása, amely a Starlink műholdakat használja, már nemcsak SMS-ekhez működik, hanem több alkalmazást is támogat. Mostantól például az AllTrails, az AccuWeather, az X (korábban Twitter),...

Új felfedezések az Enceladuson, lehet ott élet a Szaturnusz holdján
MA 23:02

Új felfedezések az Enceladuson, lehet ott élet a Szaturnusz holdján

🚀 A Szaturnusz jeges holdja, az Enceladus ismét felkeltette a tudósok figyelmét, köszönhetően a Cassini űrszonda adatainak friss elemzéséhez. A felszín alatt rejtőző óceánból feltörő jégszemcsékben szokatlanul összetett szerves...

MA 22:58

Az MI tuning új korszaka: bárki finomhangolhatja a gépi tanulást

A Thinking Machines Lab, amelyet az OpenAI egykori vezéralakjai, köztük Mira Murati alapítottak, első termékével robban be az MI világába. Az újdonság neve Tinker, és célja, hogy kutatók,...

Az OpenShift AI-t bárki feltörheti: komoly hiba veszélyeztet
MA 22:01

Az OpenShift AI-t bárki feltörheti: komoly hiba veszélyeztet

⚠ A Red Hat OpenShift AI szolgáltatásában súlyos, 9,9-es veszélyességű sebezhetőséget fedeztek fel, amely lehetőséget ad távoli támadóknak arra, hogy minimális jogosultsággal is átvegyék az egész platform irányítását. Ez...

Az MI-sokkoló: A robotok még nem vették el a munkádat
MA 21:59

Az MI-sokkoló: A robotok még nem vették el a munkádat

🤖 A Yale Egyetem közgazdászai alaposan megvizsgálták, mi történt az amerikai munkaerőpiacon azóta, hogy 2022 novemberében megjelent a ChatGPT és a többi generatív MI-rendszer. Megnyugtató következtetésük szerint az MI-forradalom...

Az Apple elengedi a könnyebb Vision Pro-t, jönnek az okosszemüvegek
MA 21:30

Az Apple elengedi a könnyebb Vision Pro-t, jönnek az okosszemüvegek

Az Apple jelentősen felgyorsította az okosszemüvegek fejlesztését, miközben félretette a régóta tervezett, könnyebb Vision Pro headset elkészítését. A cég legalább kétféle szemüvegen dolgozik: az egyik egy kijelző nélküli...

Már most olcsóbban vehetünk robotporszívót, méghozzá jelentős kedvezménnyel
MA 21:02

Már most olcsóbban vehetünk robotporszívót, méghozzá jelentős kedvezménnyel

Az őszi nagy vásárlási láz még el sem kezdődött, de a robotporszívók piacán már most komoly akciókba futhat bele az, aki előre gondolkodik. Idén az olyan ismert gyártók,...

MA 21:01

A szaturnuszi hold izgalmas titka: újabb jelek az élet lehetőségére

Enceladus, a Szaturnusz hatodik legnagyobb holdja ismét a tudományos érdeklődés középpontjába került. A Cassini űrszonda (Cassini) 2017-ben befejeződött küldetése során fedezte fel, hogy a hold déli pólusán hatalmas...