Az új Claude Opus 4.1: Most tényleg tud a MI programozni?
A Claude Opus 4.1 minden fizetős felhasználó és fejlesztő számára elérhetővé vált, változatlan áron, immár az Amazon Bedrock, a Google Cloud Vertex AI rendszerében és a Claude Code felületén is. Az új verzió jelentős előrelépést hozott a MI-alapú kódolásban és adatfeldolgozásban: az Opus 4.1 már 74,5%-os pontossággal teljesíti a vezető programozási felméréseket. Ezzel a MI minden eddiginél jobb részletezőképességet és kutatási teljesítményt mutat, különösen az adatkeresés, hibajavítás és elemzés területén.
Kiemelkedő fejlődés a hibajavításban
A GitHub szerint szinte minden területen jobb lett az új Claude verzió, főleg, ha több fájlból álló programkódot kell átdolgozni. A Rakuten Group fejlesztőcsapatának tapasztalatai alapján az Opus 4.1 már képes pontos hibákat kiszúrni hatalmas kódbázisban anélkül, hogy felesleges módosításokat vezetne be, vagy új hibákat generálna – így napi szintű hibajavításra is legszívesebben ezt választanák. A Windsurf tesztjein, a kezdő fejlesztői szintet vizsgáló benchmarkon, egy teljes szórásnyit javult az Opus 4-hez képest, éppen akkora ugrást jelentve, mint amit korábban a Sonnet 3.7-ről a Sonnet 4-re váltás hozott.
Új mérési módszerek, részletes tesztek
A fejlesztők különféle tesztekkel és benchmarkokkal ellenőrizték az Opus 4.1-et, többek között a TAU-bench és SWE-bench módszertant alkalmazva. Ezeknél a teszteknél a MI-t arra ösztönözték, hogy jegyzetelje le a gondolatait, miközben több lépésben oldja meg a feladatokat, akár egy problémára 100 gondolkodási lépést is engedve. Ennek eredményeként az Opus 4 család minden tagjánál jelentősen javult a problémamegoldás pontossága anélkül, hogy bonyolultabb programkiegészítő eszközökre lett volna szükség.
A készítők azt javasolják, hogy aki teheti, váltson Opus 4.1-re, hiszen minden területen mérhető eredménnyel dolgozik, legyen szó nagy kódbázisról vagy kutatási feladatokról. Az új változat használata egyszerű: az API-n keresztül már elérhető, a megszokott formában és áron. Az okos felhasználói visszajelzések továbbra is számítanak, hogy a közeljövőben még fejlettebb MI-modell születhessen.
Ha valaki több mint egy évtizede játszott a Rhythm Heavennel, valószínűleg sosem felejtette el azt a különös, szürreális világot, ahol dadogó pankrátorok és furcsa madarak ugrálnak egy lélekmelengető popdallamra...
A brit távközlési piac gigantikus átalakulása zajlik: az ország versenyhatósága kiemelt vizsgálatot indított annak kapcsán, hogy a Netomnia anyavállalatát, a Substantialt a Liberty Global, a Telefonica és az InfraVia konzorciuma felvásárolja...
Az Anthropic szerdától újra elérhetővé teszi a csúcskategóriás Claude Fable 5-öt, miután a Kereskedelmi Minisztérium feloldotta az exportkorlátozásokat...
Érdemes megvizsgálni, hogy a Claude Code felhasználói egyre gyakrabban panaszkodnak arra, hogy egyik napról a másikra eltűnnek a beszélgetési előzményeik...
Júliusban a Pokémon GO rajongóira izgalmas hónap vár, hiszen a mobileszközökön futó játék tizedik évfordulóját ünnepli, miközben a Forever Forward szezon tovább pörög...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. ImgRef (iPhone/iPad)Az App Store szerkesztői által kiemelten ajánlott alkalmazás lenyűgöző, 98%-os ötcsillagos értékeléssel büszkélkedhet...
❤ A hirtelen szívhalál évente rengeteg áldozatot követel, jóllehet a beültethető defibrillátorok már évtizedek óta képesek lennének megelőzni a tragédiák jelentős részét...
Michael Dell idén egészen elképesztő sikereket ér el: cége meghatározó beszállító lett az adatközpont-fejlesztésekben, többek között a CoreWeave és az xAI számára szállít Nvidia-alapú szervereket, rackeket, hűtőrendszereket, valamint támogatást, miközben együttműködik a Microsofttal, a Google-lel és az OpenAI-jal is nagy teljesítményű MI-rendszerek építésében...
💰 Egy észak-karolinai férfi több mint tíz év börtönt kapott, miután beismerte, hogy januárban Pokémon-kártyákat és pénzt lopott egy helyi videójátékbolt alkalmazottjától Wilmingtonban...
🍇 Idén június 29-én érdemes az eget figyelni: ekkor látható a júniusi telihold, más néven az Eperhold (Strawberry Moon), ami az év legalacsonyabban járó és egyik legkisebb teliholdja lesz...
A mexikói Metapában egy vadonatúj, 2043 négyzetméteres üzemben indult el az Egyesült Államok mezőgazdasági minisztériumának (USDA) legújabb programja: steril legyek tömeges előállítása...
⚡ A Microsoft az eddigieknél sokkal gyorsabban készül átállni a kvantumbiztos védelemre, mert a kvantumszámítógépek fejlődése minden korábbinál nagyobb fenyegetést jelent a jelenlegi titkosítási szabványokra...
Felmerül a kérdés, hogy mennyire bízhatunk meg a mesterséges intelligenciával hajtott böngészőkben, ha egy új támadás képes kijátszani a biztonsági korlátokat...
🔒 A Microsoft fejlesztéseinek köszönhetően mostantól jóval biztonságosabbak lesznek a Teams-megbeszélések, hiszen egy új szabályozás lehetővé teszi, hogy a felhasználók blokkolják az engedély nélküli, harmadik féltől származó botok csatlakozását...
A mesterséges intelligencia infrastruktúrája iránti fékezhetetlen igény egyre nagyobb mértékben fűti az inflációt – figyelmeztetett Beth Hammack, a clevelandi Szövetségi Tartalékbank elnöke...
⚠ A Samsung Messages alkalmazás hamarosan végleg eltűnik az amerikai felhasználók mobiljáról, így akinek fontosak a régi üzenetei, vagy továbbra is csevegni szeretne, érdemes minél előbb lépnie...
🔨 Felmerül a kérdés, hogy mi lenne, ha a betegségeket nem csupán a DNS szerkesztésével, hanem a gének működésének speciális beállításával lehetne kezelni?..
A Peacock Premium Plus már elérhető a YouTube Primetime Channels szolgáltatáson keresztül, így mostantól közvetlenül a YouTube alkalmazásban is előfizethetsz rá, és nézheted az összes tartalmat – legyen szó mobilról, tabletről vagy okostévéről...