Egy hiba miatt világszerte leállt az Amazon

Egy hiba miatt világszerte leállt az Amazon
Egyetlen szoftverhiba indította el azt a hatalmas üzemzavart, amely megbénította az Amazon Web Services (AWS) hálózatát, világszerte milliókat érintve. A több mint 15 órán át tartó leállás alatt a Downdetector szolgáltatásnál 17 millió hibajelzést regisztráltak, több mint 3 500 vállalat szolgáltatásai váltak elérhetetlenné. A legtöbb bejelentés az Egyesült Államokból, az Egyesült Királyságból és Németországból érkezett; a leginkább érintett alkalmazások a Snapchat, az AWS és a Roblox voltak. Különösen fontos kiemelni, hogy ez az eset a Downdetector történetének egyik legnagyobb internetes leállása közé tartozik.

Mi történt a háttérben?

A gyökérok az AWS DynamoDB DNS-menedzsment rendszerében fellépő szoftverhiba, úgynevezett versenyhelyzet (race condition) volt. Ez a rendszer többek között azzal foglalkozik, hogy időszakonként DNS-konfigurációkat állít elő a hálózaton belüli végpontok számára, ezzel biztosítva a terheléselosztók stabilitását. Ebben a helyzetben két folyamat időzítése ütközött: amint a második folyamat befejezte a legújabb konfiguráció alkalmazását, elindította a korábbi, elavult tervek törlését. Közben az első folyamat – bár jelentős késéssel – mégis lefuttatta egy régi terv érvényesítését, ami felülírta a frissebbet. Az ellenőrzés, amely elvileg kiszűrte volna az elavult terv alkalmazását, ekkorra a késés miatt már hatástalanná vált. Ez a láncolat ahhoz vezetett, hogy minden IP-cím eltűnt a regionális végpontról, a rendszer pedig inkonzisztens állapotba került, amit már csak manuális beavatkozással lehetett helyreállítani.

Mi volt a hiba következménye?

Az AWS us-east-1 régiójában a DynamoDB-re támaszkodó szolgáltatások nem tudtak kapcsolódni: ez nemcsak az ügyfeleket, hanem a cég belső rendszereit is érintette. Mindezek dacára a DynamoDB helyreállítása után is jelentős hálózati torlódás jelentkezett: az EC2 virtuális gépszolgáltatás új példányai ugyan elindultak, de a hálózati állapotok terjedésének késése miatt nem csatlakoztak megfelelően. Ez a torlódás továbbgyűrűzött az AWS terheléselosztóira, ami további kapcsolódási hibákat okozott. Olyan kulcsfontosságú szolgáltatások is érintettek voltak, mint a Redshift, a Lambda, a Fargate vagy az AWS Support Center.

Mi a tanulság?

Különösen fontos kiemelni, hogy a rendelkezésre álló infrastruktúra jelentős része az AWS us-east-1 régióban összpontosul. Ez a régió történelmileg a legrégebben működő, egyben a legnagyobb terhelést viselő csomópont. Mivel az alkalmazások világszerte gyakran ide irányítják az azonosítási, állapot- vagy metaadat-forgalmukat, egy regionális hiba globális problémákhoz vezethet. A jelen helyzet arról is tanúskodik, hogy a DNS megbízható feloldása kritikus fontosságú, hiánya pedig dominószerű hibákat okoz a láncolt szolgáltatásokban. Ebből az következik, hogy nem elsősorban a hibák teljes kizárása a cél, hanem a kritikus egyeduralkodó pontok felszámolása, a régiók közötti redundancia bevezetése és a felkészültség növelése elengedhetetlen a felhőszolgáltatások jövőjében.

2025, adminboss, arstechnica.com alapján


Legfrissebb posztok

MA 10:01

Új korszak kezdődik a WhatsAppnál, csak a Meta MI marad

🚀 Jövő januártól a WhatsApp minden rivális, általános célú MI-chatbotot – köztük a ChatGPT-t és a Perplexityt – kitilt a platformról...



MA 09:57

Az orosz télnél is halálosabb betegségek tizedelték meg Napóleon seregét

🔫 1812-ben Napóleon hatalmas sereggel – mintegy 500 000 katonával – rohanta meg Oroszországot...

MA 09:49

Az Apple-re milliárdos büntetés vár a brit App Store-ügyben

💸 Az Apple akár 690 milliárd forintot is fizethet azt követően, hogy elveszítette a brit versenyjogi pert, amelyben azzal vádolták, hogy a zárt App Store-rendszerével túlárazta szolgáltatásait a fejlesztők és a felhasználók kárára...

MA 09:42

Az újabb madárinfluenza-hullám komoly veszélyt jelent

Az idei nyáron szinte eltűntnek hitt madárinfluenza újra visszatért az Egyesült Államokba, és ez nemcsak a szárnyasokat, hanem a tejhasznú szarvasmarhákat is érinti...



MA 09:32

Az Apple texasi MI-szervereket kezd szállítani: tényleg amerikai?

Az Apple elindította első, Texasban gyártott MI-szervereinek szállítását, amelyek a vállalat Apple Intelligence és Private Cloud Compute szolgáltatásait hajtják majd...



MA 09:25

A Tesla új „Őrült Max” üzemmódja bajba sodorhatja a sofőröket

A Tesla legutóbbi szoftverfrissítése két új vezetési üzemmódot hozott az évek óta vitatott teljesen önvezető (FSD, full self-driving) rendszerhez...

MA 09:17

Kik azok az MI-natív munkavállalók, és miért van rájuk ekkora szükség?

🤓 Az utóbbi hetekben a Meta jelentős létszámleépítéseket jelentett be: elsősorban azokat érinti, akik MI-termékeken, kutatáson vagy infrastruktúrán dolgoztak...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 10/25

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Online Piano Atlas (iPhone/iPad)Az OPA, az első és egyetlen Online Zongora Atlasz, lehetővé teszi, hogy könnyedén megtudd hangszered korát és származási helyét, legyen szó bármilyen típusú zongoráról...



MA 09:09

Az elavult WordPress-bővítmények miatt támadás alatt a weboldalak

🔴 Tömeges hackertámadások érik a WordPress-oldalakat, amelyek elavult GutenKit és Hunk Companion bővítményeket használnak...



MA 09:01

Az MI most tényleg lenyomja a szuperszámítógépeket?

A Google Quantum MI kutatói újabb áttörést jelentettek be: Willow nevű kvantumprocesszoruk egy fizikai problémát több ezerszer gyorsabban oldott meg, mint a világ legerősebb hagyományos szuperszámítógépei...



MA 08:56

Az áramsokkot most már tényleg a nap és a szél bírja Texasban

Texasban 2025-ben soha nem látott magasságba ugrott az áramigény, de a megújuló energiák sikerrel vették az akadályt...

MA 08:49

Az MI új arcát mutatja, a Microsoft Mico veszélyes barátságokat hozhat

A Microsoft egy új, animált avatarral bővíti a Copilot MI-t, amely a Mico nevet kapta...



MA 08:40

Az Instagramon végre visszanézheted a korábban látott Reelseket

Nem kell többé bosszankodnod, ha véletlenül elnavigálsz egy jópofa vagy érdekes Reels-videóról az Instagramon...



MA 08:33

Az MI-őrület menti meg az USA gazdaságát?

🧐 Az MI-fejlesztésekbe áramló pénz az egyetlen, ami jelenleg megóvja az Egyesült Államokat a recessziótól...

MA 08:25

Újabb YouTube-csalások: több ezer videó terjesztett kártékony szoftvert

🔴 YouTube 3 000 olyan videót távolított el, amelyek játékokhoz kínált csalásokat, valamint feltört vagy kalóz szoftvereket ígértek, valójában azonban káros programokat terjesztettek...

MA 08:17

Visszahívnak több tojást, szalmonellafertőzés veszélye miatt

🥚 Az amerikai Élelmiszer- és Gyógyszerügyi Hatóság (FDA) arra figyelmeztet, hogy senki ne egyen a visszahívott tojásokból, mivel Salmonella-fertőzéssel szennyeződhettek...

MA 08:11

Feléledhetnek a neandervölgyiek, visszatérhetnek húsz éven belül

Az emberiség több tízezer éve mondott búcsút a neandervölgyieknek, ám a genetika fejlődése új távlatokat nyitott: elméletben húsz éven belül létrehozható lenne egy neandervölgyi klón...



MA 08:00

Az arcfelismerés már a kisgyerekeket is ellenőrzi az amerikai határon

Az Egyesült Államok új szabályozást vezet be, amely jelentősen kiterjeszti az arcfelismerő rendszerek használatát a határátkelőkön...



MA 07:57

Újabb Windows Server-baki: a WSUS már támadások célpontja

A Windows Server Update Services (WSUS) kritikus sérülékenységét már aktívan kihasználják támadók, és a hiba kihasználásához szükséges kód is szabadon elérhető az interneten...