Egy hiba miatt világszerte leállt az Amazon

Egy hiba miatt világszerte leállt az Amazon
Egyetlen szoftverhiba indította el azt a hatalmas üzemzavart, amely megbénította az Amazon Web Services (AWS) hálózatát, világszerte milliókat érintve. A több mint 15 órán át tartó leállás alatt a Downdetector szolgáltatásnál 17 millió hibajelzést regisztráltak, több mint 3 500 vállalat szolgáltatásai váltak elérhetetlenné. A legtöbb bejelentés az Egyesült Államokból, az Egyesült Királyságból és Németországból érkezett; a leginkább érintett alkalmazások a Snapchat, az AWS és a Roblox voltak. Különösen fontos kiemelni, hogy ez az eset a Downdetector történetének egyik legnagyobb internetes leállása közé tartozik.

Mi történt a háttérben?

A gyökérok az AWS DynamoDB DNS-menedzsment rendszerében fellépő szoftverhiba, úgynevezett versenyhelyzet (race condition) volt. Ez a rendszer többek között azzal foglalkozik, hogy időszakonként DNS-konfigurációkat állít elő a hálózaton belüli végpontok számára, ezzel biztosítva a terheléselosztók stabilitását. Ebben a helyzetben két folyamat időzítése ütközött: amint a második folyamat befejezte a legújabb konfiguráció alkalmazását, elindította a korábbi, elavult tervek törlését. Közben az első folyamat – bár jelentős késéssel – mégis lefuttatta egy régi terv érvényesítését, ami felülírta a frissebbet. Az ellenőrzés, amely elvileg kiszűrte volna az elavult terv alkalmazását, ekkorra a késés miatt már hatástalanná vált. Ez a láncolat ahhoz vezetett, hogy minden IP-cím eltűnt a regionális végpontról, a rendszer pedig inkonzisztens állapotba került, amit már csak manuális beavatkozással lehetett helyreállítani.

Mi volt a hiba következménye?

Az AWS us-east-1 régiójában a DynamoDB-re támaszkodó szolgáltatások nem tudtak kapcsolódni: ez nemcsak az ügyfeleket, hanem a cég belső rendszereit is érintette. Mindezek dacára a DynamoDB helyreállítása után is jelentős hálózati torlódás jelentkezett: az EC2 virtuális gépszolgáltatás új példányai ugyan elindultak, de a hálózati állapotok terjedésének késése miatt nem csatlakoztak megfelelően. Ez a torlódás továbbgyűrűzött az AWS terheléselosztóira, ami további kapcsolódási hibákat okozott. Olyan kulcsfontosságú szolgáltatások is érintettek voltak, mint a Redshift, a Lambda, a Fargate vagy az AWS Support Center.

Mi a tanulság?

Különösen fontos kiemelni, hogy a rendelkezésre álló infrastruktúra jelentős része az AWS us-east-1 régióban összpontosul. Ez a régió történelmileg a legrégebben működő, egyben a legnagyobb terhelést viselő csomópont. Mivel az alkalmazások világszerte gyakran ide irányítják az azonosítási, állapot- vagy metaadat-forgalmukat, egy regionális hiba globális problémákhoz vezethet. A jelen helyzet arról is tanúskodik, hogy a DNS megbízható feloldása kritikus fontosságú, hiánya pedig dominószerű hibákat okoz a láncolt szolgáltatásokban. Ebből az következik, hogy nem elsősorban a hibák teljes kizárása a cél, hanem a kritikus egyeduralkodó pontok felszámolása, a régiók közötti redundancia bevezetése és a felkészültség növelése elengedhetetlen a felhőszolgáltatások jövőjében.

2025, adminboss, arstechnica.com alapján


Legfrissebb posztok

MA 09:57

Az orosz télnél is halálosabb betegségek tizedelték meg Napóleon seregét

🔫 1812-ben Napóleon hatalmas sereggel – mintegy 500 000 katonával – rohanta meg Oroszországot...

MA 20:02

Meddig terjed az MI kreativitása, 9 izgalmas ChatGPT képgeneráló ötlet

2025 márciusában a ChatGPT minden ingyenes felhasználó számára elérhetővé tette a képgeneráló funkciókat, amellyel pillanatok alatt lehet saját képeket létrehozni vagy szerkeszteni...



MA 19:59

Egy jelszó csapdájában: a britek nagy része veszélyben

🔒 Milliók teszik ki magukat komoly veszélynek az Egyesült Királyságban, mivel ugyanazt a jelszót használják minden fiókjukhoz...



MA 19:30

Az állandó fájdalom visszaveti a gyerekek iskolai eredményeit

🙁 Az új kutatások szerint a krónikus fájdalommal élő gyerekek rosszabbul teljesítenek az iskolai sztenderdizált felméréseken, ráadásul több órát hiányoznak, és gyakrabban küzdenek szorongással, depresszióval...



MA 19:01

Az excimerlézer, ami végre elfér a hátizsákban

💼 Egy kutatócsoport áttörést ért el a kompakt excimerlézerek tervezésében: sikerült egy termosz méretű készüléket megalkotniuk, amely kiváló teljesítményre képes...



MA 19:00

Az óceánok vándorait veszélyezteti a klímaváltozás

Az éghajlatváltozás soha nem látott mértékben borítja fel a bálnák és a delfinek évezredek alatt finoman kialakult vándorlását, és veszélyezteti a tengeri emlősök túlélését...

MA 18:30

Az ólommérgezés lehetett a neandervölgyiek titkos fegyvere?

Az emberi faj és közeli rokonai már 2 millió éve ki vannak téve az ólom hatásainak, ám csak most derült fény arra, hogy ez a toxikus fém az evolúció egyik kulcsfontosságú tényezője lehetett...



MA 18:01

Most kiderül, tényleg jobb programozó az MI az embernél

A kaliforniai UC Berkeley számítógéptudósai olyan új MI-alapú algoritmusokat fejlesztettek, amelyek mélyen átalakíthatják a számítástechnikai rendszerek kutatását és optimalizálását...

MA 18:01

A Cloudflare automatikusan megállította az npm elleni támadást

2025 szeptemberének elején komoly támadás érte az egyik legnagyobb JavaScript-csomagtárat, az npm-et...

MA 17:30

Az európai rendőrök lebuktatták a 49 milliós átverőhálózatot

👮 Európai rendőri erők nagyszabású nemzetközi akcióval számoltak fel egy kiberbűnöző hálózatot, amely 49 millió hamis online fiókot hozott létre különféle közösségi és kommunikációs platformokon csalási célokra...

MA 17:02

A Waymo önvezető taxijai felkészültek a télre?

❄ A havas és jeges utak komoly kihívások elé állítják az önvezető autókat...

MA 16:31

Új módszerrel bárki hozzájuthat a legerősebb védelemhez

🔒 A COVID–19 vagy a Zika járványai megmutatták, mennyire nehéz lépést tartani a fertőző betegségek rohamos terjedésével...

MA 16:00

Az elkerülhetetlen vegyszermaradvány: mindenhova jut a permet

Európa tíz országában, 641 résztvevő bevonásával készült kutatás azt vizsgálta, hogyan éri az embereket peszticid- (növényvédőszer-) terhelés a mindennapokban...



MA 15:59

Az élet párban kezdődik? Miért csökken a gyerekvállalási kedv Japánban

👧 A japán társadalomban egyre kevesebben vállalnak gyereket, és ebben meghatározó szerepe van annak, hogy kinek van romantikus partnere...



MA 15:29

Az AMD-chipeken is működik az IBM kvantumhibajavítása

Az IBM áttörést ért el a kvantumszámítógépek hibajavításában: sikerült egy olyan algoritmust kifejleszteni, amely már meglévő, hagyományos AMD-chipeken is gond nélkül futtatható...



MA 15:01

Elég némi boldogság is ahhoz, hogy egészségesek maradjunk

Az elmúlt 15 év adatai szerint már egy viszonylag alacsony szintű boldogság is jelentősen csökkentheti a krónikus betegségek miatt bekövetkező korai halálozás esélyét...

MA 14:58

Az MI átírja a filmipart: Schrader új korszakot jósol

Paul Schrader, a Taxisofőr (Taxi Driver) és a Dühöngő bika (Raging Bull) legendás forgatókönyvírója és rendezője most teljes mellszélességgel kiáll a mesterséges intelligencia (MI) mellett a filmiparban...

MA 14:29

Az evolúció trükkje: A kígyóvizelet lehet a köszvény ellenszere?

🐍 Ezúttal a kígyók vizelete okoz meglepetést: kiderült, hogy a hüllők nem folyékony, hanem kristályos formában adják le a felesleges anyagokat...

MA 14:01

Az új kínai rakéta már versenyre kel a SpaceX-szel

Kína magánűripara újabb jelentős mérföldkőhöz érkezett: a LandSpace nevű vállalat Zhuque–3 elnevezésű, többször felhasználható rakétája sikerrel teljesítette legutóbbi földi hajtóműtesztjét...