
Láncreakció és gyors helyreállítás
A hibás fájl ötpercenkénti frissítéssel terjedt a hálózaton, ami miatt a rendszer hol helyreállt, hol ismét elérhetetlenné vált – attól függően, hogy éppen melyik szerverklaszter kapta meg a hibás konfigurációt. A nagy méretű fájl egy ponton teljes rendszerpánikot váltott ki a Rust nyelvű Bot Management modulban, ami az internetes forgalom lebénulásához és 5xx hibákhoz vezetett.
A Cloudflare mérnökei 14:30-ra (UTC) találták meg a hiba forrását, és egy korábbi, hibátlan verzióra cserélték a sérült konfigurációt. Délután öt órára minden rendszer újra működött. A leállás a Cloudflare fő CDN- és biztonsági szolgáltatásait, a Turnstile-t, a Workers KV-t, a vezérlőpultot, az e-mailbiztonságot és az azonosítást is érintette.
Vándormadarak a felhőben
A vállalat vezetője, Matthew Prince elismerte, hogy ekkora kiesés – főként ekkora internetes befolyás mellett – vállalhatatlan. Hozzátette, hogy 2019 óta nem fordult elő ilyen mértékű, alapvető szolgáltatásokat érintő kiesés, bár apróbb hibák korábban is előfordultak. Az utóbbi időben nemcsak náluk voltak problémák: júniusban a Cloudflare Zero Trust WARP funkciója hibásodott meg, októberben az Amazon Web Services (AWS) bénította meg a fél internetet egy saját konfigurációs hiba miatt.
