
Az MI hibázott, az egész net belassult
A Cloudflare társalapítója és ügyvezetője, Matthew Prince elismerte, hogy hasonló mértékű kiesésre 2019 óta nem volt példa. A társaság rendszerének egyik kulcseleme a Botkezelés (Bot Management) szolgáltatás, amely automatikusan felismeri és blokkolja az ártó szándékú botokat, köztük a túlterheléses támadásokat és adatgyűjtési (scraping) próbálkozásokat is.
A rendszer mesterséges intelligenciát használ, amely pontszámokat ad minden forgalmi kéréshez aszerint, mennyire valószínű, hogy azt egy bot indította. Az értékeléshez egy úgynevezett jellemzőfájlt (feature file) hoznak létre, amelyet ötpercenként frissítenek a naprakészség érdekében, és amelyet az egész Cloudflare-hálózat használ.
Apró hibából lett gigászi baj
A baj forrása egy látszólag egyszerű módosítás volt: a jellemzőfájlt előállító lekérdezés hibásan többszörözte az adatokat, így a fájl a szokásosnál jóval nagyobb lett. Ez túltelítette a Botkezelés rendszert, amely hibát jelzett, és sorra dobta vissza a kéréseket – vagyis minden védett oldal elérhetetlenné vált.
A Cloudflare először azt hitte, hogy nagyszabású DDoS-támadás alatt áll, főleg amikor a független státuszoldala is elérhetetlenné vált. Később kiderült, hogy mindez puszta véletlen volt, nem támadás okozta a káoszt.
Gyors helyreállítás, jövőbeni védelem
Három órán belül sikerült a hibát részben, öt órán belül pedig teljesen helyreállítani. Azóta már dolgoznak azon, hogy a hasonló hibák a jövőben ne béníthassák le a fél internetet, illetve hogy az automatikus hibaüzenetek se terhelhessék túl a rendszert.
