
BGP route leak: Mi történt és hogyan?
Lényeges szempont, hogy a BGP (Border Gateway Protocol) az internet forgalmának gerincét képező szabályrendszer, amely eldönti, hogyan, milyen útvonalakon haladjon a csomagok áradata a világ hálózatain keresztül. Egy route leak – vagyis útvonal-szivárgás – során a rendszer váratlanul, szándékon kívül arra készteti a külvilágot, hogy mindenféle oda nem való hálózati forgalmat is próbáljon ugyanazon a ponton keresztül továbbítani. A mostani hibánál a Cloudflare egyik miami routere véletlenül továbbította a tőle érkező BGP-frissítéseket a partnereinek és a nagy tranzitszolgáltatóknak is, ezzel több tucat szolgáltató, köztük saját ügyfeleinek forgalmát is odairányította.
Ennek eredményeként a mindössze 25 percen át tartó forgalmi zavar alatt Miami és Atlanta között extrém forgalmi torlódás alakult ki, aminek következtében egyes ügyfelek elveszett adatcsomagokat, megemelkedett válaszidőket tapasztaltak, a forgalom egy jelentős részét pedig a tűzfalak egyszerűen eldobták, mivel azok nem a Cloudflare-ügyfeleitől származtak.
A hiba részletes kronológiája: percek alatt káosz
Az egész incidens egy rutinfeladatnak indult: le kellett venni a BGP-hirdetéseket Bogotából Miami irányába, mivel a hálózati infrastruktúra frissítése már nem igényelte a forgalom ilyen típusú továbbítását. A módosítás, amely január 22-én este tíz körül történt, csak néhány prefixlista-sor törléséből állt volna. A policy viszont ebben a formájában túl engedékeny lett: minden belső típusú útvonalat elfogadott, így azok külső hirdetése is engedélyezett volt.
A hibás konfiguráció alkalmazásával a miami router minden Cloudflare-belső IPv6-prefixet meghirdetett a teljes peering- és tranzitpartnerek felé, teljesen megsértve a BGP köztes útvonal-korlátozás szabályait. A torlódás miatt a router az idegen forgalom jelentős részét, csúcsidőben akár 12 Gbps adatot is eldobott.
BGP route leak: veszélyes és alattomos hiba
Lényeges szempont, hogy egy route leak során a hálózatot elárasztják olyan adatcsomagok, amelyeket előzetesen nem engedélyeztek. Technikai értelemben egy AS (Autonomous System – önálló hálózat) olyat hirdet, amire semmi szükség, és végül több ezer forgalmi irány beszorul egy szerverterembe. A mostani esetben a Cloudflare peereitől (például a Meta – AS32934) véletlenül kapott prefixeket nemcsak downstream irányba (végfelhasználók felé), hanem az upstream (tranzit) irányok felé is hirdette tovább. Ez megsérti a BGP egyik alapelvét – a völgymentes útválasztást –, amely szerint a peertől kapott útvonalakat csak ügyfélnek lehet továbbítani, nem más peer felé.
A következmények beláthatatlanok lehetnek: a váratlanul sok forgalom miatt fennakadások léphetnek fel, elveszhetnek adatcsomagok, az ügyfelek nem érik el a weboldalakat, szolgáltatások elérhetetlenné válhatnak.
Mire figyel egy globális szolgáltató? Megelőző lépések
A hibát gyorsan észrevették: az első automatizált futtatás után néhány perccel a hálózati csapat már vizsgálta, miért érkeznek váratlan BGP-hirdetések. A konfigurációt manuálisan visszavonták, az automatizációt leállították, majd a hibát kiváltó kódsort is törölték a központi rendszerből.
A következő időszaktól új, szigorúbb lépéseket vezetnek be:
Automatikus BGP-szűrőket alkalmaznak, amelyek explicit módon tiltanak minden peertől vagy tranzittól kapott route-ot külső hirdetésekben. A konfigurációs folyamatokat még egy automatikus ellenőrzésen is lefuttatják, hogy kizárják a hibás szabályokat vagy túl engedékeny policy-kat. A jövőben erőteljesen támogatják az újfajta útvonal-ellenőrző technológiák (például BGP Role, RPKI ASPA) alkalmazását, amelyek automatikusan elutasítják a gyanús forgalmat.
Tanulság: az internet törékeny
A történtek rávilágítanak arra, mennyire sérülékeny a világháló, ha egy nagy szereplő egyetlen hibás szabályt élesít. Az MI, az automatizáció és az összetett hálózati menedzsment ellenére néha még mindig az emberi figyelem az utolsó védőbástya a totális káosz előtt.
