Bevezetés
Az Amazon Web Services (AWS) egyik legfontosabb és legforgalmasabb régiója, az US-East-1, nemrégiben jelentős hálózati problémákkal szembesült, amelyek számos AWS szolgáltatás működését befolyásolták. Ez az esemény nem csupán az érintett régióban okozott fennakadásokat, hanem globális szinten is hatással volt az AWS ügyfeleire, akik különféle kapcsolódási hibákat tapasztaltak. A következőkben részletesen bemutatjuk a probléma okait, az érintett szolgáltatásokat, az Amazon által tett intézkedéseket, valamint a tanulságokat, amelyek minden felhőszolgáltató és felhasználó számára fontosak lehetnek.
A hálózati állapot késleltetésének hatása az AWS szolgáltatásokra
Az alapvető probléma egy hálózati állapot propagációs késedelem volt, amely átterjedt egy olyan hálózati terheléselosztóra (network load balancer), amelyre számos AWS szolgáltatás stabilitása épül. Ennek következtében az US-East-1 régióban az AWS ügyfelei kapcsolatfelvételi hibákat tapasztaltak.
Érintett AWS hálózati funkciók
- Redshift klaszterek létrehozása és módosítása: Az adatbázis-kezelő szolgáltatásban akadozások jelentkeztek a klaszterek kezelésében.
- Lambda függvények meghívása: A szerver nélküli számítási szolgáltatás működésében fennakadások voltak.
- Fargate feladatok indítása: Ideértve a Managed Workflows for Apache Airflow-t is, amelyek automatizált munkafolyamatokat futtatnak.
- Outposts életciklus műveletek: Az AWS helyi infrastruktúráját érintő folyamatok is lelassultak vagy megszakadtak.
- AWS Support Center: Az ügyfélszolgálati központ működésében is problémák jelentkeztek.
Amazon intézkedései a hiba elhárítására
Az incidens kezelésére az Amazon ideiglenesen letiltotta világszerte a DynamoDB DNS Planner és DNS Enactor automatizációját. Ezek az eszközök felelősek a DNS-tervek alkalmazásáért, azonban jelenleg versenyhelyzet (race condition) miatt hibás DNS-tervek kerülhettek alkalmazásra.
Ezen túlmenően a mérnökök változtatásokat hajtanak végre az EC2 szolgáltatáson és annak hálózati terheléselosztóján is, hogy megelőzzék hasonló problémák jövőbeni előfordulását.
A probléma mélyebb okai – Ookla elemzése
A független elemző cég, az Ookla rámutatott egy olyan tényezőre is, amelyet az Amazon nem említett: az US-East-1 végpont körüli ügyfélkoncentrációra és arra, hogy sok ügyfél nem tudja megkerülni ezt a régiót.
„Az érintett US-East-1 régió az AWS legrégebbi és leginkább használt központja. A regionális koncentráció miatt még a globális alkalmazások is gyakran itt rögzítik identitásukat, állapotukat vagy metaadataikat. Amikor egy ilyen regionális függőség meghibásodik – ahogy ebben az esetben történt –, a hatások világszerte elterjednek, mert sok „globális” rendszer valamikor áthalad Virginián.” – magyarázta az Ookla.
A modern alkalmazások gyakran láncolják össze a kezelt szolgáltatásokat, mint például tárolók, üzenetsorok és szerver nélküli funkciók. Ha egy kritikus végpont DNS-feloldása megbízhatatlanná válik (például itt a DynamoDB API esetében), akkor a hibák kaskád-szerűen terjednek tovább a felsőbb szintű API-kon keresztül, ami látható hibákhoz vezet olyan alkalmazásokban is, amelyekhez a felhasználók nem társítanak közvetlenül AWS-t. Pontosan ezt regisztrálta a Downdetector többek között olyan népszerű platformokon, mint a Snapchat, Roblox, Signal, Ring vagy éppen az Egyesült Királyság adóhatósága (HMRC).
A tanulság: Több régiós tervezés és hibák elszigetelése
Ez az esemény figyelmeztető történet minden felhőszolgáltató és felhasználó számára. Nem elegendő pusztán versenyhelyzeteket vagy hasonló szoftverhibákat megelőzni; ennél fontosabb a hálózati tervezés során kiküszöbölni az egyetlen hibapontokat (single points of failure).
„A jövő útja nem a nullhibás működés elérése, hanem a hibák elszigetelése,” fogalmazott az Ookla. Ez többek között multi-régiós architektúrák kialakítását jelenti, valamint függőségek diverzifikálását és fegyelmezett incidenskezelési stratégiák alkalmazását. Emellett szükséges lehet szabályozói felügyelet bevezetése is annak érdekében, hogy a felhőszolgáltatások nemzetgazdasági és nemzetbiztonsági szempontból is megbízható rendszerekké váljanak.
Összegzés
Az AWS US-East-1 régióban történt hálózati probléma jól példázza, milyen kockázatokkal járhat egyetlen nagy forgalmú adatközpont túlzott terhelése és függősége. Az incidens rámutat arra is, hogy még a legnagyobb és legfejlettebb felhőszolgáltatók esetében is előfordulhatnak váratlan hibák, amelyek globális hatással bírnak.
Minden vállalatnak és fejlesztőnek érdemes tanulnia ebből az esetből: érdemes több régióra kiterjedő megoldásokat alkalmazniuk, diverzifikálniuk kell függőségeiket és felkészülniük kell arra, hogy egy-egy komponens kiesése ne okozzon láncreakciót rendszereikben.