2024. október 20-án reggel az Amazon Web Services (AWS) US-EAST-1 régiójában súlyos incidens történt, amely több mint 108 AWS szolgáltatást bénított meg, és ezrek ügyfeleinek rendszereit érintette világszerte. Az eset rávilágított a felhőalapú infrastruktúrák komplexitására és a redundancia fontosságára.
Az incidens háttere és az érintett szolgáltatások
A The Stack információi szerint az esemény után még mindig több mint 78 AWS szolgáltatás működése volt korlátozott vagy degradált állapotban. Az Amazon kezdetben a DynamoDB API végpontjának DNS-felbontási problémáit jelölte meg az esemény kiváltó okaként az US-EAST-1 régióban.
Később az AWS pontosította, hogy az incidens forrása az EC2 belső hálózatán belül található egy alrendszer volt, amely a hálózati terheléselosztók egészségi állapotának monitorozásáért felelős. Ez a belső rendszer hibája vezetett a láncreakcióhoz, amely végül számos más szolgáltatás működését is befolyásolta.
Korábbi hasonló esetek – tanulságok 2021-ből
A mostani incidens emlékeztet a 2021. december 7-i hasonlóan kiterjedt US-EAST-1 leállásra, amikor az AWS szintén hálózati eszközök meghibásodását jelölte meg elsődleges okként. Akkor az automatizált kapacitásbővítési folyamat egy váratlan viselkedést váltott ki, amely túlterhelte a belső hálózati eszközöket.
Az AWS utólagos elemzése szerint a belső hálózatban kialakult torlódás miatt a monitoring, belső DNS és EC2 vezérlési sík egyes részei is érintettek voltak, ami láncreakcióként további problémákat okozott.
A DNS-felbontási problémák és azok hatása az AWS szolgáltatásokra
Az esemény során a DNS-felbontási hibák miatt először a DynamoDB regionális végpontjai nem voltak elérhetők, ami közvetlenül befolyásolta az EC2 példányok indítását is, mivel ezek függnek a DynamoDB-től bizonyos működési folyamatokban.
Ezt követően a Network Load Balancer egészségügyi ellenőrzései is károsodtak, ami további hálózati kapcsolódási problémákhoz vezetett olyan kulcsfontosságú szolgáltatásoknál, mint például a Lambda, DynamoDB és CloudWatch.
A helyreállítás folyamata és jelenlegi állapot
Az AWS közleménye szerint október 20-án 12:26-kor azonosították az esemény kiváltó okát, majd folyamatosan dolgoztak a problémák megoldásán. Délután 15:01-re minden AWS szolgáltatás visszatért normál működéséhez.
Néhány szolgáltatás – például az AWS Config, Redshift és Connect – még üzenetfeldolgozási késedelemmel küzdött, amelyeket néhány órán belül pótolni fognak. Az Amazon ígéretet tett egy részletes utólagos jelentés közzétételére is.
A támogatási rendszer fejlesztése és annak kihívásai
A 2021-es nagy leállást követően az AWS vállalta egy új támogatási rendszer kiépítését, amely több régióban is aktívan futna párhuzamosan. Ennek részeként 2022 augusztusában bevezettek egy új támogatói konzolt, amely magas rendelkezésre állást és régiók közötti redundanciát biztosít.
Ennek ellenére az idei incidens során több ügyfél panaszkodott arra, hogy a támogatás nem volt megfelelően elérhető vagy hatékony – különösen az amerikai keleti parton kívüli időzónákban.
A felhőszolgáltatások megbízhatósága: valóság vagy mítosz?
Ismael Wrixen, a ThriveCart vezérigazgatója szerint ez az eset nem csupán egy „keleti parti AWS probléma”, hanem emlékeztető arra, hogy a száz százalékos rendelkezésre állás minden szolgáltató számára csak illúzió.
„Az internet megosztott infrastruktúrán fut. A valódi történet nem csak arról szól, hogy az AWS kritikus hibát szenvedett el, hanem arról is, hogy hány vállalkozás fedezte fel: platformpartnereiknek nincs megfelelő terve ilyen helyzetekre – különösen azon kívül, amikor az Egyesült Államokban nappal van.” – írta e-mailben Wrixen.
Ez komoly figyelmeztetés arra nézve, hogy mennyire fontos a multi-regionális redundancia alkalmazása kritikus üzleti rendszerek esetén.
Kitekintés: mi várható az utólagos elemzésben?
A The Stack szerkesztősége mindig nagy érdeklődéssel várja a nagy hyperscaler incidensek utólagos elemzését (post-mortem). Ezekből tanulhatunk arról, hogyan kezelik a legnagyobb felhőszolgáltatók a váratlan helyzeteket:
- Google Cloud Párizsban: tűzeset és árvíz okozta zavarok;
- Microsoft Azure: titkosítási kulcs infrastruktúra problémái;
- AWS korábbi incidensek: adatközpont hűtési problémák;
- HPE esetek: kritikus adatok törlése frissítés miatt.
Mindezek fényében izgatottan várjuk az AWS legfrissebb részletes jelentését arról, hogy pontosan mi történt október 20-án reggel az US-EAST-1 régióban.
Összegzés
Az AWS US-EAST-1 régiójában történt incidens ismételten rámutatott arra, hogy még a legnagyobb felhőszolgáltatók infrastruktúrája sem mentes a hibáktól. A komplex rendszerekben egyetlen komponens meghibásodása láncreakciót indíthat el, amely széles körű szolgáltatáskimaradást eredményezhet.
A vállalatoknak ezért érdemes komolyan venniük a multi-regionális redundancia kialakítását és felkészülniük arra is, hogy partnerük sem garantálhatja soha teljes körűen a megszakítás nélküli működést. A jövőben pedig fontos lesz figyelemmel kísérni az AWS által közzétett részletes utólagos elemzést is.
Forrás: https://www.thestack.technology/aws-outage-cause-network/