2024. október 20-án, hétfőn hajnalban kezdődött az Amazon Web Services (AWS) egyik legnagyobb kiterjedésű szolgáltatáskimaradása, amely ismételten rámutatott az internet összetett és törékeny kölcsönhatásaira. A világ számos kommunikációs, pénzügyi, egészségügyi, oktatási és kormányzati platformja szenvedett el jelentős fennakadásokat, amelyek jól példázzák, milyen mélyen beágyazódott az AWS infrastruktúrája a globális digitális ökoszisztémába.
A hiba eredete és a helyreállítás folyamata
Az AWS gyors diagnosztikai munkát végzett, és megkezdte a hiba elhárítását, amely az amerikai US-EAST-1 régióban, Észak-Virginia területén található kritikus adatközpontjukban keletkezett. A problémák forrása az Amazon DynamoDB adatbázis alkalmazásprogramozási felületeinek (API) meghibásodása volt, amely közvetlenül 141 más AWS szolgáltatást érintett.
A kimaradás körülbelül hajnali 3 órakor kezdődött (ET időzóna szerint), és csak késő este, 18:01-kor állt helyre teljesen az összes AWS szolgáltatás működése. Ez a több mint 15 órás kiesés szokatlanul hosszúnak számít egy olyan „hiperskálázó” szolgáltató esetében, mint az AWS.
A DNS szerepe a kimaradásban
A probléma gyökere egy jól ismert internetes hibaforrásra vezethető vissza: a domain név rendszer (DNS) feloldási problémáira. A DNS az internet „telefonkönyve”, amely a webcímeket szerverek IP-címeire fordítja le. Amikor ez a rendszer hibásan működik, a böngészők nem tudják elérni a megfelelő szervereket, így a weboldalak és szolgáltatások nem töltődnek be vagy válaszolnak.
Szakértői vélemények és a hibák elkerülhetetlensége
Több hálózati mérnök és infrastruktúra szakértő is hangsúlyozta a WIRED magazinnak adott nyilatkozataiban, hogy az ilyen hibák – bár kellemetlenek – érthetőek és szinte elkerülhetetlenek egy olyan komplexitású rendszerben, mint amilyen az AWS, Microsoft Azure vagy Google Cloud Platform. Ezeket a szolgáltatókat „hiperskálázóknak” nevezik hatalmas méretük és összetettségük miatt.
Ira Winkler, a CYE megbízhatósági és kiberbiztonsági cég információbiztonsági vezetője kiemelte:
„A ‘visszatekintés’ kulcsszó ebben az esetben. Könnyű utólag megállapítani, mi ment rosszul, de az AWS általános megbízhatósága azt mutatja, milyen nehéz minden hibát megelőzni. Ideális esetben ez egy tanulság lesz számukra, hogy további redundanciákat vezessenek be, amelyek megakadályozhatják egy ilyen katasztrófa bekövetkezését vagy legalább lerövidíthetik a kiesési időt.”
A hosszú helyreállítási idő kritikája
Az AWS nem válaszolt részletes kérdésekre a WIRED részéről arról, hogy miért tartott ilyen sokáig a teljes helyreállítás. Egy cég szóvivője azonban jelezte, hogy hamarosan közzéteszik majd az esemény utáni összefoglalót.
Jake Williams, a Hunter Strategy kutatás-fejlesztési alelnöke így fogalmazott:
„Nem gondolom, hogy ez pusztán egy ‘megtörtént valami’ típusú leállás volt. Elvártam volna gyorsabb teljes helyreállítást. Elismerve azt is, hogy az ilyen láncreakciós hibák kezelése nem mindennapos tapasztalatuk – hiszen ritkán van ilyen jellegű kiesésük –, mégis fontos nem elnézőnek lenni velük szemben. Ezeket a helyzeteket ők maguk idézik elő azzal, hogy folyamatosan bővítik ügyfélkörüket és infrastruktúrájukat. Az ügyfelek pedig nem tudják kontrollálni, hogy a szolgáltató túlterheli-e magát vagy milyen pénzügyi helyzetben van.”
Az internet sebezhetősége és jövőbeli kilátások
Ez az incidens újra rámutatott arra, mennyire törékeny alapokon nyugszik az internet infrastruktúrája. Az olyan kulcsfontosságú szolgáltatók meghibásodása láncreakcióként hat ki számos más rendszerre világszerte.
- Kritikus rendszerek sérülékenysége: Kommunikációs hálózatok, pénzügyi tranzakciók és egészségügyi rendszerek is érintettek voltak.
- Felhőszolgáltatók felelőssége: A komplexitás ellenére elvárható gyorsabb hibaelhárítás és nagyobb redundancia kialakítása.
- DNS fontossága: A domain név rendszer stabilitása kulcsfontosságú az internet zavartalan működéséhez.
- Tanulságok: Az incidensből levont következtetések segíthetnek megelőzni hasonló jövőbeni eseményeket.
Összességében az AWS október 20-i leállása komoly figyelmeztetésként szolgál mindazok számára, akik az internetes infrastruktúrára támaszkodnak: még a legnagyobb és legfejlettebb rendszerek sem mentesek a hibáktól. A jövőben elengedhetetlen lesz a még nagyobb megbízhatóságra való törekvés és a kockázatok minimalizálása annak érdekében, hogy hasonló események ne okozzanak ekkora fennakadást világszerte.
Forrás: https://www.wired.com/story/aws-cloud-outage-long-tail/