Häiriö sai alkunsa AWS:n sisäisestä Domain Name System (DNS) -komponentista, joka toimii internetin “puhelinluettelona” muuttaen verkkotunnukset IP-osoitteiksi. Kun osa DNS-järjestelmästä meni epäkuntoon, monet verkossa toimivat palvelut eivät enää “löytäneet” toisiaan. Käyttäjille tämä näkyi kaatuneina sovelluksina ja verkkosivuina.
Häiriö vaikutti laajasti suosittuihin palveluihin, kuten Zoomiin, Venmoon, Snapchatiin ja Redditiin. Taloudelliset vaikutukset olivat asiantuntija-arvioiden mukaan mittavat.
Coloradon yliopiston Boulderin tietotekniikan professori Levi Perigo, joka johtaa myös verkkoinsinöörien maisteriohjelmaa, arvioi, että häiriön taustalla oli todennäköisesti automaation virhe.
- Tämänkaltaiset katkokset johtuvat useimmiten inhimillisistä tai konfiguraatiovirheistä, jotka moninkertaistuvat suurissa järjestelmissä. Kun miljoonia palvelimia hallitaan ohjelmiston avulla, yksikin väärä komento voi aiheuttaa ketjureaktion, Perigo sanoo.
Perigon mukaan tapaus korostaa perusteellisen testauksen ja dokumentoinnin merkitystä erityisesti silloin, kun infrastruktuuria hallitaan automaatiolla.
AWS vahvisti, että vika rajoittui US-East-1-alueen palveluihin ja että kyse oli DNS-komponentin virheellisestä päivityksestä. Yhtiön mukaan ongelma aiheutti “kohonneita virhemääriä ja viiveitä useissa palveluissa”, mutta palvelut palautettiin täyteen toimintakuntoon useiden tuntien korjaustöiden jälkeen.
Amazon kertoi aikovansa julkaista yksityiskohtaisen jälkiselvityksen myöhemmin ja totesi ottavansa tapahtuneen “äärimmäisen vakavasti”. Yritys aikoo tarkentaa sisäisiä käytäntöjään ja valvontaa estääkseen vastaavat tapaukset tulevaisuudessa.
Perigon mukaan tapaus muistuttaa siitä, kuinka keskittynyt internetin infrastruktuuri on. - Mitä enemmän tukeudumme suuriin pilvialustoihin, kuten AWS:ään, sitä enemmän jaamme myös niiden riskit. Vastaavia ongelmia voidaan ehkäistä vain hajauttamalla palveluja useille eri pilvitarjoajille, hän sanoo.






















