Опечатка в команде привела к масштабному отказу облака Amazon




09:27 06.03.2017 |   8368



Сбой повлиял на работу таких компаний, как Netflix, Reddit, Adobe. Сайты более половины онлайн-магазинов из сотни самых крупных загружались медленнее обычного.

Недавний масштабный сбой облачного сервиса хранения данных AWS S3, продолжавшийся 11 часов, был вызван тем, что сотрудник Amazon Web Services допустил опечатку, выполнив команду отключения небольшого числа серверов системы тарификации, которая работала медленнее, чем должна была.

Из-за неверно введенного параметра произошло отключение большого количества серверов, поддерживающих критически важные системы S3. Результатом стал отказ S3 в регионе Amazon US-EAST-1 (Северная Вирджиния) и зависимых сервисов, включая Elastic Block Store, Lambda и механизм запуска новых экземпляров Elastic Compute Cloud.

Сбой повлиял на работу таких компаний, как Netflix, Reddit, Adobe и Imgur. По данным Apica, сайты более половины онлайн-магазинов из сотни самых крупных загружались медленнее обычного.

Для восстановления работоспособности S3 понадобился полный перезапуск ряда подсистем, но такая операция в Amazon не выполнялась уже несколько лет, а поскольку за это время облако существенно выросло, перезагрузка заняла больше времени, чем предполагалось.

Чтобы предотвратить повторение инцидента, в Amazon приняли ряд мер, в частности, изменили инструмент, ставший виновником сбоя, — теперь он будет анализировать возможные последствия ввода команд и выдавать соответствующие предостережения.


Теги: Самое интересное Облачные сервисы Облачное хранение Amazon Web Services
На ту же тему: