Не гори оно огнем

10 марта в Страсбурге произошел пожар в дата-центре OVH, одном из крупнейших европейских хостинг-провайдеров, чьими клиентами являются банки, государственные структуры, ретейлеры. Заметное событие, но, к сожалению, не единичное в истории российского и иностранного рынка ЦОД. Почему происходят такие инциденты и как могут финансовые компании защититься от их последствий?

Сбои в работе дата-центров происходят в последнее время регулярно, но далеко не все из них попадают в поле зрения общественности. Чаще всего их замечают, если провайдеры не могут устранить последствия длительное время (более одного дня), либо если проблема касается очень большого количества пользователей. Так недавно было с Twitter, а также Facebook, Instagram и WhatsApp. Для этих сервисов недоступность даже в двадцать минут чревата народным негодованием.

Однако пожары все же стоят особняком от прочих инцидентов, вызывающих простой информационных систем. Дело в том, что они случаются достаточно редко, но при этом не остаются незамеченным. Сложно игнорировать, когда полыхает крыша (или здание целиком, как в случае в OVH), прямо на глазах у публики.

В России подобные возгорания тоже случались. Во всех случаях они были связаны с достаточно тяжелыми последствиями для провайдеров: продолжительной неработоспособностью объекта, порчей дорогостоящего инженерного и вычислительного оборудования, потерей репутации и оттоком клиентов. При этом пожара в большинстве случае можно было избежать, выполняя ряд нехитрых требований к безопасности.

Если анализировать российскую практику, то только 20% возгораний в ЦОД связаны с неисправностью его оборудования. 80% приходится на так называемый человеческий фактор: некорректно выстроенные процессы эксплуатации, несоблюдение техники безопасности и т. д. Например, причиной пожара может стать загоревшаяся куча тополиного пуха на крыше дата-центра, как в одном из российских кейсов, или коробки от оборудования, оставленные в тамбуре или помещениях ЦОД, прилегающих к серверной.

Сложно представить, что такой востребованный среди клиентов объект, как дата-центр в Страсбурге, был построен с нарушением норм противопожарной безопасности. Подобные площадки проектируются и возводятся в строгом соответствии со стандартами Uptime Institute. Из этого можно сделать вывод, что скорее всего проблема кроется именно в неправильной эксплуатации.

Между тем, принципы обслуживания ЦОД также зафиксированы в стандартах Uptime Institute. В комплексе они позволяют свести практически к минимуму количество возможных инцидентов в дата-центре. Например, в них прописаны регламенты доступа в здание, проведения регламентных работ и т. д. Следуя им, можно обеспечить постоянную доступность объекта на протяжении десятков лет.

Как компаниям застраховать себя от простоев и потери информации

Рекомендации здесь универсальные. Во-первых, стоит обращать внимание на наличие сертификатов Uptime Institute. Предпочтительнее будут те провайдеры, которые смогут предоставить полный комплект документов, включая актуальный сертификат на операционную устойчивость (Tier Certification of Operational Sustainability Uptime Institute). Именно он свидетельствует о грамотно выстроенных процессах эксплуатации.

Во-вторых, при выборе поставщика услуги рекомендуется лично посещать объект. Незазорно попросить провести экскурсию, в том числе на крышу здания, и оценить, как соблюдается порядок в помещениях, не относящихся напрямую к серверным.

Наконец, нельзя забывать про планы восстановления в случае аварий (DRP), регулярно обновлять их в соответствии с новыми рисками, выполнять тестовые переключения, или даже резервировать данные, используя технологии High Availability. Последнее позволит восстановиться на независимой площадке за короткое время, даже если на основной ЦОД упадет метеорит.

Автор — Павел Колмычек, операционный директор КРОК Облачные сервисы