Как известно, значение дата-центров для всех типов компаний и обычных пользователей неуклонно растет. При этом лишь одна минута простоя крупного ЦОД может спровоцировать миллионные убытки для клиентов оператора. Мы уже не говорим про убытки от многочасовых и многодневных простоев. Однако аварии в ЦОДах продолжают регулярно происходить, и они вовсе не обязательно связаны с пожаром – по данным Uptime Institute пожары случаются реже раза в год. Мы рассмотрим самые крупные аварии в дата-центрах за последнее время и проанализируем их причины.
Самая громкая авария – пожар в одном из дата-центров одного из крупнейших европейских хостинг-провайдеров OVH в марте 2021 года. Там загорелась система бесперебойного питания с внутренним порядковым номером UPS7, которая незадолго до этого прошла техническое обслуживание, в ходе которого в системе заменили множество компонентов. И хотя после повторного запуска работа системы была штатной, пожар все равно произошел. Последствия: почти полностью уничтожен дата-центр, а 3,6 млн веб-сайтов столкнулись с перебоями в работе.
Проведенная после аварии экспертиза показала, что у пожара могли быть дополнительные причины. Во-первых, башенный тип конструкции дата-центра, в котором применяется конвекционная схема охлажедния. «Башня» в центре здания, предназначенная для вывода теплого воздуха, стала путем распространения для огня, который быстро разошелся по объекту. И это башенный тип конструкции, который мы в целом считаем надежным. Во-вторых, отсутствие в сгоревшем дата-центре системы сверхраннего обнаружения пожара, а также газового и водяного пожаротушения. Для обеспечения безопасности на объекте были установлены только дымовые датчики и огнетушители. Притом что на рынке представлены тысячи продуктов безопасности для ЦОД.
Назовем хотя бы датчик мониторинга окружающей среды Eaton EMP002, который отслеживает температуру и влажность и осуществляет мониторинг работы сопряженных устройств, например, датчиков задымленности и детектора открытой двери. Помимо этого существуют современные системы безопасности, которые способны распознавать изменение температуры в какие-то доли градуса. Когда возникает проблема, такие устройства посылают уведомление оператору службы техподдержки и включают тревожный сигнал.
Другой серьезный случай – пожар в дата-центре Ogden американской компании WebNX в апреле 2021 года. Ситуацию спровоцировало отключение городского электроснабжения. В дата-центре включились автономные энергогенераторы, один из которых оказался несправен и загорелся. Пожар распространился на несколько прилегающих помещений, энергоснабжение дата-центра полностью прекратилось на несколько часов. В результате несколько наиболее сильно обгоревших серверов не подлежат восстановлению, плюс большое количество оборудования пострадало от воды, которой тушили пожар. Восстановление работы систем заняло порядка 20 часов, и убытки оператора превысили $25 млн. Кстати говоря, в этом дата-центре размещались и серверы компании Gorilla Servers. Хотя их собственное оборудование не пострадало, из-за отключения электроэнергии длительное время не работали сервисы и сайты их клиентов.
Еще один крупный инцидент произошел в сентябре 2018 года в британском банке TSB. Банк запланировал обширную миграцию IT-оборудования. Однако перед миграцией их поставщик IT-услуг Sabis не протестировал один из затронутых дата-центров, скрыв этот факт от руководства. В итоге около двух миллионов клиентов банка на какое-то время лишились доступа к своим счетам. На устранение последствий аварии банку пришлось потратить $480 млн., и еще $ 35 млн. – на расследовании аварии.
В августе 2020 года произошел пожар в центре обработки данных телекоммуникационной компании Telstra в Лондоне. Сообщается, что пожар затронул пространство общей площадью около 11 тыс. кв. метров, из-за чего пришлось обесточить 1 800 серверных стоек. К частью, никто из персонала не пострадал, а серьезно повреждена была лишь небольшая часть складского помещения. Однако общие убытки компании превысили $ 10 млн – не считая репутационных потерь. По неподтвержденным данным, причиной пожара снова стал неисправный ИБП.
Также в августе 2020 года произошел инцидент в дата-центре Equinix LD8. Когда в ЦОДе внештатно отключилась сетевая электроэнергия, один из ИБП отказал и обесточил главный кластер маршрутизаторов Juniper MX и Cisco LNS, который обеспечивал работу большей части оборудования дата-центра. Хотя сотрудники поддержки сразу же выявили проблему, ее решение заняло несколько часов, в течение которых не работали сервисы ряда крупных компаний-клиентов Equinix: EX Networks, Fast2Host, Epsilon, SiPalto, ICUK.net и Evoke Telecom.
В качестве итога скажем, что аварии разных масштабов происходят в дата-центрах достаточно часто. При этом неисправные ИБП, отключения электропитания, человеческий фактор – все эти (и даже более сложные) угрозы можно компенсировать своевременной установкой оборудования для безопасности. А с какими проблемами в дата-центрах приходилось сталкиваться вам? Давайте обсудим в комментариях!
Узнайте больше про датчик мониторинга окружающей среды от Eaton на https://clck.ru/W9LQe