Да, это можно предотвращать. Крупные аварии в ЦОДАХ за последние годы

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Как известно, значение дата-центров для всех типов компаний и обычных пользователей неуклонно растет. При этом лишь одна минута простоя крупного ЦОД может спровоцировать миллионные убытки для клиентов оператора. Мы уже не говорим про убытки от многочасовых и многодневных простоев. Однако аварии в ЦОДах продолжают регулярно происходить, и они вовсе не обязательно связаны с пожаром – по данным Uptime Institute пожары случаются реже раза в год. Мы рассмотрим самые крупные аварии в дата-центрах за последнее время и проанализируем их причины.

Самая громкая авария – пожар в одном из дата-центров одного из крупнейших европейских хостинг-провайдеров OVH в марте 2021 года. Там загорелась система бесперебойного питания с внутренним порядковым номером UPS7, которая незадолго до этого прошла техническое обслуживание, в ходе которого в системе заменили множество компонентов. И хотя после повторного запуска работа системы была штатной, пожар все равно произошел. Последствия: почти полностью уничтожен дата-центр, а 3,6 млн веб-сайтов столкнулись с перебоями в работе.

Проведенная после аварии экспертиза показала, что у пожара могли быть дополнительные причины. Во-первых, башенный тип конструкции дата-центра, в котором применяется конвекционная схема охлажедния. «Башня» в центре здания, предназначенная для вывода теплого воздуха, стала путем распространения для огня, который быстро разошелся по объекту. И это башенный тип конструкции, который мы в целом считаем надежным. Во-вторых, отсутствие в сгоревшем дата-центре системы сверхраннего обнаружения пожара, а также газового и водяного пожаротушения. Для обеспечения безопасности на объекте были установлены только дымовые датчики и огнетушители. Притом что на рынке представлены тысячи продуктов безопасности для ЦОД.

Назовем хотя бы датчик мониторинга окружающей среды Eaton EMP002, который отслеживает температуру и влажность и осуществляет мониторинг работы сопряженных устройств, например, датчиков задымленности и детектора открытой двери. Помимо этого существуют современные системы безопасности, которые способны распознавать изменение температуры в какие-то доли градуса. Когда возникает проблема, такие устройства посылают уведомление оператору службы техподдержки и включают тревожный сигнал.

Другой серьезный случай – пожар в дата-центре Ogden американской компании WebNX в апреле 2021 года. Ситуацию спровоцировало отключение городского электроснабжения. В дата-центре включились автономные энергогенераторы, один из которых оказался несправен и загорелся. Пожар распространился на несколько прилегающих помещений, энергоснабжение дата-центра полностью прекратилось на несколько часов. В результате несколько наиболее сильно обгоревших серверов не подлежат восстановлению, плюс большое количество оборудования пострадало от воды, которой тушили пожар. Восстановление работы систем заняло порядка 20 часов, и убытки оператора превысили  $25 млн. Кстати говоря, в этом дата-центре размещались и серверы компании Gorilla Servers. Хотя их собственное оборудование не пострадало, из-за отключения электроэнергии длительное время не работали сервисы и сайты их клиентов.

Еще один крупный инцидент произошел в сентябре 2018 года в британском банке TSB. Банк запланировал обширную миграцию IT-оборудования. Однако перед миграцией их поставщик IT-услуг Sabis не протестировал один из затронутых дата-центров, скрыв этот факт от руководства. В итоге около двух миллионов клиентов банка на какое-то время лишились доступа к своим счетам. На устранение последствий аварии банку пришлось потратить  $480 млн., и еще $ 35 млн. – на расследовании аварии.

В августе 2020 года произошел пожар в центре обработки данных телекоммуникационной компании Telstra в Лондоне. Сообщается, что пожар затронул пространство общей площадью около 11 тыс. кв. метров, из-за чего пришлось обесточить 1 800 серверных стоек. К частью, никто из персонала не пострадал, а серьезно повреждена была лишь небольшая часть складского помещения. Однако общие убытки компании превысили $ 10 млн – не считая репутационных потерь. По неподтвержденным данным, причиной пожара снова стал неисправный ИБП.

Также в августе 2020 года произошел инцидент в дата-центре Equinix LD8. Когда в ЦОДе внештатно отключилась сетевая электроэнергия, один из ИБП отказал и обесточил главный кластер маршрутизаторов Juniper MX и Cisco LNS, который обеспечивал работу большей части оборудования дата-центра. Хотя сотрудники поддержки сразу же выявили проблему, ее решение заняло несколько часов, в течение которых не работали сервисы ряда крупных компаний-клиентов Equinix: EX Networks, Fast2Host, Epsilon, SiPalto, ICUK.net и Evoke Telecom.

В качестве итога скажем, что аварии разных масштабов происходят в дата-центрах достаточно часто. При этом неисправные ИБП, отключения электропитания, человеческий фактор – все эти (и даже более сложные) угрозы можно компенсировать своевременной установкой оборудования для безопасности. А с какими проблемами в дата-центрах приходилось сталкиваться вам? Давайте обсудим в комментариях!

Узнайте больше про датчик мониторинга окружающей среды от Eaton на https://clck.ru/W9LQe

Источник: https://habr.com/ru/company/eaton/blog/567774/


Интересные статьи

Интересные статьи

Привет, Хабр! Буквально на днях, 23 июня состоится виртуальная конференция, посвященная расширению сервисов хостинговых компаний. Вебинар будет проходить при участии пред...
Article Вы сталкивались когда-нибудь с построением (непрерывного) пути обхода кривой на плоскости, заданной отрезками и кривыми Безье? Вроде бы не сильно сложная задача: состыковать...
Фейковые новости влияют на политику больших стран, их создатели зарабатывают немалые деньги, используя различные схемы монетизации, а в будущем fake news смогут сокрушать бизнесы. Рассказывае...
Юлия Кардаш, директор по маркетингу HR-tech сервиса VCV, рассказала на Epic Growth Conference про запуск продукта на рынке, где отсутствовал спрос. Cмотрите расшифровку доклада под катом. ...
Илья Зверев — неформальный лидер российского сообщества OpenStreetMap. Вот уже почти 10 лет он всячески продвигает OSM: создает новые приложения и пишет статьи, развивает сообщество и выступает...