Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
Что случилось?
15 октября 2022 года в корейском дата-центре SK C&C произошел пожар. Причина ― возгорание литий-ионной батареи в одном из помещений ЦОД. Из-за возникшего пожара перестали работать 32 000 серверов, а вместе с ними «упал» мессенджер KakaoTalk (его использует 86% населения Республики Корея). Также в «офлайне» остались платежная платформа KakaoPay, такси и ряд других сервисов. На восстановление работы онлайн-приложений ушло два дня. Общий ущерб компании Kakao оценивается почти в $14 млн.
В чем причина?
В дата-центре использовалась система BMS (Battery Management System), которая контролирует производительность и температуру Li-ion батарей. По одной из версий, система предупреждала о возможности возникновения пожара за два часа до инцидента. После этого сигнала специалисты дата-центра осмотрели аккумуляторные батареи, но не обнаружили сбоев в работе оборудования.
В свою очередь, производитель литий-ионных батарей SK Group утверждает, что, судя по графику мощности и напряжения системы BMS, батареи работали стабильно до момента аварии, так как система не отправляла экстренные оповещения о случаях резких колебаний графика.
Как избежать таких ситуаций?
Оказалось, что у компании не были разработаны планы поведения в экстренных ситуациях. В частности, она не была готова к тому, что ЦОД будет быстро обесточен после начала пожара. В подобных ситуациях не стоит надеяться лишь на операторов дата-центра. Можно переговорить с собственниками ЦОД и самостоятельно обеспечить свою часть колокейшн системами резервного и гарантированного электроснабжения.
Вполне вероятно, что в дата-центре установлены ДГУ и системы резервного электропитания, но почему-то из-за возгорания одной батареи они не сработали. Это возможно, если основные и резервные системы расположены в одном помещении. Данный случай лишний раз напоминает о том, что при проектировании ЦОД важно, чтобы основные и резервные системы находились на удалении друг от друга. К примеру, если дата-центры строятся по стандартам Tier 3 и выше, то создают два ввода внешнего питания. Зарезервированы должны быть не только источники, но и способы доставки электропитания. Подводы основного и резервного питания должны идти с разных сторон и от разных подстанций. К примеру, если в правой части ЦОД что-то загорится, то левая сторона дата-центра не пострадает и сможет обеспечивать электричеством системы центра обработки данных. При таком подходе, в описанной выше ситуации сработала бы система резервного питания в помещении с огнем. Огонь был бы потушен при помощи системы газового пожаротушения, и ущерб для работы сервисов оказался бы минимальным.
Не стоит «класть все яйца в одну корзину». Можно обозначить два подхода к обеспечению максимальной надежности работы онлайн-сервисов:
«Свой — чужой». Построить собственный корпоративный ЦОД, на котором будет размещена критическая инфраструктура компании. Параллельно следует создать резервный ЦОД — это может быть колокейшн. В случае неполадок в основном дата-центре, работу онлайн-сервисов подхватит резервный центр обработки данных.
«Чужой — чужой». Если нет возможности построить свой ЦОД, то можно разместить всю критическую инфраструктуру в колокейшн и вдобавок арендовать резервные мощности в другом дата-центре. Это позволит поддерживать работу онлайн-сервисов, если один из центров обработки данных будет выведен из строя.
Павел
Ведущий консультант направления ЦОД центра сетевых решений «Инфосистемы Джет»