Разбор полетов: как пожар в дата-центре SK C&C «положил» самый популярный корейский мессенджер

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Источник: Shutterstock
Источник: Shutterstock

Что случилось?

15 октября 2022 года в корейском дата-центре SK C&C произошел пожар. Причина ― возгорание литий-ионной батареи в одном из помещений ЦОД. Из-за возникшего пожара перестали работать 32 000 серверов, а вместе с ними «упал» мессенджер KakaoTalk (его использует 86% населения Республики Корея). Также в «офлайне» остались платежная платформа KakaoPay, такси и ряд других сервисов. На восстановление работы онлайн-приложений ушло два дня. Общий ущерб компании Kakao оценивается почти в $14 млн.

В чем причина?

В дата-центре использовалась система BMS (Battery Management System), которая контролирует производительность и температуру Li-ion батарей. По одной из версий, система предупреждала о возможности возникновения пожара за два часа до инцидента. После этого сигнала специалисты дата-центра осмотрели аккумуляторные батареи, но не обнаружили сбоев в работе оборудования.

В свою очередь, производитель литий-ионных батарей SK Group утверждает, что, судя по графику мощности и напряжения системы BMS, батареи работали стабильно до момента аварии, так как система не отправляла экстренные оповещения о случаях резких колебаний графика.

Как избежать таких ситуаций?

Оказалось, что у компании не были разработаны планы поведения в экстренных ситуациях. В частности, она не была готова к тому, что ЦОД будет быстро обесточен после начала пожара. В подобных ситуациях не стоит надеяться лишь на операторов дата-центра. Можно переговорить с собственниками ЦОД и самостоятельно обеспечить свою часть колокейшн системами резервного и гарантированного электроснабжения.

 Вполне вероятно, что в дата-центре установлены ДГУ и системы резервного электропитания, но почему-то из-за возгорания одной батареи они не сработали. Это возможно, если основные и резервные системы расположены в одном помещении. Данный случай лишний раз напоминает о том, что при проектировании ЦОД важно, чтобы основные и резервные системы находились на удалении друг от друга. К примеру, если дата-центры строятся по стандартам Tier 3 и выше, то создают два ввода внешнего питания. Зарезервированы должны быть не только источники, но и способы доставки электропитания. Подводы основного и резервного питания должны идти с разных сторон и от разных подстанций. К примеру, если в правой части ЦОД что-то загорится, то левая сторона дата-центра не пострадает и сможет обеспечивать электричеством системы центра обработки данных. При таком подходе, в описанной выше ситуации сработала бы система резервного питания в помещении с огнем. Огонь был бы потушен при помощи системы газового пожаротушения, и ущерб для работы сервисов оказался бы минимальным.

 Не стоит «класть все яйца в одну корзину». Можно обозначить два подхода к обеспечению максимальной надежности работы онлайн-сервисов:

  • «Свой — чужой». Построить собственный корпоративный ЦОД, на котором будет размещена критическая инфраструктура компании. Параллельно следует создать резервный ЦОД — это может быть колокейшн. В случае неполадок в основном дата-центре, работу онлайн-сервисов подхватит резервный центр обработки данных.

  • «Чужой — чужой». Если нет возможности построить свой ЦОД, то можно разместить всю критическую инфраструктуру в колокейшн и вдобавок арендовать резервные мощности в другом дата-центре. Это позволит поддерживать работу онлайн-сервисов, если один из центров обработки данных будет выведен из строя.

Павел

Ведущий консультант направления ЦОД центра сетевых решений «Инфосистемы Джет»

Источник: https://habr.com/ru/company/jetinfosystems/blog/696048/


Интересные статьи

Интересные статьи

Чем должен обладать «рабочая лошадка» — современный офисный ноутбук? В первую очередь, это необходимые интерфейсы (USB-C, HDMI), приличный и большой экран (15", 1920х1080, IPS), беспроводные сети...
Резидент ОЭЗ «Иннополис» компания IVA Technologies разрабатывает телекоммуникационное оборудование и программное обеспечение для унифицированных коммуникаций.В этой статье расскажем, за счёт каких воз...
Реализация ORM в ядре D7 — очередная интересная, перспективная, но как обычно плохо документированная разработка от 1с-Битрикс :) Призвана она абстрагировать разработчика от механики работы с табл...
Как обновить ядро 1С-Битрикс без единой секунды простоя и с гарантией работоспособности платформы? Если вы не можете закрыть сайт на техобслуживание, и не хотите экстренно разворачивать сайт из бэкапа...
Основанная в 1998 году компания «Битрикс» заявила о себе в 2001 году, запустив первый в России интернет-магазин программного обеспечения Softkey.ru.