Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
Ранее мы уже рассказывали о том, как проходили аттестацию Uptime Institute Management & Operations Stamp of Approval в 2018 году и подтверждали уровень соответствия его требованиям в 2020.
Сегодня поговорим о тренировке и проверке знаний инженеров ЦОДа – это опыт Linxdatacenter в Санкт-Петербурге, который сертифицирующая организация взяла на вооружение в своей работе.
Напомним, о чем идет речь: стандарт Management & Operations отраслевого экспертного института Uptime Institute оценивает качество управления инженерных служб дата-центров и направлен на снижение количества отказов из-за человеческого фактора.
Он появился в результате анализа 6000 эпизодов отказов ЦОДов за 20 лет наблюдений за отраслью и является частью (одной из трех) более емкого отраслевого стандарта Operational Sustainability.
Помимо M&O (управление и эксплуатация) туда входят также Building Characteristics (характеристики здания) и Site Location (расположение площадки). Вопросы управления и эксплуатации ЦОДа в этой иерархии играют главную роль в эксплуатационной устойчивости площадки.
Более 75% всех сбоев обусловлено человеческим фактором: он включает как прямые ошибки оператора, так и принятие неверных управленческих решений при комплектовании штата, выстраивании процессов обслуживания, обучения и общего подхода к работе.
Обучение персонала, инструкции по действиям в различных ситуациях и регламентное обслуживание сокращают количество отказов минимум в 3 раза.
Аттестация зрелости
Одно из базовых положений стандарта, на котором мы и развернули программу аттестации персонала, гласит: «Наличие надлежащего количества квалифицированных сотрудников имеет решающее значение для достижения долгосрочных целей. Без надлежащего количества квалифицированных сотрудников и правильной организации их труда, у ЦОД не будет ресурсов для успешного функционирования».
Обеспечить себя такими сотрудниками стандарт рекомендует через качественный подбор персонала и выработку комплексного подхода к обслуживанию ЦОДа. Такая программа состоит из профилактического обслуживания (PM), политики уборки, системы управления техническим обслуживанием (MMS) для отслеживания работ, а также соглашения об уровне обслуживания (SLA).
Чем выше уровень Tier дата-центра, чем быстрее растут целевые показатели его производительности, строже становятся требования к организации, поскольку сложность и детализация каждого из этих элементов увеличивается.
Стандарт предлагает в качестве решения комплексную программу обучения персонала, формализованную и опирающуюся на отдельный блок документации.
Только такой подход обеспечивает согласованность эксплуатации и технического обслуживания инфраструктуры ЦОД. Цитируя стандарт еще раз: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события».
Собственно, отсюда и берет начало наша система аттестации.
Вторая ее «идеологическая опора» — стандарт ISO 22301 «Security and resilience — Business continuity management systems» — «Безопасность и устойчивость – Системы управления операционной непрерывностью бизнеса».
Этот стандарт непосредственно регулирует шаги компаний (во всех сферах, не только ИТ) по обеспечению непрерывного характера своей деятельности вне зависимости от наступления экстренных ситуаций и неблагоприятных внешних условий.
Один из его пунктов указывает, что организация должна определить необходимые компетенции лиц, выполняющих работу, которая влияет на обеспечение ее бесперебойного функционирования. И далее по тексту, на компании накладываются обязательства по обеспечению компетенций этих лиц на основе соответствующего образования, подготовки или практического опыта.
Этот процесс нужно поддерживать, совершенствовать и оценивать его результаты, сохраняя соответствующую документально подтвержденную информацию в качестве доказательства компетентности.
Наконец, третий «столп» нашей программы – собственный опыт нескольких лет последовательной работы над повышением скоординированности и эффективности работы инженерных служб. Этот опыт нашел отражение в нашей документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures), в том числе в части аттестации персонала.
Четко задокументированные и формализованные процедуры в структуре бизнес-процессов площадки в Санкт-Петербурге позволяют оценивать профессиональный уровень работника и выявлять соответствие его квалификации занимаемой должности или выполняемой им работы.
Прохождение аттестации на знание инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределение ролей и зон ответственности между участниками дежурной смены и т. д. является обязанностью работников.
Основные виды и главные задачи
Зачем нам это нужно? С одной стороны – да, работали как-то без аттестации раньше, без нее также обходятся масса (да почти все) коллег по отрасли.
С другой, следует понимать, что дата-центр – сложнейший инженерный объект, состоящий из множества подсистем, управление которыми требует высочайшей квалификации, ответственности и внимания.
Мы постоянно занимаемся апгрейдом инженерных подсистем и групп процессов управления дата-центром. Только за последнее время были внедрены процессы профилактического ухода за дизель-генераторными установками и анализа качества поставляемого топлива для них, контроль уровня давления и «подпора» воздуха в серверных в помещениях и комплекс мер по предотвращению загрязнения воздуха. Также была проведена серьезная модернизация системы управления зданием (BMS), внедрен в эксплуатацию широкий спектр компонентов системы LOTO.
В ходе этих работ мы неоднократно убеждались, что любые методики контроля качества приносят хороший результат, только если они формализованы и применяются на регулярной основе – это еще одна причина ввода обязательной аттестации.
Кроме того, такие проверки помогают стимулировать рост эффективности и качества труда, определить необходимость повышения квалификации и «подтягивания» уровня знаний конкретных специалистов, а также организовать правильную расстановку кадров с учетом уровня их профессиональных знаний и навыков.
Перед плановой аттестацией руководители проводят подготовительную консультационную работу, а именно – за две недели аттестуемому персоналу сообщаются критерии аттестации, вопросы для экзамена, проводят разъяснительные консультации.
Все вопросы сопровождаются подробно разобранными ответами со ссылками на нормативные документы и инструкции.
Процедура по сути
Аттестацию проводит комиссия в составе не менее трех человек, процедура состоит из двух этапов.
На первом проводится тестирование аттестуемого работника в рамках опросников и тестов. Общее количество вопросов – 60-70 в зависимости от специализации. Во время аттестации случайным образом выбираются 15. Около 80% вопросов касаются непосредственно профессии, остальные 20% – смежных областей знаний и компетенций коллег по ЦОДу.
Для проведения аттестации был разработан специальный внутренний портал, который позволил автоматизировать и сделать прохождение аттестации регистрируемым процессом
Примеры вопросов для сотрудников различных департаментов
Механики
Раздел «Maintenance» (Обслуживание)
- Когда запланировано следующее ТО систем, за которые вы отвечаете?
- Сколько сотрудников указано в списке на доступ от подрядчика, который будет проводить следующее ТО?
- Какая текущая версия и дата утверждения документа с контактами и SLA поставщиков?
- Что такое Предупредительное обслуживание? (Predictive maintenance)? Дайте ссылку на инструкцию по Predictive maintenance и график его проведения.
- Какие виды технического обслуживания проводятся в ЦОД? Чем они отличаются? Где можно увидеть списки такого обслуживания?
Раздел EOP
- При какой температуре в помещениях ИБП нужно начинать выполнение EOP?
- При каком давлении в системе ХС нужно начинать выполнение EOP?
- Укажите действия при неисправности фанкойла «Water loss alarm».
ИТ-инженеры
Раздел «Оборудование»
- Укажите ближайшую дату поверки средства измерения (и его тип) по вашим системам.
- Приложите ссылку на папку с документацией к любому оборудованию, относящемуся к вашим системам.
- Приложите ссылку на исполнительную документацию по любой из обслуживаемых вами систем.
- Приложите ссылку на папку с альбомом последних версий схем по обслуживаемым вами системам.
Раздел «Работа в системе инцидент-менеджмента»
- Как определить, какой приоритет нужно поставить обращению?
- Если для решения проблемы нужна дополнительная информация от клиента, какой статус нужно выставить в тикете?
- Ваши действия при поступлении высокоприоритетных обращений в нерабочее время.
- Как правильно запросить дополнительную информацию от клиента?
- В чем разница в статусах On Hold и Waiting? Учитываются ли эти статусы при расчете времени решения обращения?
Инженеры-электрики
Раздел «Общие инструкции, Приказы (Common Instructions, Orders)»
- Укажите ваши действия при пожаре в ЦОД и при пожаре в ДГУ.
- Укажите ваши действия при появлении неисправностей на пожарной панели ЦОД или ДГУ.
- Укажите ваши действия при ложном срабатывании систем пожаротушения ЦОД или ДГУ.
- Каким документом регламентируются работы в действующих электроустановках?
- Что должен сделать контролирующий системы мониторинга при появлении аварийных и предупредительных сообщений (за исключением периода перехода между источниками энергии)?
- Где располагается мастер-ключ для экстренного доступа в стойки клиентов?
- В каких инструкциях указаны меры по работе во время пандемии и какие они?
Как видно из приведенных примеров, мы учитываем текущие реалии, в которых работаем. В данном случае это вопросы по состоянию на декабрь 2020 года.
Второй этап процедуры аттестации состоит из личного собеседования комиссии со специалистом. В работе аттестационной комиссии обязательное участие принимает непосредственный руководитель аттестуемого работника.
Основными критериями, исходя из которых оцениваются профессиональные компетенции работника, являются уровень его подготовки, в том числе профессиональные навыки, итоги работы за определенный период времени, а также соответствие требованиям к занимаемой должности.
Решение принимается открытым голосованием большинством голосов.
Вердикты
По результатам аттестации выносится заключение:
- занимаемой должности соответствует;
- соответствует, но не полностью (рекомендуется повторная аттестация); или
- не соответствует занимаемой должности.
В первом случае сотрудника могут включить в резерв на вышестоящую должность, условия трудовых соглашений с ним не меняются. В последнем же рассматривается вопрос либо о переводе на другую работу, требующую более низкой квалификации, либо о расторжении трудового договора по п. 3 ч. 1 ст. 81 ТК РФ.
Неполное соответствие чревато переводом с согласия сотрудника на другую работу, а также направлением на курсы повышения квалификации (дополнительного обучения).
Тяжело в учении – легко в бою
Большую роль в процессе обучения сотрудников служб эксплуатации дата-центра играет практический аспект – тренировки и учения.
В качестве примера приведем выдержки из итогового протокола учений по отработке действий сотрудников дежурной смены и охраны ЦОДа в Санкт-Петербурге.
«Хронология событий
1050 – Произошел пожар (имитация) помещении 107. Сработала пожарная сигнализация и система голосового оповещения.
1050 – Руководитель смены охраны объекта связался с дежурной сменой ЦОДа, сообщив им о месте пожара и поставил задачу сотруднику охраны по организации эвакуации клиентов ЦОДа.
1207 – Сотрудник охраны выдвинулся в ЦОД для проверки путей эвакуации, разблокировки калиток на путях эвакуации, проверки разблокировки полноростового турникета, организации эвакуации людей. Сотрудник охраны экипирован электрическим фонарем, изолирующим противогазом и рацией для связи.
1207 – Звонок сотрудника охраны ЦОДа старшему смены охраны ПСБ «СКАЙ-ТРЕЙД» с сообщением о происшествии в ЦОДе.
1208 – Начало эвакуации людей, не задействованных в обнаружении и локализации (ликвидации) пожара, из помещений ЦОДа.
1209 – Сотрудники дежурной смены ЦОДа выдвинулись для проверки причин срабатывания пожарной сигнализации и организации эвакуации людей из ЦОДа.
1211 – Сотрудники дежурной смены ЦОДа подошли к месту предполагаемого пожара. Сотрудники экипированы электрическими фонарями и изолирующими противогазами.
1212 – Доклад сотрудника охраны о том, что все помещения свободны и люди из ЦОДа эвакуированы.
1212 – Эвакуация завершена.
1215 – Перевод системы пожарной сигнализации и голосового оповещения из режима «Пожар» в дежурный режим. Окончание пожарно-технической тренировки».
Это – отчет о событийной канве мероприятия, которая, как мы видим, укладывается во временной промежуток продолжительностью чуть более одного часа. Далее лица, ответственные за проведение учений, указывают выявленные несоответствия и перечисляют решения, принятые в отношении команды.
В данном конкретном случае не был сымитирован звонок сотрудника дежурной смены на пульт пожарной охраны – поэтому оценка только «4».
Рекомендовано повторить порядок действий при сигнале о пожаре в соответствии с инструкцией и проводить подобные учения для каждой смены персонала не реже 1 раза в квартал.
Выводы и планы развития
Формализация и документирование процессов помогают обеспечить историчность (отслеживание динамики), а также объективность оценок.
На данном этапе развития направления нам удалось реализовать комплексный подход к обучению и проверке уровня знаний персонала ЦОДа, от которых зависят такие показатели, как непрерывность работы площадки, и, в конечном итоге, SLA для клиентов.
В целом, реализованная нами система подтверждения знаний и умений – это общий тренд развития направления в будущем. Все решения по обеспечению непрерывности бизнеса строятся на архитектуре тесно увязанных между собой специалистов, политик, процедур и процессов, а также организационной структуры и ресурсов компании.
И люди в этом перечне – на первом месте.