Аттестация сотрудников ЦОДа: как и зачем ее проводят в Linxdatacenter

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!



Ранее мы уже рассказывали о том, как проходили аттестацию Uptime Institute Management & Operations Stamp of Approval в 2018 году и подтверждали уровень соответствия его требованиям в 2020. 

Сегодня поговорим о тренировке и проверке знаний инженеров ЦОДа – это опыт Linxdatacenter в Санкт-Петербурге, который сертифицирующая организация взяла на вооружение в своей работе. 

Напомним, о чем идет речь: стандарт Management & Operations отраслевого экспертного института Uptime Institute оценивает качество управления инженерных служб дата-центров и направлен на снижение количества отказов из-за человеческого фактора. 

Он появился в результате анализа 6000 эпизодов отказов ЦОДов за 20 лет наблюдений за отраслью и является частью (одной из трех) более емкого отраслевого стандарта Operational Sustainability.

Помимо M&O (управление и эксплуатация) туда входят также Building Characteristics (характеристики здания) и Site Location (расположение площадки). Вопросы управления и эксплуатации ЦОДа в этой иерархии играют главную роль в эксплуатационной устойчивости площадки. 

Более 75% всех сбоев обусловлено человеческим фактором: он включает как прямые ошибки оператора, так и принятие неверных управленческих решений при комплектовании штата, выстраивании процессов обслуживания, обучения и общего подхода к работе. 

Обучение персонала, инструкции по действиям в различных ситуациях и регламентное обслуживание сокращают количество отказов минимум в 3 раза.

Аттестация зрелости 

Одно из базовых положений стандарта, на котором мы и развернули программу аттестации персонала, гласит: «Наличие надлежащего количества квалифицированных сотрудников имеет решающее значение для достижения долгосрочных целей. Без надлежащего количества квалифицированных сотрудников и правильной организации их труда, у ЦОД не будет ресурсов для успешного функционирования». 

Обеспечить себя такими сотрудниками стандарт рекомендует через качественный подбор персонала и выработку комплексного подхода к обслуживанию ЦОДа. Такая программа состоит из профилактического обслуживания (PM), политики уборки, системы управления техническим обслуживанием (MMS) для отслеживания работ, а также соглашения об уровне обслуживания (SLA).

Чем выше уровень Tier дата-центра, чем быстрее растут целевые показатели его производительности, строже становятся требования к организации, поскольку сложность и детализация каждого из этих элементов увеличивается. 

Стандарт предлагает в качестве решения комплексную программу обучения персонала, формализованную и опирающуюся на отдельный блок документации. 

Только такой подход обеспечивает согласованность эксплуатации и технического обслуживания инфраструктуры ЦОД. Цитируя стандарт еще раз: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события». 

Собственно, отсюда и берет начало наша система аттестации. 

Вторая ее «идеологическая опора» — стандарт ISO 22301 «Security and resilience — Business continuity management systems» — «Безопасность и устойчивость – Системы управления операционной непрерывностью бизнеса». 

Этот стандарт непосредственно регулирует шаги компаний (во всех сферах, не только ИТ) по обеспечению непрерывного характера своей деятельности вне зависимости от наступления экстренных ситуаций и неблагоприятных внешних условий. 

Один из его пунктов указывает, что организация должна определить необходимые компетенции лиц, выполняющих работу, которая влияет на обеспечение ее бесперебойного функционирования. И далее по тексту, на компании накладываются обязательства по обеспечению компетенций этих лиц на основе соответствующего образования, подготовки или практического опыта. 

Этот процесс нужно поддерживать, совершенствовать и оценивать его результаты, сохраняя соответствующую документально подтвержденную информацию в качестве доказательства компетентности.

Наконец, третий «столп» нашей программы – собственный опыт нескольких лет последовательной работы над повышением скоординированности и эффективности работы инженерных служб. Этот опыт нашел отражение в нашей документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures), в том числе в части аттестации персонала. 

Четко задокументированные и формализованные процедуры в структуре бизнес-процессов площадки в Санкт-Петербурге позволяют оценивать профессиональный уровень работника и выявлять соответствие его квалификации занимаемой должности или выполняемой им работы.

Прохождение аттестации на знание инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределение ролей и зон ответственности между участниками дежурной смены и т. д. является обязанностью работников. 

Основные виды и главные задачи 

Зачем нам это нужно? С одной стороны – да, работали как-то без аттестации раньше, без нее также обходятся масса (да почти все) коллег по отрасли. 

С другой, следует понимать, что дата-центр – сложнейший инженерный объект, состоящий из множества подсистем, управление которыми требует высочайшей квалификации, ответственности и внимания. 

Мы постоянно занимаемся апгрейдом инженерных подсистем и групп процессов управления дата-центром. Только за последнее время были внедрены процессы профилактического ухода за дизель-генераторными установками и анализа качества поставляемого топлива для них, контроль уровня давления и «подпора» воздуха в серверных в помещениях и комплекс мер по предотвращению загрязнения воздуха. Также была проведена серьезная модернизация системы управления зданием (BMS), внедрен в эксплуатацию широкий спектр компонентов системы LOTO.

В ходе этих работ мы неоднократно убеждались, что любые методики контроля качества приносят хороший результат, только если они формализованы и применяются на регулярной основе – это еще одна причина ввода обязательной аттестации.

Кроме того, такие проверки помогают стимулировать рост эффективности и качества труда, определить необходимость повышения квалификации и «подтягивания» уровня знаний конкретных специалистов, а также организовать правильную расстановку кадров с учетом уровня их профессиональных знаний и навыков.

Перед плановой аттестацией руководители проводят подготовительную консультационную работу, а именно – за две недели аттестуемому персоналу сообщаются критерии аттестации, вопросы для экзамена, проводят разъяснительные консультации.

Все вопросы сопровождаются подробно разобранными ответами со ссылками на нормативные документы и инструкции. 

Процедура по сути

Аттестацию проводит комиссия в составе не менее трех человек, процедура состоит из двух этапов. 

На первом проводится тестирование аттестуемого работника в рамках опросников и тестов.  Общее количество вопросов – 60-70 в зависимости от специализации. Во время аттестации случайным образом выбираются 15.   Около 80% вопросов касаются непосредственно профессии, остальные 20% – смежных областей знаний и компетенций коллег по ЦОДу. 

Для проведения аттестации был разработан специальный внутренний портал, который позволил автоматизировать и сделать прохождение аттестации регистрируемым процессом



Примеры вопросов для сотрудников различных департаментов  

Механики 

Раздел «Maintenance» (Обслуживание)

  1. Когда запланировано следующее ТО систем, за которые вы отвечаете?
  2. Сколько сотрудников указано в списке на доступ от подрядчика, который будет проводить следующее ТО?
  3. Какая текущая версия и дата утверждения документа с контактами и SLA поставщиков? 
  4. Что такое Предупредительное обслуживание? (Predictive maintenance)? Дайте ссылку на инструкцию по Predictive maintenance и график его проведения.
  5. Какие виды технического обслуживания проводятся в ЦОД? Чем они отличаются? Где можно увидеть списки такого обслуживания?

Раздел EOP

  1. При какой температуре в помещениях ИБП нужно начинать выполнение EOP?
  2. При каком давлении в системе ХС нужно начинать выполнение EOP?
  3. Укажите действия при неисправности фанкойла «Water loss alarm».

ИТ-инженеры 

Раздел «Оборудование»

  1. Укажите ближайшую дату поверки средства измерения (и его тип) по вашим системам.
  2. Приложите ссылку на папку с документацией к любому оборудованию, относящемуся к вашим системам.
  3. Приложите ссылку на исполнительную документацию по любой из обслуживаемых вами систем.
  4. Приложите ссылку на папку с альбомом последних версий схем по обслуживаемым вами системам.

Раздел «Работа в системе инцидент-менеджмента»

  1. Как определить, какой приоритет нужно поставить обращению? 
  2. Если для решения проблемы нужна дополнительная информация от клиента, какой статус нужно выставить в тикете?
  3. Ваши действия при поступлении высокоприоритетных обращений в нерабочее время.
  4. Как правильно запросить дополнительную информацию от клиента?
  5. В чем разница в статусах On Hold и Waiting? Учитываются ли эти статусы при расчете времени решения обращения?

Инженеры-электрики 

Раздел «Общие инструкции, Приказы (Common Instructions, Orders)»

  1. Укажите ваши действия при пожаре в ЦОД и при пожаре в ДГУ.
  2. Укажите ваши действия при появлении неисправностей на пожарной панели ЦОД или ДГУ.
  3. Укажите ваши действия при ложном срабатывании систем пожаротушения ЦОД или ДГУ.
  4. Каким документом регламентируются работы в действующих электроустановках?
  5. Что должен сделать контролирующий системы мониторинга при появлении аварийных и предупредительных сообщений (за исключением периода перехода между источниками энергии)?
  6. Где располагается мастер-ключ для экстренного доступа в стойки клиентов?
  7. В каких инструкциях указаны меры по работе во время пандемии и какие они?

Как видно из приведенных примеров, мы учитываем текущие реалии, в которых работаем. В данном случае это вопросы по состоянию на декабрь 2020 года. 

Второй этап процедуры аттестации состоит из личного собеседования комиссии со специалистом. В работе аттестационной комиссии обязательное участие принимает непосредственный руководитель аттестуемого работника. 

Основными критериями, исходя из которых оцениваются профессиональные компетенции работника, являются уровень его подготовки, в том числе профессиональные навыки, итоги работы за определенный период времени, а также соответствие требованиям к занимаемой должности.

Решение принимается открытым голосованием большинством голосов.

Вердикты 

По результатам аттестации выносится заключение: 

  • занимаемой должности соответствует; 
  • соответствует, но не полностью (рекомендуется повторная аттестация); или 
  • не соответствует занимаемой должности. 

В первом случае сотрудника могут включить в резерв на вышестоящую должность, условия трудовых соглашений с ним не меняются. В последнем же рассматривается вопрос либо о переводе на другую работу, требующую более низкой квалификации, либо о расторжении трудового договора по п. 3 ч. 1 ст. 81 ТК РФ. 

Неполное соответствие чревато переводом с согласия сотрудника на другую работу, а также направлением на курсы повышения квалификации (дополнительного обучения).

Тяжело в учении – легко в бою 

Большую роль в процессе обучения сотрудников служб эксплуатации дата-центра играет практический аспект – тренировки и учения. 

В качестве примера приведем выдержки из итогового протокола учений по отработке действий сотрудников дежурной смены и охраны ЦОДа в Санкт-Петербурге.  

«Хронология событий

1050 – Произошел пожар (имитация) помещении 107. Сработала пожарная сигнализация и система голосового оповещения. 

1050 – Руководитель смены охраны объекта связался с дежурной сменой ЦОДа, сообщив им о месте пожара и поставил задачу сотруднику охраны по организации эвакуации клиентов ЦОДа.


1207 – Сотрудник охраны выдвинулся в ЦОД для проверки путей эвакуации, разблокировки калиток на путях эвакуации, проверки разблокировки полноростового турникета, организации эвакуации людей. Сотрудник охраны экипирован электрическим фонарем, изолирующим противогазом и рацией для связи.


1207 – Звонок сотрудника охраны ЦОДа старшему смены охраны ПСБ «СКАЙ-ТРЕЙД» с сообщением о происшествии в ЦОДе.

1208 – Начало эвакуации людей, не задействованных в обнаружении и локализации (ликвидации) пожара, из помещений ЦОДа.

1209 – Сотрудники дежурной смены ЦОДа выдвинулись для проверки причин срабатывания пожарной сигнализации и организации эвакуации людей из ЦОДа.


1211 – Сотрудники дежурной смены ЦОДа подошли к месту предполагаемого пожара. Сотрудники экипированы электрическими фонарями и изолирующими противогазами.


1212 – Доклад сотрудника охраны о том, что все помещения свободны и люди из ЦОДа эвакуированы.

1212 – Эвакуация завершена.


1215 – Перевод системы пожарной сигнализации и голосового оповещения из режима «Пожар» в дежурный режим. Окончание пожарно-технической тренировки».

Это – отчет о событийной канве мероприятия, которая, как мы видим, укладывается во временной промежуток продолжительностью чуть более одного часа.  Далее лица, ответственные за проведение учений, указывают выявленные несоответствия и перечисляют решения, принятые в отношении команды. 

В данном конкретном случае не был сымитирован звонок сотрудника дежурной смены на пульт пожарной охраны – поэтому оценка только «4». 

Рекомендовано повторить порядок действий при сигнале о пожаре в соответствии с инструкцией и проводить подобные учения для каждой смены персонала не реже 1 раза в квартал. 

Выводы и планы развития 

Формализация и документирование процессов помогают обеспечить историчность (отслеживание динамики), а также объективность оценок. 

На данном этапе развития направления нам удалось реализовать комплексный подход к обучению и проверке уровня знаний персонала ЦОДа, от которых зависят такие показатели, как непрерывность работы площадки, и, в конечном итоге, SLA для клиентов. 

В целом, реализованная нами система подтверждения знаний и умений – это общий тренд развития направления в будущем. Все решения по обеспечению непрерывности бизнеса строятся на архитектуре тесно увязанных между собой специалистов, политик, процедур и процессов, а также организационной структуры и ресурсов компании. 

И люди в этом перечне – на первом месте.
Источник: https://habr.com/ru/company/linxdatacenter/blog/548906/


Интересные статьи

Интересные статьи

Зачем нужна транспиляция в JavaScript Привет, Хабр! Сегодня мы расскажем, почему мы пишем фронтенд на Haskell и компилируем его в JavaScript. Вообще говоря, подобный процесс называется т...
Привет, Хабр! Меня зовут Иван Кизименко, я Head of Analytics в компании Outside. В этой статье мне хотелось бы рассказать о том, как и зачем мы разработали собственную кастомную систе...
Всем привет, меня зовут Ростислав, я занимаю должность Front Lead в компании ДомКлик. Хочу поделиться с вами опытом создания Front Core команды и сразу ответить на следующие вопросы...
Компании анонсируют искусственный интеллект в своей автоматизации, рассказывают о том, как они внедрили пару крутых систем обслуживания клиентов, но, звоня в техподдержку, мы продолжаем страдать ...
Основанная в 1998 году компания «Битрикс» заявила о себе в 2001 году, запустив первый в России интернет-магазин программного обеспечения Softkey.ru.