Внедрение SRE-практик в компаниях может происходить по-разному. Где-то решение об этом принимает менеджмент, где-то это может быть инициатива снизу. В любом случае может встать вопрос: как организовать реагирование на инциденты и кто будет брать на себя лидерство в командах во время инцидента?
Перевели статью о двух моделях структуры для команд управления инцидентами — распределенной и централизованной. В ней рассматриваются плюсы и минусы каждой из моделей, а также примеры того, как каждая из них выглядит.
Два похода: распределённый и централизованный
В SRE-командах могут существовать два типа командиров:
1. Временный (распределенный). Это когда роль командира берёт на себя дежурный инженер или инженерный менеджер. Он исполняет её только во время инцидента.
2. Централизованный (штатный). Это когда кто-то является постоянным командиром (или одним из нескольких) на все инциденты.
Какая из этих стратегий лучше или хуже? Нет однозначного ответа, но важно учитывать преимущества и недостатки обоих, чтобы понять, какой из них лучше всего соответствует потребностям и задачам вашей организации. Возможно, что большинству команд необходимо сочетание обоих подходов — распределенного и централизованного.
Что такое распределенное управление инцидентами
При распределенной модели управления инцидентами любой сотрудник компании может взять на себя роль командира инцидента. Такой децентрализованный подход напоминает работу добровольных пожарных в небольших городах, где каждый житель отвечает за ликвидацию последствий пожара.
В большинстве компаний, использующих этот метод, существует система определения командира отделения. В некоторых компаниях командиром автоматически становится тот, кто прибыл на место происшествия в момент его обнаружения.
Примером организации, использующей подобную структуру, является бостонская компания Snyk, которая специализируется на разработке средств защиты. Культура компании Snyk поощряет ответственность и независимость, и эта философия распространяется и на управление инцидентами. Амир Мелер, менеджер по SRE, называет свою философию NoOps:
«NoOps означает, что у вас нет команды операторов. Вы сами ее создаете, сами ею управляете. Каждый носит с собой пейджер, и это часть его обязанностей».
Каковы плюсы и минусы распределенного управления инцидентами?
Гибкость распределенного управления инцидентами заключается в том, что можно привлекать широкий круг специалистов и не ограничиваться только одним конкретным подразделением. Грубо говоря, за счёт сотрудничества увеличивается уровень знаний и возможности отслеживания инцидентов.
Любой желающий в случае инцидента может взять на себя роль командира и рассчитывать на обширные знания, навыки и точки зрения других специалистов. Это позволяет принимать взвешенные решения и налаживать взаимодействие.
В то же время такой тип управления инцидентами имеет и некоторые недостатки. Например, управление инцидентами чаще всего становится для инженеров побочной работой, а не основной. Она отвлекает их от основной деятельности. Кроме того, при таком способе реагирования на инциденты приходится часто менять местами кресла, что может привести к тому, что никто не сможет полностью уделить внимание ни инцидентам, ни своей основной должности. Одним из решений этой проблемы может стать автоматизация и стандартизация каталогов услуг, рабочих книг и ретроспектив.
Что такое централизованное управление инцидентами?
Централизованный подход к управлению инцидентами, с другой стороны, представляет собой группу людей, которым вы полностью доверяете работу с инцидентами. Например, команды SRE, DevOps или платформы. В такой структуре большая часть работы командиров и команд — это именно реагирования на инциденты. Они их устраняют и совершенствуют процессы реагирования на них и больше ничего.
Примером компании, использующей такую структуру, является Recharge — финансовая технологическая компания. В компании Recharge есть две команды, входящие в состав группы инфраструктуры: DevOps и InfraOps. Обе они работают в тесном взаимодействии и разделяют нагрузку по вызову. В рабочее время все проблемы и инциденты решает команда InfraOps, а после окончания рабочего дня или в выходные дни используется ротация дежурных. Тот, кто находится на связи во время инцидента, является его руководителем.
«Мы очень хорошо понимаем процесс, — рассказывает руководитель программы Райан Киш, — и наша цель — помочь всем, кто попал в инцидент, пройти через наш процесс».
Другим примером такой модели является Avalara, где управление инцидентами осуществляется в центре инженерных операций (EOC). Философия заключается в том, что каждый может сообщить о проблеме в EOC, который затем выступает в роли командира инцидента и может привлекать других специалистов в зависимости от степени серьезности и требуемого опыта.
Каковы преимущества и недостатки централизованного управления инцидентами?
Централизованный подход предполагает, что вам нужно постоянно содержать специальную группу. Достаточно ли у вас для этого инцидентов? Если ответ положительный, то вам подойдет централизованный подход. Вы получите преимущества в виде четкой структуры, подотчетности и эффективного принятия решений в процессе реагирования. Консолидация полномочий и централизованное командование обеспечивает эффективную связь, целевое распределение ресурсов и последовательную практику управления инцидентами.
Однако такой подход имеет и свои недостатки: централизованный подход по своей природе является изолированным. Это может означать наличие независимых (а не межведомственных) бюджетов на инструменты и численность персонала, которые подлежат тщательному контролю. Кроме того, любая кросс-функциональная позиция сопряжена с дополнительными трудностями: коммуникацией, поддержкой и т.д.
Какая модель управления инцидентами лучше — распределенная или централизованная?
Выбор модели зависит от текущих потребностей, ресурсов и уровня зрелости компании в области управления инцидентами. Если у компании есть возможность централизовать управление инцидентами, то это следует сделать. При централизации у вас появляется больше ресурсов и опыта в области управления инцидентами. Это позволяет постоянно совершенствовать процессы, проводить общеинженерные тренинги и просто становиться лучше и быстрее, поскольку у вас есть штат сотрудников, которые занимаются именно этим.
Конечно, если вы еще не достигли этого уровня, то нет ничего плохого в распределенной модели. При распределенной модели можно добиться того, чтобы все сотрудники следовали одному и тому же процессу, находили время для обучения и стремились к совершенствованию.
Можно ли совместить два подхода? Да. Service-driven-подход позволяет эффективно объединить эти два подхода. В каждом инциденте есть командир и service owner. Командир — это оперативный сотрудник, который реагирует на инцидент при его обнаружении, и первое, что он делает, — привлекает менеджера, который является экспертом по затронутому сервису или функциональности.
Одним словом, дело не столько в том, как устроена ваша организация, сколько в том, что вы делаете в рамках этой структуры. Если вы следуете лучшим практикам управления инцидентами, вы можете добиться успеха в любом случае.
Поделитесь опытом, как устроена система управления инцидентами у вас? Она больше похожа на централизованную или распределённую?
Если вы планируете внедрять SRE-практики в вашей компании, вам предстоит определить команды. Также вам нужно будет обучить лидеров и сотрудников этих команд подходу и инструментам SRE. Это можно сделать в Слёрме на курсе SRE: data-driven подход к управлению надежностью систем. После него ваши сотрудники смогут:
Определять метрики, которые будут улучшать SRE, уметь ими пользоваться.
Выбирать политику улучшения этих метрик (подход к мониторингу, бюджет ошибок, соответствующую автоматизацию).
Реализовывать эти улучшения на практике.
Обученный сотрудник сможет организовать пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером.
Посмотреть программу курса и оставить заявку можно