DevOps-чеклист для черной пятницы
Краткое резюме
В статье представлен чек-лист для специалистов IT-сферы на «Чёрную пятницу». Он включает мониторинг и алерты, оценку нагрузки и нагрузочное тестирование, план действий при превышении нагрузки, подготовку дополнительных ресурсов, коммуникацию и эскалацию инцидентов.
Для CTO, CIO, DevOps, SRE и специалистов по эксплуатации
Здравствуйте!
Если ваш бизнес занимается продажей товаров или предоставлением услуг, то, вероятно, маркетологи уже разработали стратегию привлечения клиентов в Чёрную пятницу. Чтобы справиться с увеличением нагрузки без простоев, важно учесть несколько ключевых аспектов.
Вот основные моменты, которые следует проверить:
1. **Мониторинг**: убедитесь, что у вас настроен мониторинг на инфраструктурном, сервисном и бизнес-уровнях. Это позволит оперативно выявлять проблемы, такие как перегрузка серверов, кластеров или нод, а также отслеживать количество ошибок и успешных операций.
2. **Алерты**: настройте оповещения на основных метриках, чтобы система мониторинга предупреждала вас о проблемах до того, как о них узнают пользователи.
3. **Оценка нагрузки**: определите, какой объём нагрузки способен выдержать ваш продакшен. Обсудите с маркетингом ожидаемое увеличение трафика и пересчитайте общий ожидаемый трафик к пиковому.
4. **Нагрузочное тестирование**: проведите тестирование, чтобы убедиться, что система справится с пиковым трафиком.
5. **План действий при превышении нагрузки**: разработайте и согласуйте с бизнесом план отсечения пользователей, если трафик превысит возможности системы. Это позволит части пользователей продолжить использование системы.
6. **Дополнительные ресурсы**: убедитесь, что все сотрудники эксплуатации и разработки осведомлены о периодах повышенной нагрузки. Назначьте дополнительных дежурных на дни пикового трафика и убедитесь, что ключевые сотрудники доступны для решения экстренных задач.
7. **Коммуникация**: определите точный адрес звонка для сбора команды в случае возникновения проблем.
8. **Эскалация инцидентов**: дежурные первой линии поддержки или команды мониторинга должны быстро определять степень влияния инцидента на пользователей и следовать понятному плану эскалации.
9. **Ответственность**: на время повышения трафика за каждым компонентом должен быть закреплён ответственный человек, который выполнит его глубокую проверку в случае общего сбоя.
10. **Архитектурная карта**: убедитесь, что у вас есть архитектурная карта компонентов и их зависимостей, включая внешние сервисы.
Чтобы минимизировать риски инцидентов во время пиковых нагрузок, рекомендуется ввести фриз на изменения кода и инфраструктуры.
Пересылайте этот чеклист коллегам и делитесь своими мыслями о том, что можно добавить или изменить, в Downtime Bar.