Какие есть альтернативы Prometheus, если для метрик его стало недостаточно

Prometheus прекрасно подходит для краткосрочного мониторинга, но у этого решения есть свои ограничения по масштабу, и если вы столкнулись с высоким потреблением памяти/CPU, снижением скорости запросов или вам требуются уникальные лейблы вида user ID, то стоит подумать над внедрением альтернатив. На наш взгляд следующими после Prometheus в линейке стоят Thanos, Cortex, Mimir или VictoriaMetrics. Объективное, насколько это возможно, сравнение характеристик этих решений мы и проведем ниже.


СОДЕРЖАНИЕ


0. В каких случаях нужно задуматься о замене Prometheus
1. Обзор решений для долгосрочного хранения метрик
2. Сравнение решений: Thanos, Cortex, Mimir и VictoriaMetrics
3. Как выбрать подходящее решение
  • 3.1. Что важнее: простота или масштаб?
  • 3.2. Стоимость
  • 3.3. Надёжность и высокая доступность
  • 3.4. Насколько подходит по задачам?
4. Миграция с Prometheus на долгосрочное хранилище
5. Сохранение алертов и дашбордов
6. Как избежать потери данных при миграции
  • 6.1. Параллельный запуск и проверка
  • 6.2. Мониторинг очередей remote_write
  • 6.3. Аккуратное отключение Prometheus
  • 6.4. Резервное копирование
  • 6.5. Тестирование
7. Лучшие практики эксплуатации долгосрочного хранилища метрик
8. Высокая доступность и избыточность
9. Мониторинг состояния хранилища метрик
10. Обработка долгосрочных запросов и типовые ошибки

  • 10.1 Используйте recording rules для тяжёлых агрегаций
  • 10.2 Не злоупотребляйте лейблами с высокой кардинальностью
  • 10.3 Downsample старые точки данных
  • 10.4 Осторожно с федерацией Prometheus
11. Обслуживание и обновления (Maintenance & Upgrades)
12. Итого. Как жить с продакшн-наблюдением

Читать дальше →
9