Prometheus прекрасно подходит для краткосрочного мониторинга, но у этого решения есть свои ограничения по масштабу, и если вы столкнулись с высоким потреблением памяти/CPU, снижением скорости запросов или вам требуются уникальные лейблы вида user ID, то стоит подумать над внедрением альтернатив. На наш взгляд следующими после Prometheus в линейке стоят Thanos, Cortex, Mimir или VictoriaMetrics. Объективное, насколько это возможно, сравнение характеристик этих решений мы и проведем ниже.
СОДЕРЖАНИЕ
0. В каких случаях нужно задуматься о замене Prometheus
1. Обзор решений для долгосрочного хранения метрик
2. Сравнение решений: Thanos, Cortex, Mimir и VictoriaMetrics
3. Как выбрать подходящее решение
- 3.1. Что важнее: простота или масштаб?
- 3.2. Стоимость
- 3.3. Надёжность и высокая доступность
- 3.4. Насколько подходит по задачам?
5. Сохранение алертов и дашбордов
6. Как избежать потери данных при миграции
- 6.1. Параллельный запуск и проверка
- 6.2. Мониторинг очередей remote_write
- 6.3. Аккуратное отключение Prometheus
- 6.4. Резервное копирование
- 6.5. Тестирование
8. Высокая доступность и избыточность
9. Мониторинг состояния хранилища метрик
10. Обработка долгосрочных запросов и типовые ошибки
- 10.1 Используйте recording rules для тяжёлых агрегаций
- 10.2 Не злоупотребляйте лейблами с высокой кардинальностью
- 10.3 Downsample старые точки данных
- 10.4 Осторожно с федерацией Prometheus
12. Итого. Как жить с продакшн-наблюдением
Читать дальше →