Новости по тегу "dwh"
Подборка публикаций, содержащих тег "dwh". Актуальные темы и важные события.

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними
Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с...

Построение потока данных в облаке с использованием serverless сервисов
Привет!У бизнеса на практике часто встречается задача построить полноценную аналитику, используя данных из excel, csv файлов. Разнообразие...

Нагрузочное тестирование GP6 vs GP7 vs Cloudberry
Привет, Хабр! На связи Марк – ведущий архитектор группы компаний "ГлоуБайт". В этой статье я поделюсь результатами нагрузочного тестирования,...

Разработка DWH с нуля – особенности архитектуры
Проект по построению DWH с нуля был запущен по инициативе Заказчика в рамках крупной трансформации управленческой отчетности и аналитики. В статье...

Выбор стратегии компактизации в ScyllaDB
ScyllaDB — это высокопроизводительная NoSQL база данных, созданная как улучшенная версия Apache Cassandra на C++. Она способна обрабатывать...

Об индексах на столбцах с низкой кардинальностью
Что будет, если использовать B-tree индекс в базе данных на столбцах, где всего пара уникальных значений несколько десятком миллионов записей?...

DSL для битемпоральной шестой нормальной формы с UUIDv7
Шестая нормальная форма (6NF) играет ключевую роль в хранилищах данных (DWH), разбивая данные на мельчайшие части, привязанные ко времени...

Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы
Меня зовут Артем Москальков, я — ведущий инженер данных в Магнит OMNI. В статье я расскажу о том, как мы оптимизировали производительность...

Опыт миграции DWH и сложности, которые при этом возникают
Привет, меня зовут Владимир, я работаю во Flocktory дата-инженером и расскажу о том, как мы в процессе переезда с одного облака на другое...

DWH без иллюзий. Три реальных кейса внедрения корпоративного хранилища в ритейле, производстве и госсекторе
Проект построения хранилища данных — это не просто внедрение технологий, а глубокая трансформация подходов к данным и аналитике, учитывающая...

Data Mesh: ожидания vs реальность
Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные...

Максимизация производительности ScyllaDB
ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что...