Шоу-бизнес

Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

Краткое резюме

Венчурная компания Andreessen Horowitz разработала подход к созданию корпоративного хранилища данных DWH на основе единой инфраструктуры данных (Unified Data Infrastructure 2.0). Модель a16z включает миграцию аналитики в облако, переход к ELT-процессам и Dataflow Automation, а также self-service BI и усиление безопасности..

В современном мире для анализа и управления данными необходим системный подход, который интегрирует ETL, BI, ML и Data Governance в единую управляемую платформу. Внедрение и настройка программного обеспечения уже не удовлетворяют требованиям комплексного управления данными. Центральным элементом такой интегрированной платформы является корпоративное хранилище данных DWH. Оно должно быть гибким, масштабируемым и ориентированным на решение бизнес-задач. В статье рассматривается подход к созданию DWH на основе единой инфраструктуры данных (Unified Data Infrastructure), разработанной венчурной компанией Andreessen Horowitz. Анализируется, почему модель a16z становится новым стандартом для компаний, внедряющих корпоративные хранилища данных. Модель a16z, или Unified Data Infrastructure 2.0, возникла в результате исследований, проведённых экспертами Andreessen Horowitz в 2020 году среди передовых data-driven компаний. Были выявлены ключевые тренды, определяющие новую архитектуру данных: * Миграция инструментов аналитики в облако, обеспечивающая высокую гибкость, масштабируемость и простоту эксплуатации. * Потребность в более производительных и надёжных хранилищах, объединяющих возможности Data Lake и СУБД. * Замена ETL-процессов более гибкими ELT-пайплайнами. * Переход от стандартных инструментов оркестрации задач к концепции Dataflow Automation, где данные становятся центральным объектом и обрабатываются автоматически в рамках единого потока. * Доступность бизнес-аналитики, разработки отчётности и создания дашбордов для пользователей без технического бэкграунда (self-service BI). * Повышение требований к соблюдению политики безопасности и конфиденциальности, централизация процессов распределения прав доступа на data-платформе. Также отмечается увеличение числа разнообразных источников данных для аналитики, слияние аналитической, ИИ и ML-инфраструктур, рост популярности dbt и принципов DataOps. Все эти наблюдения привели Andreessen Horowitz к созданию подхода единой инфраструктуры данных Unified Data Infrastructure (UDI, модель a16z). В UDI все ключевые процессы работы с данными (сбор, хранение, трансформация, анализ, визуализация, ML) строятся на единой платформе, а отдельные технологии подбираются в зависимости от уникальных задач каждой конкретной компании. На данный момент актуальна версия Unified Data Infrastructure 2.0, цель которой — устранить разрозненность в ИТ-инфраструктуре и повысить управляемость данных на всех этапах жизненного цикла.

Фильтры и сортировка