В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения.
В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries.
Для извлечения данных мы будем использовать Python-библиотеки selenium
и BeautifulSoup
— они хорошо подходят для парсинга веб-страниц. Дополнительно применим re
для обработки текстовой информации с помощью регулярных выражений.