Новости по тегу "big data"
Подборка публикаций, содержащих тег "big data". Актуальные темы и важные события.

Рост продаж с одновременным ростом конверсии: подход билайн к внедрению AutoML в маркетинг
Выбрать лучшую рекомендацию для клиента в условиях ограничений коммуникационной нагрузки можно через оценку релевантности продукта, его влияния на...

Пишем движок SQL на Spark. Часть 8: CREATE FUNCTION
В предыдущих сериях ( 1 • 2 • 3 • 4 • 5 • 6 • 7 • Ы ) рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного...

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов
За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос,...

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow
Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере,...

Иногда приходится¹ копаться² в кишках³ Apache Spark
¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует. ² и да, довольно-таки глубоко. ³ нет, серьёзно!...

Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса
Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и...

Язык Julia: что это и почему он популярен в научных вычислениях
Согласно индексу TIOBE, Julia входит в топ-50 самых актуальных языков программирования в 2025 году и занимает в рейтинге 34-ю строчку.Julia...

Почему SCD Type 2 медленно работает в DWH, и как это чинится через Merge + Hash
Привет, Хабр!В этом статье рассмотрим, почему классическая реализация SCD Type 2 в DWH начинает жутко тормозить на миллионах строк и как с этим...

Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем
Почему, по данным экспертов GlowByte, целых 80% проектов внедрения систем бизнес-аналитики выходят за рамки изначально запланированного бюджета?...

Join таблиц в реальном времени на Apache Flink ( Часть 2 )
В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной...

DBT: трансформация данных без боли
Привет! Меня зовут Кирилл Львов, я fullstack-разработчик в компании СберАналитика. В этой статье хочу рассказать про мощный инструмент...

Эра Big Data: новые возможности в принятии решений
Big Data - это огромные объёмы данных, которые невозможно обработать с помощью традиционных методов.Они могут быть структурированными (например,...