Новости по тегу "spark"
Подборка публикаций, содержащих тег "spark". Актуальные темы и важные события.

От сырого кликстрима к чистым датасетам: как мы в Lamoda Tech варим данные
Привет, Хабр! Это тимлид DS группы ранжирования и поиска Дана Злочевская и тимлид группы разработки Михаил Нестеров из Lamoda Tech. Как и у любой...

Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark
Всем привет! Меня зовут Алексей Николаев, я работаю дата-инженером в команде ETL-платформы MWS Data (ex DataOps). Часто сталкиваюсь с тем, что в...

Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество...

Что происходит с вашим JavaScript-кодом внутри V8. Часть 1
В этой серии статей мы пройдемся по каждому этапу работы V8: лексическому и синтаксическому анализу, построению AST, интерпретации и оптимизациям....

Пишем движок SQL на Spark. Часть 8: CREATE FUNCTION
В предыдущих сериях ( 1 • 2 • 3 • 4 • 5 • 6 • 7 • Ы ) рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного...

Соединение SortMergeJoin в Apache Spark
Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика...

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow
Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере,...

Иногда приходится¹ копаться² в кишках³ Apache Spark
¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует. ² и да, довольно-таки глубоко. ³ нет, серьёзно!...

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2
Всем привет, меня зовут Василий. С 2021 года работаю в роли инженера данных в Х5 Tech, успел за это время познакомиться с несколькими интересными...

SRE в инженерии данных: профессия и ее перспективы
Всем привет! Меня зовут Александр Андреев, я старший SRE инженер данных. Сегодня я хочу рассказать о необычной, но набирающей обороты роли в...

Машинное обучение в Apache Spark с помощью MLlib
Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. Она...

Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса
Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и...