Новости по тегу "spark"
Подборка публикаций, содержащих тег "spark". Актуальные темы и важные события.

Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество...

Что происходит с вашим JavaScript-кодом внутри V8. Часть 1
В этой серии статей мы пройдемся по каждому этапу работы V8: лексическому и синтаксическому анализу, построению AST, интерпретации и оптимизациям....

Пишем движок SQL на Spark. Часть 8: CREATE FUNCTION
В предыдущих сериях ( 1 • 2 • 3 • 4 • 5 • 6 • 7 • Ы ) рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного...

Соединение SortMergeJoin в Apache Spark
Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика...

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow
Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере,...

Иногда приходится¹ копаться² в кишках³ Apache Spark
¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует. ² и да, довольно-таки глубоко. ³ нет, серьёзно!...

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2
Всем привет, меня зовут Василий. С 2021 года работаю в роли инженера данных в Х5 Tech, успел за это время познакомиться с несколькими интересными...

SRE в инженерии данных: профессия и ее перспективы
Всем привет! Меня зовут Александр Андреев, я старший SRE инженер данных. Сегодня я хочу рассказать о необычной, но набирающей обороты роли в...

Машинное обучение в Apache Spark с помощью MLlib
Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. Она...

Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса
Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и...

Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приёмов
В этой статье мы делимся опытом оптимизации Spark-кода на реальных задачах: рассказываем, как с помощью ручного и автоматического репартицирования...

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML
Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей...