Новости по тегу "spark"

Подборка публикаций, содержащих тег "spark". Актуальные темы и важные события.

Нет изображения

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество...

11.06.2025 09:50
5
Нет изображения

Что происходит с вашим JavaScript-кодом внутри V8. Часть 1

В этой серии статей мы пройдемся по каждому этапу работы V8: лексическому и синтаксическому анализу, построению AST, интерпретации и оптимизациям....

06.06.2025 08:53
6
Нет изображения

Пишем движок SQL на Spark. Часть 8: CREATE FUNCTION

В предыдущих сериях ( 1 • 2 • 3 • 4 • 5 • 6 • 7 • Ы ) рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного...

05.06.2025 13:20
6
Нет изображения

Соединение SortMergeJoin в Apache Spark

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика...

02.06.2025 13:09
10
Нет изображения

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере,...

02.06.2025 11:40
9
Нет изображения

Иногда приходится¹ копаться² в кишках³ Apache Spark

¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует. ² и да, довольно-таки глубоко. ³ нет, серьёзно!...

27.05.2025 12:54
11
Нет изображения

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2

Всем привет, меня зовут Василий. С 2021 года работаю в роли инженера данных в Х5 Tech, успел за это время познакомиться с несколькими интересными...

22.05.2025 13:18
11
Нет изображения

SRE в инженерии данных: профессия и ее перспективы

Всем привет! Меня зовут Александр Андреев, я старший SRE инженер данных. Сегодня я хочу рассказать о необычной, но набирающей обороты роли в...

22.05.2025 09:30
11
Нет изображения

Машинное обучение в Apache Spark с помощью MLlib

Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. Она...

21.05.2025 18:18
11
Нет изображения

Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса

Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и...

20.05.2025 09:59
11
Нет изображения

Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приёмов

В этой статье мы делимся опытом оптимизации Spark-кода на реальных задачах: рассказываем, как с помощью ручного и автоматического репартицирования...

15.05.2025 09:01
11
Нет изображения

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей...

24.04.2025 12:42
16